Индексация сайта в Google: необходимость, особенности и результаты процесса
Индексация сайтов, то есть упорядочение контента в Google, помогает интернет-пользователям мгновенно получать ответы на запросы. Конечно, SEO-специалисты знают этот процесс в подробностях, а моя статья адресована непрофессионалам, ведь она содержит краткую «выжимку» информации — зачем нужна индексация Google и как сделать её результаты выгодными для своего сайта.
Чтобы появиться в выдаче по запросам, страница должна пройти три этапа.
- Сканирование. Систематически робот находит и вносит в базу поисковика новые или изменённые страницы. Отыскивает их для индексирования сам либо пользуется ссылками с других ресурсов, файлами Sitemap, сведениями от Google Sites и других хостингов. При сканировании изучает тексты, нетекстовый контент, дизайн, структуру.
- Индексирование. На этом этапе робот определяет содержание страницы. Изучение контента для индексации в Google затрагивает тексты и прочие объекты (графику, фото, видео, теги и др.). Лучше всего поисковая система распознаёт текстовые материалы, поэтому другие элементы страниц желательно сопровождать описаниями.
- Ранжирование в выдаче. По ключевому запросу в поисковой строке система выдаёт ссылки на релевантные сайты, которые внесены в её индекс (базу). При этом учитывает массу факторов: язык запроса и анализ лексики, геолокацию пользователя и тип устройства (ПК или мобильное), быстроту загрузки страниц, историю поиска и др.
Для максимального качества индексирования сайтов специалисты в Google системно работают над совершенствованием поисковых роботов и алгоритмов.
Например, компания сообщила, что за 2019 год провела свыше 464 000 экспериментов, связанных с удобством структурирования контента и конфиденциальностью данных пользователей. В результате внедрила за этот период 3620 изменений.
Очень важно, что о новшествах в индексировании компания Google сообщает за несколько месяцев до начала их массового применения. Это помогает владельцам площадок и вебмастерам «перекроить» ресурсы для повышения позиций в выдаче.
Что необходимо для индексации в Google
Так как проиндексировать сайт робот способен в Google только после сканирования, он должен сначала обнаружить свежие или обновлённые страницы. Значит, владельцу площадки или вебмастеру следует проверить:
- наличие ссылок на страницы, которые нужно показать поисковику — полное ли меню сайта, на все ли категории есть ссылки, на все ли страницы есть ссылки с сайта;
- доступность страниц и ресурсов сайта (CSS-стилей, изображений, JS-скриптов) — обнаруживаются ли они по ссылкам и как поисковик «видит» страницу в целом.
Для проверки числа проиндексированных страниц есть сервис Google Search Console (https://search.google.com/search-console/).
На вкладке «Индекс» — «Покрытие» будут показаны данные по индексированным страницам.
Но ещё удобнее проверять этот параметр с помощью оператора url:адрес страницы или site:адрес домена. Для чего в адресную строку вводится: «site:адрес_интересующего_сайта» или «url:адрес_интересующей_страницы».
Далее останется посмотреть, найдены ли ошибки. С интересующей нас точки зрения можно выделить ошибки двух типов: недоступность страницы в целом или некоторых элементов (незагружаемые ресурсы).
Недоступность страницы в целом
Физически доступная страница может не индексироваться и не добавляться в индекс из-за установленного в robots.txt запрета на сканирование либо в результате технической неисправности. Обнаружив эту ошибку, сервис Search Console сообщит вам. Причин может быть несколько.
Во-первых, запрет в robots.txt индексирования страниц, в том числе промежуточных. Проблема решается проверкой через инструменты Google Search Console простым удалением строки кода.
Следующая ошибка связана с тегом <noindex>. Он указывается в коде раздела <head>, чтобы закрыть страницу от индексации полностью. Этот же тег отмечает служебную информацию, которая не должна учитываться при обработке страницы поисковиком. Иногда разработчик забывает закрыть его, прописав «<meta name="robots" content="noindex" />», и весь контент становится недоступным. Ещё с помощью <noindex> закрывают части страницы (контакты, шапку), чтобы основное внимание поисковика сосредоточилось на более важной, по мнению разработчика, информации. Это грозит ухудшением ранжирования по продвигаемым запросам и понижением оценки сайта. Чтобы избежать ошибки, стоит открывать все информативные части страниц.
Далее — редирект 301, т. е. ошибки, связанные с перенаправлением на зеркало сайта (некорректные настройки, в т. ч. из-за использования/не использования www, приводят к перенаправлению в никуда), бесконечными цепочками перенаправлений, редиректом на несуществующие или битые страницы. И в этом же сегменте ошибок — применение редиректа 302 (временное перенаправление).
Ещё одна возможная ошибка — 404: страница отсутствует по указанному адресу. Следует проверить статус-коды всех рабочих страниц и, если отдаются коды, отличные от «200 OK», проверить настройки сервера.
Наконец, недоступность сервера. 5xx — ошибки, указывающие на невозможность работы страницы со стороны сервера.
Недоступность некоторых элементов (незагружаемые ресурсы)
Эта проблема бывает связана с загрузкой изображений, скриптов (кратких описаний последовательности действий системы), CSS-файлов (они задают шрифты, стили, цвета и прочие элементы, которые определяют внешний вид страницы).
Элементы контента скрыты директивой noindex.
Файлы, изображения битые или удалены.
Внешние подключаемые элементы не подгружаются из-за проблем с сайтом.
Неверно прописан редирект 301.
Ошибки в CSS-файлах, скриптах.
Проблемы со стороны сервера (ошибки 5xx).
Недоступность элементов страницы возможна как из-за одной из перечисленных ошибок, так и под влиянием их комбинации. Только выявив все проблемы, удастся открыть страницу для ботов и людей.
Как повысить эффективность индексирования
Для индексации сайта добавьте его в Google Search Console. Конечно, робот и без этого просканирует вашу площадку, но с регистрацией вы сможете отслеживать результаты тестирования, видеть принимаемые системой решения, наблюдать изменения в трафике, быстрее узнавать об ошибках и устранять их.
Индексирование любого сайта в Google можно контролировать, упрощая поисковому роботу анализ контента. Для этого:
придумывайте качественные заголовки страниц (title) — релевантные теме, информативные, лаконичные, не повторяющиеся на других страницах;
отдавайте предпочтение текстам, сопровождайте видео, изображения и другие визуальные материалы описаниями (атрибутами alt);
используйте на всех страницах заголовки h1, соответствующие контенту, помогающие сразу понять его суть (тематические);
используйте структурированные данные (сведения о странице и классификации контента) и добавляйте специальную разметку для них.
Способов, помогающих повысить эффективность индексирования в системе Google, много, но эти шаги специалисты выделяют как наиболее действенные.
Тарасенко
Получите профессиональный бесплатный SEO-аудит вашего сайта. Оставьте заявку и мы обсудим детали.
Получить бесплатный SEO-аудитЗапросите сканирование страниц вручную
Если хотите быстрее указать роботу новые или изменённые страницы и разделы, можете вручную запросить индексирование системой Google. Этот способ хорош, если страниц для проверки немного. Войдите в сервис Google Search Console, скопируйте в окно ввода URL и запустите поиск.
После проведённого системой анализа нажимайте кнопку «Запросить индексирование».
Обработав с помощью инструмента даже одну страницу, можно повысить скорость индексации сайта. Робот обнаружит ссылки, проставленные с указанной вами страницы, найдёт по ним на элементы, подлежащие индексированию и быстрее выполнит его.
Таков алгоритм действий, когда со страницей всё в порядке. Если же инструмент выявит ошибки, то покажет их, а вам придётся устранить обнаруженные проблемы, чтобы робот Google продолжил индексирование сайта.
Сервис Search Console бесплатный, но есть лимит на количество проверок в день. Раньше пользователь мог подать 500 заявок на проверку, теперь доступное число сократилось до 300. Возможное количество запросов на сканирование прямых ссылок и URL, напротив, увеличилось до 2 в день (ранее — 10 в месяц).
Google учитывает потребность в сканировании и его скорость, определяет список доступных URL, сведения о которых и соберёт Googlebot. Даже если не достигнута максимальная скорость сканирования, робот потратит на обработку сайта меньше времени.
Попадёт ли страница в топ, не зависит от запроса на сканирование. Играют роль фильтры ранжирования, на основе которых и производится расстановка по местам в выдаче.
Настройте и отправьте файл Sitemap
Хоть разработчики поисковых алгоритмов Google и утверждают, что файл Sitemap не всегда актуален для индексирования, опытные SEO-специалисты советуют не пренебрегать картой сайта. Особенно она актуальна, если нужно проверять множество адресов.
Sitemap концентрирует в себе сведения о структуре сайта. В документе отражена информация о страницах, можно указать наиболее важные разделы и элементы, даты обновлений, наличие разноязычных версий и прочее. Такие данные помогут поисковой системе точнее выбрать объекты сканирования.
Ссылку на готовый файл Sitemap добавьте в специальную форму на Search Console.
- На странице отчёта о файле Sitemap введите его URL.
- Нажмите «Отправить».
- Начнётся обработка файла.
Этот способ применяется, когда изменения коснулись многих страниц.
Не стоит отправлять Sitemap повторно, если изменений на площадке не было. А вот при обновлении страниц, данные которых зафиксированы в карте сайта, отправлять её нужно, причём важна корректность настройки Sitemap, в частности наличие:
URL всех проверяемых страниц;
элемента <lastmod> в каждом URL.
XML-тег <lastmod> показывает дату последнего обновления, и настроить генерацию следует так, чтобы она обновлялась при любых изменениях на странице. Кроме того, <lastmod> — показатель актуальности данных, а поисковики отдают приоритет именно свежей информации. Элемент <lastmod> не относится к обязательным, но настоятельно рекомендуется к использованию вообще для всех страниц, указанных в sitemap, и находится в родительском теге <url>.
Благодаря правильной настройке Sitemap система Google с большей вероятностью выполнит переобход именно обновлённых страниц.
Есть и другие варианты для сообщения поисковику о Sitemap. Строка с путём к файлу в обязательном порядке вставляется в robots.txt. При повторном сканировании сайта система обнаружит эту строку и воспользуется указанным путём. Чтобы сообщить Google, что Sitemap необходимо просканировать, отправляется HTTP-запрос GET в следующем виде: http://www.google.com/ping?sitemap=<полный путь к sitemap.xml>
Для всех сайтов и на постоянной основе в robots.txt (специальный файл, помещённый в корневой каталог и применяемый для регулирования процесса индексации) вставляют строку с путём к sitemap.xml. При повторном сканировании сайта система обнаруживает эту строку и пользуется указанным путём.
Не допускайте лишние страницы к сканированию
Чем меньше страниц требуется просканировать, тем скорее робот с этим справится, не растратив ресурс понапрасну. Поэтому:
не добавляйте в Sitemap ненужные для индексации страницы (например, одинакового содержания, но для компьютеров и мобильных устройств);
используйте тег <link> с атрибутом rel="canonical" (например, если карточка товара доступна в нескольких категориях по разным URL);
применяйте 301 редирект — постоянное перенаправление пользователя на другой адрес (например, для удалённых страниц);
закройте в robots.txt мусорные страницы (например, с техническими данными), но ещё лучше использовать запрет через тег <noindex>.
Исключив из запросов на сканирование страницы сайта, которые пока не нужно индексировать в Google, вы избавите свой сервер от перегрузки запросами и упростите задачу роботу.
Влияние качества оптимизации на индексацию
Чем лучше оптимизирован сайт, тем доступнее его страницы для роботов и пользователей, сканирование проходит быстрее. А при полезном контенте ещё и высок шанс хорошего индексирования в Google. Но что подразумевается под качественной оптимизацией, что нужно сделать для неё?
Избегайте ошибок, закрывающих контент
Препятствием к индексации сайта в Google может стать тег <noindex>, который «прячет» от поисковой системы часть контента. Тег не включён в официальную спецификацию HTML-языка, большинство валидаторов считают его ошибкой. Чтобы придать тегу валидность, важно правильно его использовать: <!--noindex--> исключаемый из индексации контент или код <!--/noindex-->.
Также способны помешать роботу лишние команды в robots.txt.
Применяйте структурированные данные и микроразметку
Полнота индексации в поисковой системе Google немало зависит от структурированных данных на сайте. При нарушении правил их использования проиндексированные страницы не попадут в расширенные результаты Google.
Микроразметка указывает поисковым роботам, какие именно элементы контента размещены, упрощает распознавание и работу со страницей. В результате растёт лояльность поисковой системы и пользователей к вашему ресурсу.
Используйте мета title, description, заголовочные теги <h*>
Метатеги помогают индексировать сайт в системе Google, поскольку кратко характеризуют содержание страниц. Поэтому теги необходимо не только использовать, но и качественно составлять. К ним предъявляется несколько общих требований: уникальность, информативность, релевантность странице размещения, наличие ключевых слов. Что касается краткости, то она относительна — для каждого типа тегов рекомендована своя длина.
Видимый пользователю сайта и роботам элемент title появляется в браузерной строке при переходе на ресурс. Оптимальный объём такого мета составляет 80–130 символов.
Пример:
<title>Мобильные телефоны - купить сотовый телефон в рассрочку, цены на мобильные телефоны в Москве в кредит - интернет-магазин Связной.</title>
В результатах поисковой выдачи пользователи видят сниппеты, сформированные чаще всего из description длиной 120–300 символов.
Пример:
<meta name="description" content="В интернет-магазине Связной представлен широкий выбор мобильного телефона, любой из которых можно купить в рассрочку без переплаты. В нашем каталоге вы можете подобрать сотовый телефон. Заказать и купить мобильный телефон по привлекательной цене, в том числе в кредит, можно в интернет-магазине – продажа осуществляется с доставкой по России.">
Отправившись на проиндексированную страницу, пользователи Google видят заголовок h1. Он составлен правильно, если примерно в 50 символах отражает суть контента и не дублирует title.
Пример:
<h1>Мобильные телефоны</h1>
Также на странице может быть по несколько заголовков h2–h6, создающих иерархию содержимого.
Проверяйте и исправляйте ошибки, используя отчёт «Статистика сканирования»
Всё, что сделал и выяснил за последние 90 дней на вашем сайте робот поисковой системы, отражается в отчёте «Статистика сканирования». Чтобы увидеть его, нужно зайти в настройки панели Search Console и выбрать соответствующий пункт. В отчёте «Статистика сканирования» даётся следующая информация:
число запросов сканирования;
цель сканирования;
ответы при сканировании;
среднее время ответа;
общий объём скачивания;
статус хоста;
тип файла;
тип робота Googlebot.
Статистический отчёт фиксирует выявленные ошибки. Вам останется лишь посмотреть их перечень и исправить, например, перед тем как запросить очередное индексирование системой Google.
Отсутствие скачков в диаграмме в течение 1–2 недель означает, что проблем нет, скорость сканирования стабильна. Небольшие колебания возможны при пополнении сайта страницами и разделами либо удалении части контента.
Если же показатели явно нестабильны, нужно искать и исправлять ошибку. Наиболее частые проблемы и пути их решения — в таблице:
Ситуация, из-за которой робот отказывается от сканирования | Решение |
---|---|
Изменение файла robots.txt, добавление нового или объёмного правила | Блокируйте доступ к страницам только по серьёзным причинам, не закрывайте файлы CSS и JavaScript |
Медленный ответ на запросы (бот ранжирует их ниже на порядок) | Проверьте скорость отклика страниц |
Некорректно сделанная HTML-разметка, неподдерживаемый контент, размещение на странице только графических объектов | Примените инструмент проверки URL*, это поможет выяснить, как Googlebot воспринимает страницы ресурса |
Ошибки сервера | Посмотрите отчёт об ошибках сканирования (через инструмент проверки URL), выявите и устраните причину |
* Инструмент проверки URL — один из способов диагностики в Google Search Console. Используется для симуляции отображения и сканирования URL на сайте. Результат работы: отчёт со сведениями об индексации страницы, предупреждениями и указанием ошибок.
При редком обновлении и низком качестве контента робот не спешит проиндексировать такую страницу, поскольку в Google приоритет отдаётся полезным актуальным ресурсам.
Система Search Console позволяет задать максимальную скорость сканирования. Однако пользоваться этой опцией в постоянном режиме нежелательно, лучше регулировать доступ к страницам.
Вся соль
Индексация помогает пользователям Google быстро получать ответы на запросы. Для этого система подвергает все сайты (включая отдельные страницы и разделы) сканированию, индексированию, ранжированию.
Так как запросы интернет-аудитории могут касаться разных сторон вашего проекта, проиндексировать сайт в Google робот должен полностью. Вам нужно позаботиться о ссылках на все категории и страницы, которые хотите открыть поисковику. Доступ к ним должен быть свободным — без авторизации.
Определить видимость площадки позволяет бесплатный сервис Search Console. Его инструментами можно указать тип сканируемых ресурсов, выявить и устранить ошибки на сайте, проанализировать адаптированность площадки к мобильным устройствам, получить отчёты.
Повысить эффективность индексирования удастся за счёт качественных заголовков, преимущественного использования текстов, удобства навигации, структурированных данных, метатегов. Внося изменения в сайт, стоит вручную запрашивать повторное сканирование, чтобы ускорить процесс.
Серьёзно влияет на действия Googlebot файл Sitemap, сообщающий системе о структуре площадки, тематике страниц. Регулировать поведение поискового бота помогает и robots.txt, исключающий ненужные для индексирования страницы.
В общем, возможностей для полезного вам взаимодействия с поисковой системой много. Но не забывайте, что в свой индекс она включает только площадки с полезным контентом, хорошо структурированные и оптимизированные. Поэтому не полагайтесь на авось и не ограничивайтесь непрофессиональными работами.
Чтобы ваш сайт наверняка оказался в индексе Google и чаще попадал в топ выдачи, доверьте работу специалистам. Причём разумнее не просто воспользоваться потенциалом SEO, а привлечь комплексные инструменты интернет-маркетинга.