Блог об интернет-маркетинге для предпринимателей и маркетологов
8 800 707-47-52

Индексация сайта в Google: необходимость, особенности и результаты процесса

Индексация сайтов, то есть упорядочение контента в Google, помогает интернет-пользователям мгновенно получать ответы на запросы. Конечно, SEO-специалисты знают этот процесс в подробностях, а моя статья адресована непрофессионалам, ведь она содержит краткую «выжимку» информации — зачем нужна индексация Google и как сделать её результаты выгодными для своего сайта.

Вот это скорость: на формирование 366 000 релевантных запросу результатов ушло меньше секунды! 

Чтобы появиться в выдаче по запросам, страница должна пройти три этапа.

  1. Сканирование. Систематически робот находит и вносит в базу поисковика новые или изменённые страницы. Отыскивает их для индексирования сам либо пользуется ссылками с других ресурсов, файлами Sitemap, сведениями от Google Sites и других хостингов. При сканировании изучает тексты, нетекстовый контент, дизайн, структуру.
  2. Индексирование. На этом этапе робот определяет содержание страницы. Изучение контента для индексации в Google затрагивает тексты и прочие объекты (графику, фото, видео, теги и др.). Лучше всего поисковая система распознаёт текстовые материалы, поэтому другие элементы страниц желательно сопровождать описаниями.
  3. Ранжирование в выдаче. По ключевому запросу в поисковой строке система выдаёт ссылки на релевантные сайты, которые внесены в её индекс (базу). При этом учитывает массу факторов: язык запроса и анализ лексики, геолокацию пользователя и тип устройства (ПК или мобильное), быстроту загрузки страниц, историю поиска и др.

Для максимального качества индексирования сайтов специалисты в Google системно работают над совершенствованием поисковых роботов и алгоритмов.

Например, компания сообщила, что за 2019 год провела свыше 464 000 экспериментов, связанных с удобством структурирования контента и конфиденциальностью данных пользователей. В результате внедрила за этот период 3620 изменений.

Очень важно, что о новшествах в индексировании компания Google сообщает за несколько месяцев до начала их массового применения. Это помогает владельцам площадок и вебмастерам «перекроить» ресурсы для повышения позиций в выдаче.

Содержание

Что необходимо для индексации в Google

Так как проиндексировать сайт робот способен в Google только после сканирования, он должен сначала обнаружить свежие или обновлённые страницы. Значит, владельцу площадки или вебмастеру следует проверить:

  1. наличие ссылок на страницы, которые нужно показать поисковику — полное ли меню сайта, на все ли категории есть ссылки, на все ли страницы есть ссылки с сайта;
  2. доступность страниц и ресурсов сайта (CSS-стилей, изображений, JS-скриптов) — обнаруживаются ли они по ссылкам и как поисковик «видит» страницу в целом.

Для проверки числа проиндексированных страниц есть сервис Google Search Console (https://search.google.com/search-console/).

Панель Google Search Console

На вкладке «Индекс» — «Покрытие» будут показаны данные по индексированным страницам.

Но ещё удобнее проверять этот параметр с помощью оператора url:адрес страницы или site:адрес домена. Для чего в адресную строку вводится: «site:адрес_интересующего_сайта» или «url:адрес_интересующей_страницы».

Далее останется посмотреть, найдены ли ошибки. С интересующей нас точки зрения можно выделить ошибки двух типов: недоступность страницы в целом или некоторых элементов (незагружаемые ресурсы).

Недоступность страницы в целом

Физически доступная страница может не индексироваться и не добавляться в индекс из-за установленного в robots.txt запрета на сканирование либо в результате технической неисправности. Обнаружив эту ошибку, сервис Search Console сообщит вам. Причин может быть несколько.

Во-первых, запрет в robots.txt индексирования страниц, в том числе промежуточных. Проблема решается проверкой через инструменты Google Search Console простым удалением строки кода.

Следующая ошибка связана с тегом <noindex>. Он указывается в коде раздела <head>, чтобы закрыть страницу от индексации полностью. Этот же тег отмечает служебную информацию, которая не должна учитываться при обработке страницы поисковиком. Иногда разработчик забывает закрыть его, прописав «<meta name="robots" content="noindex" />», и весь контент становится недоступным. Ещё с помощью <noindex> закрывают части страницы (контакты, шапку), чтобы основное внимание поисковика сосредоточилось на более важной, по мнению разработчика, информации. Это грозит ухудшением ранжирования по продвигаемым запросам и понижением оценки сайта. Чтобы избежать ошибки, стоит открывать все информативные части страниц.

Далее — редирект 301, т. е. ошибки, связанные с перенаправлением на зеркало сайта (некорректные настройки, в т. ч. из-за использования/не использования www, приводят к перенаправлению в никуда), бесконечными цепочками перенаправлений, редиректом на несуществующие или битые страницы. И в этом же сегменте ошибок — применение редиректа 302 (временное перенаправление).

Ещё одна возможная ошибка — 404: страница отсутствует по указанному адресу. Следует проверить статус-коды всех рабочих страниц и, если отдаются коды, отличные от «200 OK», проверить настройки сервера.

Наконец, недоступность сервера. 5xx — ошибки, указывающие на невозможность работы страницы со стороны сервера.

Недоступность некоторых элементов (незагружаемые ресурсы)

Эта проблема бывает связана с загрузкой изображений, скриптов (кратких описаний последовательности действий системы), CSS-файлов (они задают шрифты, стили, цвета и прочие элементы, которые определяют внешний вид страницы). 

Элементы контента скрыты директивой noindex.


Файлы, изображения битые или удалены.


Внешние подключаемые элементы не подгружаются из-за проблем с сайтом.


Неверно прописан редирект 301.


Ошибки в CSS-файлах, скриптах.


Проблемы со стороны сервера (ошибки 5xx).

Недоступность элементов страницы возможна как из-за одной из перечисленных ошибок, так и под влиянием их комбинации. Только выявив все проблемы, удастся открыть страницу для ботов и людей.

Как повысить эффективность индексирования

Для индексации сайта добавьте его в Google Search Console. Конечно, робот и без этого просканирует вашу площадку, но с регистрацией вы сможете отслеживать результаты тестирования, видеть принимаемые системой решения, наблюдать изменения в трафике, быстрее узнавать об ошибках и устранять их.

Объять необъятное? Можно!

Индексирование любого сайта в Google можно контролировать, упрощая поисковому роботу анализ контента. Для этого:

придумывайте качественные заголовки страниц (title) — релевантные теме, информативные, лаконичные, не повторяющиеся на других страницах;


отдавайте предпочтение текстам, сопровождайте видео, изображения и другие визуальные материалы описаниями (атрибутами alt);


используйте на всех страницах заголовки h1, соответствующие контенту, помогающие сразу понять его суть (тематические);


используйте структурированные данные (сведения о странице и классификации контента) и добавляйте специальную разметку для них.

Способов, помогающих повысить эффективность индексирования в системе Google, много, но эти шаги специалисты выделяют как наиболее действенные.

Максим
Тарасенко
Основатель ReMarketing

Получите профессиональный бесплатный SEO-аудит вашего сайта. Оставьте заявку и мы обсудим детали.

Получить бесплатный SEO-аудит

Запросите сканирование страниц вручную

Если хотите быстрее указать роботу новые или изменённые страницы и разделы, можете вручную запросить индексирование системой Google. Этот способ хорош, если страниц для проверки немного. Войдите в сервис Google Search Console, скопируйте в окно ввода URL и запустите поиск.

Инструмент проверки URL в действии — шаг 1

После проведённого системой анализа нажимайте кнопку «Запросить индексирование».

Инструмент проверки URL в действии — шаг 2

Обработав с помощью инструмента даже одну страницу, можно повысить скорость индексации сайта. Робот обнаружит ссылки, проставленные с указанной вами страницы, найдёт по ним на элементы, подлежащие индексированию и быстрее выполнит его.

Таков алгоритм действий, когда со страницей всё в порядке. Если же инструмент выявит ошибки, то покажет их, а вам придётся устранить обнаруженные проблемы, чтобы робот Google продолжил индексирование сайта.

Сервис Search Console бесплатный, но есть лимит на количество проверок в день. Раньше пользователь мог подать 500 заявок на проверку, теперь доступное число сократилось до 300. Возможное количество запросов на сканирование прямых ссылок и URL, напротив, увеличилось до 2 в день (ранее — 10 в месяц).

Google учитывает потребность в сканировании и его скорость, определяет список доступных URL, сведения о которых и соберёт Googlebot. Даже если не достигнута максимальная скорость сканирования, робот потратит на обработку сайта меньше времени.

Попадёт ли страница в топ, не зависит от запроса на сканирование. Играют роль фильтры ранжирования, на основе которых и производится расстановка по местам в выдаче.

Настройте и отправьте файл Sitemap

Хоть разработчики поисковых алгоритмов Google и утверждают, что файл Sitemap не всегда актуален для индексирования, опытные SEO-специалисты советуют не пренебрегать картой сайта. Особенно она актуальна, если нужно проверять множество адресов.

Sitemap концентрирует в себе сведения о структуре сайта. В документе отражена информация о страницах, можно указать наиболее важные разделы и элементы, даты обновлений, наличие разноязычных версий и прочее. Такие данные помогут поисковой системе точнее выбрать объекты сканирования.

Ссылку на готовый файл Sitemap добавьте в специальную форму на Search Console.

  1. На странице отчёта о файле Sitemap введите его URL.
  2. Нажмите «Отправить».
  3. Начнётся обработка файла.

Этот способ применяется, когда изменения коснулись многих страниц.

Так выглядит поле для добавления Sitemap в Search Console 

Не стоит отправлять Sitemap повторно, если изменений на площадке не было. А вот при обновлении страниц, данные которых зафиксированы в карте сайта, отправлять её нужно, причём важна корректность настройки Sitemap, в частности наличие: 

URL всех проверяемых страниц;


элемента <lastmod> в каждом URL. 

XML-тег <lastmod> показывает дату последнего обновления, и настроить генерацию следует так, чтобы она обновлялась при любых изменениях на странице. Кроме того, <lastmod> — показатель актуальности данных, а поисковики отдают приоритет именно свежей информации. Элемент <lastmod> не относится к обязательным, но настоятельно рекомендуется к использованию вообще для всех страниц, указанных в sitemap, и находится в родительском теге <url>.

Пример внедрения элемента <lastmod> в родительский тег <url>

Благодаря правильной настройке Sitemap система Google с большей вероятностью выполнит переобход именно обновлённых страниц.

Есть и другие варианты для сообщения поисковику о Sitemap. Строка с путём к файлу в обязательном порядке вставляется в robots.txt. При повторном сканировании сайта система обнаружит эту строку и воспользуется указанным путём. Чтобы сообщить Google, что Sitemap необходимо просканировать, отправляется HTTP-запрос GET в следующем виде: http://www.google.com/ping?sitemap=<полный путь к sitemap.xml>

Так выглядит уведомление от Google о получении Sitemap

Для всех сайтов и на постоянной основе в robots.txt (специальный файл, помещённый в корневой каталог и применяемый для регулирования процесса индексации) вставляют строку с путём к sitemap.xml. При повторном сканировании сайта система обнаруживает эту строку и пользуется указанным путём.

Не допускайте лишние страницы к сканированию

Чем меньше страниц требуется просканировать, тем скорее робот с этим справится, не растратив ресурс понапрасну. Поэтому:

не добавляйте в Sitemap ненужные для индексации страницы (например, одинакового содержания, но для компьютеров и мобильных устройств);


используйте тег <link> с атрибутом rel="canonical" (например, если карточка товара доступна в нескольких категориях по разным URL);


применяйте 301 редирект — постоянное перенаправление пользователя на другой адрес (например, для удалённых страниц);


закройте в robots.txt мусорные страницы (например, с техническими данными), но ещё лучше использовать запрет через тег <noindex>.

Исключив из запросов на сканирование страницы сайта, которые пока не нужно индексировать в Google, вы избавите свой сервер от перегрузки запросами и упростите задачу роботу.

Влияние качества оптимизации на индексацию

Чем лучше оптимизирован сайт, тем доступнее его страницы для роботов и пользователей, сканирование проходит быстрее. А при полезном контенте ещё и высок шанс хорошего индексирования в Google. Но что подразумевается под качественной оптимизацией, что нужно сделать для неё?

Избегайте ошибок, закрывающих контент

Препятствием к индексации сайта в Google может стать тег <noindex>, который «прячет» от поисковой системы часть контента. Тег не включён в официальную спецификацию HTML-языка, большинство валидаторов считают его ошибкой. Чтобы придать тегу валидность, важно правильно его использовать: <!--noindex--> исключаемый из индексации контент или код <!--/noindex-->.

Также способны помешать роботу лишние команды в robots.txt.

Применяйте структурированные данные и микроразметку

Полнота индексации в поисковой системе Google немало зависит от структурированных данных на сайте. При нарушении правил их использования проиндексированные страницы не попадут в расширенные результаты Google.

Не нарушай правила!

Микроразметка указывает поисковым роботам, какие именно элементы контента размещены, упрощает распознавание и работу со страницей. В результате растёт лояльность поисковой системы и пользователей к вашему ресурсу.

Используйте мета title, description, заголовочные теги <h*>

Метатеги помогают индексировать сайт в системе Google, поскольку кратко характеризуют содержание страниц. Поэтому теги необходимо не только использовать, но и качественно составлять. К ним предъявляется несколько общих требований: уникальность, информативность, релевантность странице размещения, наличие ключевых слов. Что касается краткости, то она относительна — для каждого типа тегов рекомендована своя длина.

Видимый пользователю сайта и роботам элемент title появляется в браузерной строке при переходе на ресурс. Оптимальный объём такого мета составляет 80–130 символов.

Пример:

<title>Мобильные телефоны - купить сотовый телефон в рассрочку, цены на мобильные телефоны в Москве в кредит - интернет-магазин Связной.</title>

В результатах поисковой выдачи пользователи видят сниппеты, сформированные чаще всего из description длиной 120–300 символов.

Пример:

<meta name="description" content="В интернет-магазине Связной представлен широкий выбор мобильного телефона, любой из которых можно купить в рассрочку без переплаты. В нашем каталоге вы можете подобрать сотовый телефон. Заказать и купить мобильный телефон по привлекательной цене, в том числе в кредит, можно в интернет-магазине – продажа осуществляется с доставкой по России.">

Отправившись на проиндексированную страницу, пользователи Google видят заголовок h1. Он составлен правильно, если примерно в 50 символах отражает суть контента и не дублирует title.

Пример:

<h1>Мобильные телефоны</h1>

Также на странице может быть по несколько заголовков h2–h6, создающих иерархию содержимого.

Получите коммерческое предложение по SEO
Узнать подробнее

Проверяйте и исправляйте ошибки, используя отчёт «Статистика сканирования»

Всё, что сделал и выяснил за последние 90 дней на вашем сайте робот поисковой системы, отражается в отчёте «Статистика сканирования». Чтобы увидеть его, нужно зайти в настройки панели Search Console и выбрать соответствующий пункт. В отчёте «Статистика сканирования» даётся следующая информация:

число запросов сканирования;


цель сканирования;


ответы при сканировании;


среднее время ответа;


общий объём скачивания;


статус хоста;


тип файла;


тип робота Googlebot.

Статистический отчёт фиксирует выявленные ошибки. Вам останется лишь посмотреть их перечень и исправить, например, перед тем как запросить очередное индексирование системой Google.

Так выглядит результат сканирования в статистическом отчёте системы

Отсутствие скачков в диаграмме в течение 1–2 недель означает, что проблем нет, скорость сканирования стабильна. Небольшие колебания возможны при пополнении сайта страницами и разделами либо удалении части контента.

Если же показатели явно нестабильны, нужно искать и исправлять ошибку. Наиболее частые проблемы и пути их решения — в таблице:

Ситуация, из-за которой робот отказывается от сканированияРешение
Изменение файла robots.txt, добавление нового или объёмного правилаБлокируйте доступ к страницам только по серьёзным причинам, не закрывайте файлы CSS и JavaScript
Медленный ответ на запросы (бот ранжирует их ниже на порядок)Проверьте скорость отклика страниц
Некорректно сделанная HTML-разметка, неподдерживаемый контент, размещение на странице только графических объектовПримените инструмент проверки URL*, это поможет выяснить, как Googlebot воспринимает страницы ресурса
Ошибки сервераПосмотрите отчёт об ошибках сканирования (через инструмент проверки URL), выявите и устраните причину

* Инструмент проверки URL — один из способов диагностики в Google Search Console. Используется для симуляции отображения и сканирования URL на сайте. Результат работы: отчёт со сведениями об индексации страницы, предупреждениями и указанием ошибок.

При редком обновлении и низком качестве контента робот не спешит проиндексировать такую страницу, поскольку в Google приоритет отдаётся полезным актуальным ресурсам.

Система Search Console позволяет задать максимальную скорость сканирования. Однако пользоваться этой опцией в постоянном режиме нежелательно, лучше регулировать доступ к страницам.

Вся соль

Индексация помогает пользователям Google быстро получать ответы на запросы. Для этого система подвергает все сайты (включая отдельные страницы и разделы) сканированию, индексированию, ранжированию.

Так как запросы интернет-аудитории могут касаться разных сторон вашего проекта, проиндексировать сайт в Google робот должен полностью. Вам нужно позаботиться о ссылках на все категории и страницы, которые хотите открыть поисковику. Доступ к ним должен быть свободным — без авторизации.

И тогда перед вами откроются все двери

Определить видимость площадки позволяет бесплатный сервис Search Console. Его инструментами можно указать тип сканируемых ресурсов, выявить и устранить ошибки на сайте, проанализировать адаптированность площадки к мобильным устройствам, получить отчёты.

Повысить эффективность индексирования удастся за счёт качественных заголовков, преимущественного использования текстов, удобства навигации, структурированных данных, метатегов. Внося изменения в сайт, стоит вручную запрашивать повторное сканирование, чтобы ускорить процесс.

Серьёзно влияет на действия Googlebot файл Sitemap, сообщающий системе о структуре площадки, тематике страниц. Регулировать поведение поискового бота помогает и robots.txt, исключающий ненужные для индексирования страницы.

В общем, возможностей для полезного вам взаимодействия с поисковой системой много. Но не забывайте, что в свой индекс она включает только площадки с полезным контентом, хорошо структурированные и оптимизированные. Поэтому не полагайтесь на авось и не ограничивайтесь непрофессиональными работами.

Работа дилетанта: активности уйма, результата ноль

Чтобы ваш сайт наверняка оказался в индексе Google и чаще попадал в топ выдачи, доверьте работу специалистам. Причём разумнее не просто воспользоваться потенциалом SEO, а привлечь комплексные инструменты интернет-маркетинга.

Содержание
Получите коммерческое предложение по SEO
Узнать подробнее
Пожалуйста, поверните телефон