Надоело ждать, пока Google проиндексирует ваш новый контент? Вы можете помочь ему в этом, сделав страницы были доступными для просмотра.
Сколько времени может занять индексация, что можно сделать, чтобы ускорить этот процесс и многое другое – в этой статье.
Индексирование — это процесс загрузки информации с сайта и ее распределение с последующим хранением в базе данных. Неиндексированные страницы не могут появиться в результатах поиска. Независимо от того, насколько они релевантны запросу.
Давайте представим, что вы недавно добавили новую страницу в своем блоге. Так, создавая пост, вы надеетесь, что сможете заполучить большое количество свежего трафика, раскрывая какую-нибудь злободневную и актуальную тему. И это будет так, но только в том случае, если Google проиндексирует вашу страницу.
Но как долго это будет продолжаться? Как понять, когда отсутствие индексации приводит к проблемам на сайте?
Давайте разберемся!
Сколько времени занимает индексация
Google содержит копии сотен миллиардов страниц. Они все занимают в общей сложности более 100 миллионов гигабайт памяти. Но, тем не менее, поисковая машина Google ограничивает количество страниц на сайте, которые могут быть проиндексированы. Несмотря на то, что некоторые URL-адреса заслуживают быть проиндексированными первыми (по мнению алгоритмов Google), конкуренции в этой нише не наблюдается.
Но вам нужно иметь в виду, что не каждая страница, изученная ботами-краулерами, будет проиндексирована. В январе 2021 года Джон Мюллер уточнил, что это нормальное явление. Он объяснил, что Google порой бывает тяжело найти золотую середину между качеством и количеством, поэтому во многих случаях отказ Google от проведения индексации того или иного контента можно считать стратегическим (и чаще всего) обоснованным решением.
Google не терпит, когда под индексацию попадают некачественные, невостребованные страницы или дублированный контент.
И тут вы можете задаться вопросом: «Но ведь когда я буду создавать новые страницы в блоге, они же все равно будут индексироваться?»
На самом деле на этот вопрос достаточно сложно ответить однозначно.
Томек Рудзки, эксперт по индексации в Onely, подсчитал, что в среднем 16% страниц на популярных сайтах никогда не индексируются.
Так как же тогда можно получить гарантии того, что ваша страница будет проиндексирована, а не проигнорирована?
Как вы, наверное, уже догадались, однозначного ответа на этот вопрос нет.
Многие люди задавали его, надеясь на то, что опытные SEO-специалисты смогут дать хотя бы несколько подсказок по тому, как увеличить шансы на индексацию контента. И вот что удалось выяснить:
Джон Мюллер говорит, что индексация может занять от нескольких часов до нескольких недель. Он также отмечает, что, как правило, большинство действительно хорошего контента ранжируется в течение одной недели.
Крис Рудзки провел исследование по просьбам своих читателей, и выяснил, что в среднем 83% страниц индексируются в течение первой недели после публикации.
Конечно, иногда приходится ждать не одну, не две, и даже не три недели. Но исследования вкупе с заявлениями некоторых SEO-специалистов свидетельствуют о том, что хорошие страницы в подавляющем большинстве случаев проходят все процедуры индексации в рамках одной недели.
Краулинговый бюджет и спрос
Чтобы ваша новая страница была проиндексирована, Googlebot должен обратить на нее внимание. То, с какой частотой он изучает ваш ресурс, влияет на скорость индексации.
Существуют два вида сайтов: с высоким краулинговым спросом и низким.
К сайтам с высоким краулинговым спросом можно отнести новостные ресурсы, которые часто публикуют новый контент.
К сайтам с низким краулинговым спросом можно отнести ресурсы, оперирующие в какой-нибудь локальной нише. Это может быть, например, страница, посвященная истории кузнечного дела. Контент на ней будет обновляться редко (если вообще будет).
Google автоматические определяет краулинговые нужды сайта. Что интересно – делает он это без оглядки на качество контента. Решающим фактором является то, насколько часто вы обновляете материал.
Во внимание стоит принять такой показатель, как скорость краулинга. Если говорить проще, то это количество запросов, которое может сделать Googlebot, не перегружая сервер. Удобно то, что если ваш сайт находится на сервере с низкой пропускной способностью, то бот Google скорректирует своих краулеров так, чтобы они не приводили к падению производительности на ресурсе.
Процесс индексации
Индексация занимает определенное время, поэтому у многих специалистов могут возникнуть вполне резонные вопросы: «А на что именно это время тратится? Как информация с сайта будет категорирована? Как она попадет в поисковую выдачу Google?»
Давайте поговорим о том, что должно произойти до начала процесса индексации.
Анализ контента
Допустим, вы опубликовали новую запись в своем блоге. На первом этапе индексации Googlebot должен обнаружить URL-адрес этой страницы. Он может сделать это несколькими путями:
- По внутренним ссылкам, которые вы указали на других страницах.
- По внешним ссылкам, которые были созданы третьими лицами, посчитавшими ваш контент полезным и информативным.
- Путем просмотра sitemap файла, который вы загрузили в Google Search Console.
Если страница была обнаружена Google, то он осведомлен о ее существовании и, вероятно, скоро приступит к индексации.
Краулинг
Краулинг – это посещение ботом страницы и получение ее содержимого. В процессе краулинга Googlebot собирает информацию о контенте: о том, какие файлы загружены, какие ключевые слова встречаются и еще многое другое.
Обнаружив на странице ссылки, краулер переходит по ним на другую страницу, и этот цикл может продолжаться до бесконечности.
Важно помнить, что Googlebot следует алгоритмам, прописанным в robots.txt. Он не будет просматривать заблокированные страницы, если обнаружит таковые. Обычно они помечаются тегом noindex.
Рендеринг
Рендеринг необходим для того, чтобы Googlebot смог оценить скрипты Java и медиаконтент – аудио, видео и GIF-файлы.
Стоит отметить, что медиа всегда представляли для Google большую проблему, чем HTML. Так, Мартин Сплитт сравнивает процесс рендеринга с готовкой:
Он говорит, что исходный HTML-файл со ссылками на другой материал – это своего рода рецепт, который вы можете посмотреть в любое время, нажав клавишу F12, пока открыт браузер. Все материалы на сайте, такие как CSS, файлы JavaScript, изображения и видео, – это, в свою очередь, ингредиенты, которые необходимо равномерно добавить и смешать, чтобы сайт приобрел окончательный и полноценный вид.
Мартин также уточняет, что исследование скриптов Java – это самый первый этап рендеринга. Все должно начинаться именно с него.
Еще совсем недавно Googlebot сначала индексировал HTML-версию страницы, и только потом приступал к рендерингу скриптов Java. Такой подход обуславливался тем, что рендерить Java – это дорого и сложно, но сейчас, с приходом все современных и новых алгоритмов, задача значительно упростилась. Тогда такой подход носил название «две волны индексации». Сейчас необходимость в нем отпала.
Google всегда стремится объединить процессы краулинга, рендеринга и индексирования – максимально «сроднить» их.
Можете ли ускорить индексацию?
К сожалению, нет. Вы не можете ускорить индексацию. Но в вашей компетенции находится оптимизация страниц – хорошие URL-адреса имеют все шансы пройти через все необходимые процедуры Google в течение одной недели.
Вот что вы можете сделать:
Убедиться в возможности индексации
Чтобы страницы были индексируемыми, необходимо соблюдать два правила:
- Избегайте блокировки с помощью robots.txt или тега noindex.
- Отмечайте каноническую версию с помощью соответствующего тега canonical.
P.S. robots.txt – это такой файл, который содержит инструкции и алгоритмы для краулеров, исследующих ваш сайт. С его помощью вы сможете настроить то, как боты Google будут посещать ваши страницы. Попробуйте использовать тег disallow и посмотрите, что из этого выйдет.
Давайте приведем пример, чтобы было понятнее, как всем этим пользоваться. Так, если вы не хотите, чтобы боты краулили страницы в папке example, файл robots.txt должен содержать следующие директивы:
User-agent: *
Disallow: /example/
Иногда по ошибке можно заблокировать доступ Google ботам к индексации действительно важных и ценных страниц. Что делать в таком случае? Загляните в robots.txt – внимательно проверьте там все. Обратите внимание на теги noindex, disallow, X-Robots в HTTP и robots в разделе <head>. Убедитесь, что они все находятся там, где действительно нужны.
Google хочет избежать индексации дубликатов. Если он обнаружит две страницы, которые выглядят одинаково, он, скорее всего, проиндексирует только одну из них. Тег canonical был создан для того, чтобы избежать недоразумений и направить Googlebot на нужную версию страницы.
Помните, что исходный код страницы, которую вы хотите видеть в Google, не должен ссылаться на другую страницу как на каноническую.
Сделайте sitemap
Файл sitemap может содержать до 50 тысяч уникальных URL-адресов, которые вы хотели бы проиндексировать. Вы можете отправить его в Google Search Console, чтобы помочь поисковой машине быстрее обнаружить ваш контент.
Файл sitemap облегчает Google ботам поиск ваших страниц и повышает вероятность того, что они будут просмотрены и изучены. Дело в том, что краулеры иногда могут не заметить некоторые ваши URL-адреса (например, при переходе по внутренним ссылкам), поэтому лучше помочь им в обнаружении материала. Сделайте ссылку на sitemap в robots.txt.
Заставьте Google изучить ваши страницы подробнее
Вы можете запросить у Google повторный анализ некоторых страниц с помощью утилиты URL Inspection. Она есть в Google Search Console. Конечно, это также не будет гарантировать индексацию, но это еще один способ убедиться в том, что поисковая машина знает о существовании вашего сайта, и делает все возможное, чтобы вывести его в выдачу.
Используйте Indexing API (если уместно)
Indexing API – это программа, уведомляющая Google о появлении новых страниц. Благодаря этому инструменту поисковик может эффективнее планировать индексацию некоторых сайтов. Это особенно актуально для ресурсов, у которых нет много времени на «раскачку».
Стоит, впрочем, отметить, что Indexing API подходит только для страниц с предложениями о работе или с обилием медиаконтента на них. Вы не сможете использовать его для своей страницы в блоге (если на ней не будет картинок, видео или GIF-изображений).
Вы можете справедливо отметить, что некоторые SEO-специалисты используют Indexing API как раз-таки для страниц без медиаконтента, и окажетесь правы. Но, как показывает практика, это работает только в краткосрочной перспективе. На дистанции это не работает.
Не перегружайте сервер
Сделали все, что описано в предыдущих пунктах? Отлично. Теперь не забудьте обеспечить хорошую пропускную способность, чтобы боты Google не теряли скорость во время краулинга.
Избегайте использование виртуальных хостингов и регулярно проводите стресс-тесты сервера, чтобы убедиться, что все работает, как надо.
Подытожим
Невозможно точно предсказать, сколько времени потребуется для индексации страницы (и будет ли она проиндексирована вообще). Мы уже знаем о том, что Google обрабатывает не все страницы.
Если вы считаете свой контент оптимизированным и релевантным, и не можете найти никаких технических ошибок, то обратите внимание на то, как работает Googlebot. Веб-сайты, которые чаще меняются, являются первоочередными на индексацию.
Когда Googlebot заходит на сайт, его скорость краулинга зависит от количества запросов, которые он может отправить на сервер, не перегружая его. Это и есть та причина, по которой вам следует озаботиться стабильностью ресурса.
Не блокируйте Googlebot в robots.txt! Иначе боты поисковой машины не смогут получить доступ к вашим веб-страницам.
Источник: https://www.searchenginejournal.com/how-long-before-google-indexes-my-new-page/464309/