Как работают поисковые системы

Принципы работы поисковиков, как индексируются сайты

В предыдущей статье мы зарегистрировали наш сайт в Яндекс Вебмастере и Google Search Console. А сегодня разберем как вообще работают гугл и яндекс, и каким образом индексируются сайты.

Индексация сайта в яндексе и гугле

Вообще, как поисковик узнает о вебстраничках вашего сайта? У каждого поисковика существуют роботы-краулеры (crawlers), которые обходят весь интернет по гиперссылкам и ищут новые сайты, свежие странички на сайтах, изредка переобходят старые странички ища контент для пользователей. Эти роботы-пауки беспрестанно трудятся, шерстя интернет, и записывая актуальную информацию в свои архивы. Этот процесс так и называется индексация сайтов.

Представим ваш свежесозданый сайт. Как краулеры узнают о его наличии?

  • Во-первых, мы добавили сайт в инструменты поисковика (в предыдущей статье), и теперь роботы знают о его существовании, и начнут индексировать через время.
  • Во-вторых, можно воспользоваться сервисом addurl от гугла (www.google.com/webmasters/tools/submit-url?continue/addurl), или «переобход страниц» от яндекса webmaster.yandex.ru/site/indexing/reindex. Но это, если честно, такое себе занятие и этими сервисами лучше пользоваться скорее для переиндексации уже существующих страничек (если изменился контент, например).
  • Зато можно воспользоваться инструментом «Оригинальные тексты» от Яндекса. Добавляйте туда уникальные статьи и яша в ожидании зайдет раз другой на ваш ресурс.
  • Ну и, в-третьих, разместить ссылочки на ваш сайт на крупных ресурсах. К примеру, разместить их в соцсетях. Это весьма действенный метод для улучшения индексирования, и ниже я напишу почему.

Разные сайты индексируются по разному

Существуют в сети сайты, на которых обновления случаются очень часто. Возьмем к примеру социалки — постоянно изменяется/добавляется контент. Краулеры с него практически не уходят, постоянно индексируя. И вебстранички попадают в индекс практически моментально. А существуют сайты, на которых свежий контент появляется достаточно редко — роботы от яндекса или гугла на него заходя не так часто. Зайдут, посмотрят — ничего не изменилось — уйдут. Чем реже появляются новые статьи — тем реже они ходят по сайту.

Совет — почаще публикуйте материалы на сайте, и боты будут чаще присматривать за ним. А пока сайт молод — размещайте ссылки на ваш сайт в крупных социалках. Быстроботы, индексируя контент социальных сетей, за компанию проиндексируют и ваши материалы.

А что происходит после индексирования?

Хороший вопрос. Например ваш сайт уже загружен(это можно посмотреть, например, в яндекс вебмастере), но в поиске до сих пор не отображается.

На картинке подчеркнуто: «397 загружено» — эта цифра сколько страниц на вашем сайте загружено поисковым роботом в базу. И «87 в поиске» — эта цифра показывает сколько страниц отображается в выдаче. Проиндексировано 397, но отображаться могут не все. Например, в поиске не отображается 404 ошибка, может не отображаться фильтрация по тегам и рубрикам, служебные страницы и так далее. Это в общем-то нормально. Хотя это, возможно,говорит о том что есть дубли, но это совсем другая тема.

Нюансы работы Яндекса

В Яндекс поиск сайты попадают не сразу после индексирования. Существует понятие «апдейт».

Апдейт — от слова update — суть обновление. В яндексе существует поисковая база (в ней хранится контент ваших вебстраниц) и поисковая выдача (список ресурсов, которые выдает поисковик по запросу). Именно их обновления называются апами.

Так вот эти апы происходят не одновременно — это раз. То есть вначале может произойти обновление архива текстов на вашем сайте, а уже затем, через некоторое время, обновиться поисковая выдача с вашего сайта. А в дополнение ко всему это никак не связано собственно с индексацией сайта — это два.

Сложно? Да нет, просто нужно понять алгоритм. Вначале роботы индексируют странички сайта (растет цифра «загружено»), а уже затем обновляются поисковые архивы, и уже только потом ваши новые страницы попадают в поиск. Стоит заметить что апдейты архива текстов и выдачи случаются «время от времени» — через какой конкретно промежуток никто не знает, может раз в две недели произойти, а может каждые 3-4-5 дней, по-разному. Поэтому между «индексацией» и «появлением вебстраниц в выдаче» может пройти достаточно большой промежуток времени.

Нюансы работы Гугла

А вот у Гугла все чуть проще. Нет понятия «апдейт поисковой базы», он происходит сразу же. А обновления выдачи выполняются регулярно каждый день. Поэтому проиндексированные ресурсы практически сразу же попадают (или нет) в поиск.

В общем-то, это все что я хотел рассказать про основы. Зная эти алгоритмы, легче понять как оптимизировать ваш сайт. А чуть позже я распишу какие именно апдейты бывают у различных поисковиков.