c 9-00 до 18-00
Принципы работы поисковиков, как индексируются сайты
В предыдущей статье мы зарегистрировали наш сайт в Яндекс Вебмастере и Google Search Console. А сегодня разберем как вообще работают гугл и яндекс, и каким образом индексируются сайты.
Вообще, как поисковик узнает о вебстраничках вашего сайта? У каждого поисковика существуют роботы-краулеры (crawlers), которые обходят весь интернет по гиперссылкам и ищут новые сайты, свежие странички на сайтах, изредка переобходят старые странички ища контент для пользователей. Эти роботы-пауки беспрестанно трудятся, шерстя интернет, и записывая актуальную информацию в свои архивы. Этот процесс так и называется индексация сайтов.
Представим ваш свежесозданый сайт. Как краулеры узнают о его наличии?
Существуют в сети сайты, на которых обновления случаются очень часто. Возьмем к примеру социалки — постоянно изменяется/добавляется контент. Краулеры с него практически не уходят, постоянно индексируя. И вебстранички попадают в индекс практически моментально. А существуют сайты, на которых свежий контент появляется достаточно редко — роботы от яндекса или гугла на него заходя не так часто. Зайдут, посмотрят — ничего не изменилось — уйдут. Чем реже появляются новые статьи — тем реже они ходят по сайту.
Совет — почаще публикуйте материалы на сайте, и боты будут чаще присматривать за ним. А пока сайт молод — размещайте ссылки на ваш сайт в крупных социалках. Быстроботы, индексируя контент социальных сетей, за компанию проиндексируют и ваши материалы.
Хороший вопрос. Например ваш сайт уже загружен(это можно посмотреть, например, в яндекс вебмастере), но в поиске до сих пор не отображается.
На картинке подчеркнуто: «397 загружено» — эта цифра сколько страниц на вашем сайте загружено поисковым роботом в базу. И «87 в поиске» — эта цифра показывает сколько страниц отображается в выдаче. Проиндексировано 397, но отображаться могут не все. Например, в поиске не отображается 404 ошибка, может не отображаться фильтрация по тегам и рубрикам, служебные страницы и так далее. Это в общем-то нормально. Хотя это, возможно,говорит о том что есть дубли, но это совсем другая тема.
В Яндекс поиск сайты попадают не сразу после индексирования. Существует понятие «апдейт».
Апдейт — от слова update — суть обновление. В яндексе существует поисковая база (в ней хранится контент ваших вебстраниц) и поисковая выдача (список ресурсов, которые выдает поисковик по запросу). Именно их обновления называются апами.
Так вот эти апы происходят не одновременно — это раз. То есть вначале может произойти обновление архива текстов на вашем сайте, а уже затем, через некоторое время, обновиться поисковая выдача с вашего сайта. А в дополнение ко всему это никак не связано собственно с индексацией сайта — это два.
Сложно? Да нет, просто нужно понять алгоритм. Вначале роботы индексируют странички сайта (растет цифра «загружено»), а уже затем обновляются поисковые архивы, и уже только потом ваши новые страницы попадают в поиск. Стоит заметить что апдейты архива текстов и выдачи случаются «время от времени» — через какой конкретно промежуток никто не знает, может раз в две недели произойти, а может каждые 3-4-5 дней, по-разному. Поэтому между «индексацией» и «появлением вебстраниц в выдаче» может пройти достаточно большой промежуток времени.
А вот у Гугла все чуть проще. Нет понятия «апдейт поисковой базы», он происходит сразу же. А обновления выдачи выполняются регулярно каждый день. Поэтому проиндексированные ресурсы практически сразу же попадают (или нет) в поиск.
В общем-то, это все что я хотел рассказать про основы. Зная эти алгоритмы, легче понять как оптимизировать ваш сайт. А чуть позже я распишу какие именно апдейты бывают у различных поисковиков.