Основные принципы работы поисковых систем

Процесс поиска информации в сети можно разбить на следующие основные этапы:

  • сбор информации со страниц сайтов
  • индексация сайтов;
  • поиск по определенному запросу пользователя;
  • ранжирование результатов согласно запросу.

Каждая поисковая система имеет свои алгоритмы поиска и ранжирования результатов и старается развивать и улучшать алгоритмы постоянно, принципы работы всех поисковых систем остаются общими.

Весь сбор данных осуществляется поисковым роботом. Он предназначен для перебора страниц Интернета с целью занесения информации о них в базу данных поисковой системы. Как только в сети появился новый сайт робот заходит на сайт, начинает ходить по страницам и собирать с них данные (это могут быть текстовый контент, картинки, видео и др. файлы). Этот процесс называется сбором данных и он может происходить не только при запуске сайта. Робот составляет для сайта расписание, когда он должен на него зайти в следующий раз, проверить старую информацию и добавить новые страницы, если таковые имеются.

Управление доступом на разные ресурсы для поискового робота происходит с помощью файла robots.txt, в котором содержатся правила и ограничения доступа к содержимому сайта на http сервере. Карта сайта sitemap.xml (XML-файл с информацией для поисковых систем о страницах веб-сайта, которые подлежат индексации) также может помочь роботу, если по каким-либо причинам навигация по сайту ему затруднена.

Робот может ходить по вашему сайту долгое время, однако это не значит, что он сразу появится в поисковой выдаче. Страницам сайта необходимо пройти такой этап, как индексация – составление для каждой страницы обратного (инвертированного) файла индекса.

Индекс – все страницы сайта которые прошли индексацию. Индекс служит для того, чтобы быстро по нему производить поиск и состоит обычно из списка слов из текста и информации о них.

Посте того как сайт прошел индексацию его страницы появляются в основной выдаче поисковой системы и их можно найти по ключевым словам, присутствующим в тексте. Далее процесс индексации происходит достаточно быстро после того, как робот скачает информацию с вашего сайта.

При поиске, первым делом, анализируется запрос, введенный пользователем. В результате анализа вычисляется вес для каждого из слов. Весом слова называется отношение частоты использования этого слова к общему количеству слов, выраженное в процентах.


Далее, поиск производится по инвертированным индексам, находятся все документы в коллекции (базе данных поисковой системы), которые наиболее подходят под данный запрос.

Документы, наиболее схожие с запросом, попадают в результаты поиска.

Чтобы в верхних результатах отражались наиболее полезные для пользователя ресурсы, документы которые были отобраны из основной коллекции ранжируются. Для этого используется специальная формула ранжирования. У каждой поисковой системы свои принципы и факторы ранжирования, но основнимы из них являются:

  • вес страницы (вИЦ, PageRank);
  • авторитетность домена;
  • релевантность текста поисковому запросу;
  • релевантность текстов внешних ссылок запросу;
  • имножество других факторов ранжирования.

Следует понимать что при ранжировании документов используются, как внутренние факторы, так и внешние. А также можно их разделить на зависимые от запроса факторы (релевантность текста документа или ссылок) и независимые от запроса. Конечно же, эта представление очень упрощенное, но основной принцип работы поисковой системы все же можно понятен.