Процесс поиска информации в сети можно разбить на следующие основные этапы:
- сбор информации со страниц сайтов
- индексация сайтов;
- поиск по определенному запросу пользователя;
- ранжирование результатов согласно запросу.
Каждая поисковая система имеет свои алгоритмы поиска и ранжирования результатов и старается развивать и улучшать алгоритмы постоянно, принципы работы всех поисковых систем остаются общими.
Весь сбор данных осуществляется поисковым роботом. Он предназначен для перебора страниц Интернета с целью занесения информации о них в базу данных поисковой системы. Как только в сети появился новый сайт робот заходит на сайт, начинает ходить по страницам и собирать с них данные (это могут быть текстовый контент, картинки, видео и др. файлы). Этот процесс называется сбором данных и он может происходить не только при запуске сайта. Робот составляет для сайта расписание, когда он должен на него зайти в следующий раз, проверить старую информацию и добавить новые страницы, если таковые имеются.
Управление доступом на разные ресурсы для поискового робота происходит с помощью файла robots.txt, в котором содержатся правила и ограничения доступа к содержимому сайта на http сервере. Карта сайта sitemap.xml (XML-файл с информацией для поисковых систем о страницах веб-сайта, которые подлежат индексации) также может помочь роботу, если по каким-либо причинам навигация по сайту ему затруднена.
Робот может ходить по вашему сайту долгое время, однако это не значит, что он сразу появится в поисковой выдаче. Страницам сайта необходимо пройти такой этап, как индексация – составление для каждой страницы обратного (инвертированного) файла индекса.
Индекс – все страницы сайта которые прошли индексацию. Индекс служит для того, чтобы быстро по нему производить поиск и состоит обычно из списка слов из текста и информации о них.
Посте того как сайт прошел индексацию его страницы появляются в основной выдаче поисковой системы и их можно найти по ключевым словам, присутствующим в тексте. Далее процесс индексации происходит достаточно быстро после того, как робот скачает информацию с вашего сайта.
При поиске, первым делом, анализируется запрос, введенный пользователем. В результате анализа вычисляется вес для каждого из слов. Весом слова называется отношение частоты использования этого слова к общему количеству слов, выраженное в процентах.
Далее, поиск производится по инвертированным индексам, находятся все документы в коллекции (базе данных поисковой системы), которые наиболее подходят под данный запрос.
Документы, наиболее схожие с запросом, попадают в результаты поиска.
Чтобы в верхних результатах отражались наиболее полезные для пользователя ресурсы, документы которые были отобраны из основной коллекции ранжируются. Для этого используется специальная формула ранжирования. У каждой поисковой системы свои принципы и факторы ранжирования, но основнимы из них являются:
- вес страницы (вИЦ, PageRank);
- авторитетность домена;
- релевантность текста поисковому запросу;
- релевантность текстов внешних ссылок запросу;
- имножество других факторов ранжирования.
Следует понимать что при ранжировании документов используются, как внутренние факторы, так и внешние. А также можно их разделить на зависимые от запроса факторы (релевантность текста документа или ссылок) и независимые от запроса. Конечно же, эта представление очень упрощенное, но основной принцип работы поисковой системы все же можно понятен.