Как работает поисковый индекс – Как работают поисковые системы — сниппеты, алгоритм обратного поиска, индексация страниц и особенности работы Яндекса

Содержание

что это такое и как работает

Что такое индексация сайта и поисковый индекс?

Индексация сайта – это процесс, заключающийся в поиске, сборе, обработке и добавлении поисковыми роботами информации веб-ресурса в базу данных поисковиков.

Поисковый индекс – это база данных поисковых систем, предназначенная для хранения всех сведений, найденных поисковыми роботами на сайтах, попавших под индексацию.

Пояснение терминов «индексация сайта» и «поисковый индекс»

Под индексацией веб-ресурса подразумевают посещение ботами его интернет-страниц, анализ содержащегося в них контента и его добавление в базу данных. Это делается для того, чтобы потом пользователи могли находить информацию на ресурсе по ключевым запросам в поисковых системах.

Проще говоря, юзер заходит в поисковик, вводит в строке поиска нужный ему запрос и в ответ получает список из множества веб-страниц, проиндексированных поисковыми роботами.

Индексация является обязательной процедурой в работе поисковых систем. Для этого создается специальная специализированная база данных, посредством которой и формируются результаты выдачи.

Поисковый индекс любого сайта зависит непосредственно от его контента, внешних и внутренних ссылок, наличия изображений, графиков и прочих материалов. Вводя в поисковой строке запрос, интернет-пользователь обращается к индексу. Затем из него на основании данных осуществляется ранжирование результатов поиска, список страниц, которые выстраиваются по мере уменьшения релевантности запросу.

Представьте, что Всемирная Сеть – это большая библиотека. В ней обязательно должен быть специальный каталог, который делает поиск необходимых материалов гораздо проще. Всем книгам, которые находятся в библиотеке, принадлежит свой шифр. Все шифры объединены темами, разделами и прочими параметрами.

Когда человек приходит в библиотеку и просит книгу на определенную тематику (делает запрос), библиотекарь идет к нужному разделу, достает все книги, соответствующие ему, и подбирает для читателя самую подходящую.

По аналогичному принципу работают и поисковики: пользователь делает запрос, поисковая машина достает все соответствующие страницы и выдает наиболее релевантные.

На заметку. Под занавес прошлого века индексация проходила именно по принципу каталогизации – боты отыскивали на ресурсах ключевые слова, из которых и состояла база данных. В наши дни роботы, помимо ключевиков, учитывают множество других параметров контента, в числе которых уникальность, информативность, грамотность и многое другое. Именно на этом и основывается современная индексация.

С каждым годом поисковые алгоритмы становятся все совершеннее, база данных все больше наполняется дополнительной информацией, при этом поиск для пользователей становится куда легче и более релевантнее.

Как Яндекс и Google индексируют сайты?

Индексированием занимаются два типа роботов:

  1. Основные. Изучают контент, содержащийся на страницах интернет-ресурса;
  2. Быстрые (быстророботы). Анализируют и индексируют новые материалы, которые добавились после обновления сайта.

Чтобы веб-ресурс был проиндексирован в самых популярных поисковых системах, вебмастеру нужно сообщить о своем проекте:

  • Добавить сайт на индексацию, самостоятельно заполнив специальную форму поисковика через такие сервисы, как Google Webmaster, Яндекс.Вебмастер и т.п. Такой способ индексации проходит медленно, от двух недель и дольше, потому что проект попадает в очередь.
  • Отправить ресурс на индексацию посредством размещения ссылок на других веб-сайтах. Данный метод является самым эффективным, потому что найденные таким образом страницы боты считают полезными, и индексируют их куда быстрее – не более двух недель, а если повезет, то и вовсе за 12 часов.

В большинстве случаев, новые сайты и страницы индексируются за 1-2 недели. Многие отмечают, что поисковый гигант Google включает интернет-ресурсы в индекс гораздо быстрее, всего за несколько дней. Это связано с тем, что он индексирует страницы не только с качественным, но и плохим материалом. А вот под ранжирование попадает исключительно полезный контент.

У Яндекса подобный процесс проходит медленней, но под индексацию попадают только информативные и полезные страницы, а мусор отсеивается сразу.

Индексирование интернет сайтов проходит в 3 этапа:

  1. Робот отыскивает ресурс, изучает информацию, содержащуюся в нем.
  2. Добавляет найденный материал в базу данных.
  3. Спустя 1-2 недели информация, которая успешно прошла индексацию, попадает в выдачу поисковой системы.

Как проверить индексацию в Google и Яндекс

Проверить, прошел ли сайт или страница индексацию в Яндекс или Google, можно 3 способами:

  1. C использованием инструментов webmaster.yandex.ru или google.com/webmasters. Для Яндекса заходим в «Индексирование сайта», после чего в «Страницы в поиске». Для Google, нажимаем «Search Console». Далее выбираем раздел «Индекс Google» и отыскиваем нужные данные в меню «Статус».
  2. Посредством плагинов для браузера. Наиболее популярным сегодня является RDS Bar.

Поисковый индекс

Поисковый индекс — это структура данных, содержащая информацию о всех известных поисковой системе веб-документах. Он служит для сокращения времени, затрачиваемого на поиск в хранилище данных определенной последовательности символов.

Самым распространенным типом является полнотекстовый поисковый индекс. Его образует список всех слов, встречающихся в проиндексированных документах, с указанием их источников. При таком подходе поисковые роботы могут быстро отыскать в базе данных практически любую фразу.

Что такое индексирование?

Индексирование — это процесс сбора, сортировки и хранения в базе данных сведений о сайтах, осуществляемый поисковой машиной, в целях обеспечения быстрого и точного поиска информации.

К важным сведениям о сайтах относятся статьи, прикрепленные документы, изображения, ссылки, аудио файлы и, конечно же, ключевые слова. Алгоритм выявления ключевых слов зависит от особенностей конкретной поисковой системы.

Индексирование новых сайтов в Google происходит за 1-7 дней, а в Яндексе — примерно за 7-30 дней.

Как происходит индексирование?

Объемы опубликованной информации измеряются миллиардами миллиардов байтов. Поисковая система не в состоянии обойти весь Интернет, когда какой-либо пользователь сформулирует свой вопрос. Поэтому она подготавливается заранее.

Поиск в Сети проходит в 2 этапа. На первом этапе поисковые системы сканируют Интернет и сохраняют его отражение в базе данных на своих серверах. На втором – поисковики извлекают из базы данных ответы на вопросы пользователей.

Поиск осуществляется по поисковому индексу – базе данных, в которой каждому слову, опубликованному на известных поисковику сайтах, соответствует запись о его местонахождении: адресах и конкретных участках страниц.

Индекс напоминает предметный указатель в энциклопедии или адресный справочник. Только предметный указатель структурирует термины, а поисковый индекс – все общеупотребительные и узкоспециальные слова. В адресном справочнике слово имеет одно «место прописки», а в поисковом индексе – множество таких мест.

Поисковые боты постоянно исследуют Интернет, скачивают и обрабатывают веб-страницы. Слепок Сети хранится на серверах поисковой системы и обновляется вслед за каждым обходом.

Яндексе есть основной поисковый робот и быстро-робот Orange. Основной робот занимается индексированием всего Интернета по заданному графику. Благодаря Orange в поиске появляются самые свежие страницы, опубликованные несколько минуты или секунд назад.

Роботы путешествуют по Интернету по маршруту, составленному программой-планировщиком. Обнаружив неизвестную ссылку, роботы добавляют их в свой список подлежащих посещению адресов. Очередность посещения веб-страниц устанавливается с учетом тИЦ, частоты обновления сайтов и других ценных характеристик. Построенный маршрут планировщик передает «пауку». Миссия паука – скачивание запланированных документов, определение их типа (HTML, SWF, PDF  и т.д.), языка и кодировки, отправка собранных данных в хранилище. В хранилище производится очищение текста от HTML-разметки, отмечаются сведения о местоположении каждого слова. Отсюда все данные отправляются в индекс.

Таким образом, поисковая база – это совокупность поискового индекса, сведений о документах и их копии. Поисковая база регулярно обновляется. Обновления доступны пользователям после переноса данных в «базовый поиск», который представляет собой полезную часть поисковой базы, очищенную от спама и дублей.

Поисковая база из хранилища основного робота выгружается в поиск с периодичностью в несколько дней. Процедура проходит ночью, поскольку она приводит к дополнительным нагрузкам на сервера.

Orange ищет в режиме реального времени новые документы и выбирает из громадной массы страниц самые интересные. Каждый найденный быстро-роботом документ быстро обрабатывается и попадает в базовый поиск. Поскольку срочных документов относительно мало, база обновляется и днем.

Как добавить сайт/страницу в индекс поисковой системы?

Поисковики индексируют новые сайты, переходя на них по ссылкам. Однако можно напрямую сообщить поисковикам о появлении ресурса и заметно ускорить его индексацию. Сделать это можно с помощью формы для добавления сайтов в индекс. Страница, на которой находится такая форма, называется addurl или в просторечии «аддурилка».

Аддурилка Яндекса: https://webmaster.yandex.ru/site/indexing/reindex/

Аддурилка Google: https://www.google.com/webmasters/tools/submit-url

Использование  аддурилок потребуется только на первом этапе жизни сайта, в дальнейшем поисковики сами будут заходить на сайт и индексировать его содержимое.

Также для ускорения индексации новых веб-страниц можно оставлять ссылки на сайт в различных сервисах социальных закладок. Поисковые роботы  регулярно посещают такие проекты и уделяют пристальное внимание их контенту.

Что делать для облегчения индексации всех страниц сайта в поисковиках?

Для того чтобы сайт успешно индексировался, нужно соблюдать несколько правил внутренней оптимизации.

  1. 1. На сайте должен размещаться уникальный и качественный контент. Большое количество плагиата может заставить поисковых роботов потерять интерес к сайту.
  2. 2. Нельзя использовать «черные» и «серые» методы оптимизации. Подобные нарушения могут привести к запрету индексации доменного имени.
  3. 3. Не стоит спешить сообщать поисковым системам о сайте сразу после его появлении на сервере. Желательно еще раз проверить качество представления контента, валидность кода, целостность внутренней перелинковки страниц. Поисковые роботы при индексировании отделяют текст от  HTML-кода, поэтому индексация сайта во многом зависит от корректности кода страницы. Информацию о внешнем виде страниц лучше выносить в каскадные таблицы стилей CSS.
  4. 4. На каждой странице должны быть верно прописаны мета-теги (тайтлы, ключевые слова и описания) и альты изображений.
  5. 5. Некоторые типы данных индексируются с ограничениями. В частности поисковики плохо обрабатывают документы с Flash и Javascript. Стоит отказаться от красиво раскрывающихся меню и других спецэффектов в пользу простой текстовой навигации по сайту.
  6. 6. Улучшает индексацию карта сайта. Исследуя карту сайта,  поисковые роботы могут легко и быстро добраться до всех страниц проекта. 
  7. 7. Служебные страницы, неуникальный и дублированный контент нужно скрывать от индексации. Повлиять на индексацию страниц поисковыми роботами можно через инструкцию в файле robots.txt, создаваемую директивами Allow, Disallow, User-agent, Crawl-delay. Запретить индексацию конкретного контента можно через мета-тег Robots, теги и атрибут .

Полные сведения о внутренних факторах, которые учитываются поисковыми алгоритмами во время индексации и ранжировании страниц, разработчики поисковых систем держат в глубоком секрете. Остается только опираться на официальную информацию и экспериментировать на практике.

что это такое и как туда попасть сайту

Мы увеличиваем посещаемость и позиции в выдаче. Вы получаете продажи и платите только за реальный результат, только за целевые переходы из поисковых систем

Получи нашу книгу «Контент-маркетинг в социальных сетях: Как засесть в голову подписчиков и влюбить их в свой бренд».

Подпишись на рассылку и получи книгу в подарок!

Индекс поисковой системы — это специализированная база данных, где хранятся все данные, собранные поисковыми роботами с различных ресурсов.

Больше видео на нашем канале - изучайте интернет-маркетинг с SEMANTICA

Индекс того или иного ресурса напрямую зависит от текстового контента сайта, его ссылок (внешних и внутренних), графики и так далее. Когда пользователь отправляет запрос в поисковик, он обращается к индексу. Далее на основании данных из поискового индекса выполняется ранжирование результатов поиска, сайтов по степени убывания релевантности.

Чтобы понять, что такое поисковый индекс, разберем простую аналогию. Вспомните общественную библиотеку. Каждая книга здесь имеет свой шифр, индекс. Данные шифры объединяются по темам, направлениям и так далее. Когда читатель просит ту или иную книгу, то есть делает запрос, библиотекарь просматривает все книги, относящиеся к определенному разделу и ищет ту, которая больше всего подходит. Аналогичным образом работает и поисковик: пользователь делает запрос, система просматривает все имеющиеся страницы и выдает ту, которая больше всего подходит.

Что значит индексация

Это процесс, в ходе которого роботы включают имеющиеся данные в единую базу. Далее они обрабатываются. Сбор данных, формирование индекса может происходить автоматически или вручную. В первом случае робот ищет сайты, для этого он сканирует файл формата sitemap.xml или переходит по внешним ссылкам с других сайтов. Во втором варианте владелец сайта сам добавляет URL сайта в специализированные формы-заявки систем Гугл, Яндекс и так далее.

Впервые индексация появилась более 25 лет назад. Тогда база проиндексированных страниц была построена по принципу предметного указателя с ключевыми словами (поиском ключевых слов занимались роботы). На сегодняшний день механизм существенно усложнился, стал более эффективным. На современном этапе, чтобы данные попали в индекс, они сначала обрабатываются специализированными вычислительными алгоритмами, при этом обязательно используется искусственный интеллект.

Для чего нужен индекс поисковой системы

Индексация страниц интернет-ресурса является обязательным элементом работы поисковиков. В ее результате создается база данных, с помощью которой формируются результаты выдачи. Таким образом, любой сайт должен быть проиндексирован поисковой системой, чтобы выходить в результатах выдачи по запросам пользователей.

Индексирование делают роботы, которые бывают двух типов:

  1. Основные. Они анализируют содержимое страниц, представленных на них контент.
  2. Быстрые. Он анализируют и индексируют новые данные, которые прибавились после обновления интернет-ресурса.

Есть и другие роботы, которые различаются по предмету индексации: специальные механизмы для работы с изображениями, RSS-лентами и прочими материалами.

Чем быстрее сайт добавляется в индекс, тем скорее вы увидите первых посетителей. Индексация Гуглом занимает несколько дней, а индексация Яндексом — несколько недель.

Проверить индексацию в системах Гугл и Яндекс

Чтобы проверить, проиндексирован ли ваш ресурс, можно использовать несколько способов:

  • Проанализировать данные панели веб-мастера. Открываем сервисы системы Гугл, после — Search Console. Теперь заходим в раздел «Индекс Google». Данные, которые мы ищем, находятся в в блоке «Статус». Для Яндекса делаем следующее: «Индексирование сайта», затем «Страницы в поиске».
  • Направить запрос по интернет-ресурсу, используя особые операторы. С этой целью нужно сделать запрос типа «site:» и адрес вашего сайта полностью. Таким образом можно узнать число страниц, которые уже проиндексированы. Если имеются расхождения, 80% и выше, значит в поисковиках есть проблемы.
  • Загрузить особые плагины. С помощью данного расширения можно легко проверить индексацию. Наиболее востребованный плагин сегодня — RDS Bar.

Ускорение индексации

Скорость индексации зависит от факторов:

  • Полное отсутствие ошибок, которые могли бы снизить скорость сбора роботами данных.
  • Авторитет сайта.
  • Как часто публикуется новый контент.
  • Каков уровень вложенности страниц сайта.
  • Правильно ли заполнен файл формата sitemap.xml.

Если вы желаете увеличить скорость индексации и быстрее войти в поисковую систему, сделайте следующее:

  • Поменяйте хостинг на более надежный.
  • Откорректируйте robots.txt, выполните установку правил индексации, снимите ненужные запреты.
  • Ликвидируйте ошибки в коде.
  • Сделайте sitemap.xml, сохраните его в корневой папке.
  • Продумайте навигацию, чтобы каждая из страниц сайта находилась не больше, чем в трех кликах от главной страницы.
  • Обязательно добавьте сайт в панели веб-мастеров Гугл и Яндекс.
  • Выполните внутреннюю перелинковку.
  • Выполните регистрацию сайта в рейтингах с хорошим авторитетом.
  • Следите за контентом, проверяйте его.

С момента занесения сайта в индекс начинается отсчет возраста сайта.

Алгоритмы поиска, обратный индекс — Часть 1 / Habr


C этой статьи я начинаю цикл статей по SEO, в которых будет теория, практика и советы. Начнем естественно с азов. В материале вкратце описываются алгоритмы, по которым современные поисковые системы осуществляют поиск, как проходит индексация, какие математические модели используются при поиске документов.
Что вы узнаете?

Алгоритмы поиска. Что представляет из себя индексация, инвертированный индекс. Математические модели, используемые современными поисковыми системами.

Алгоритмы поиска

  1. Прямой поиск — последовательный перебор всех данных;
  2. Инвертированных индексов — список слов (индекс-файл) документированные в алфавитном порядке с указание позиции и других параметров вхождения слова документа.
Обратный индекс

Как вы наверное догадались поисковиками используется алгоритм инвертированных индексов, т. к. использование прямого поиска гораздо более ресурсоемко. Восстановление из обратного индекса произойдет с потерями (падежи, дефисы, запятые, и т. п.). Поэтому также хранится прямой индекс документа для отображения сниппета (фрагмент найденного текста документа отображаемый в поиске).
Документ

Жил-был поп,
Толоконный лоб.
Пошел поп по базару
Посмотреть кой-какого товару.

Обратный индекс документа

базар  (3,4)
был     (1,2)
жил     (1,1)
какой  (1,1)
кой     (4,2)
лоб     (2,1)
поп     (1,3) (3,2)

Параметры указаны самые примитивные и только для примера — строка, позиция в строке. В параметрах также хранятся падежи слов, и принадлежность к пассажу.
Математическая модель

При поиске используется 3 типа математических моделей, вот они:
  1. Булевские (логические) — есть слово — найден, нет — не найден;
  2. Векторные (используются всеми ПС) — вес слова = TF * IDF;
    TF — частота слова в документе
    IDF — редкость слова в коллекции (корпус слов)
  3. Вероятностная — подбор выдачи в ручную (с помощью асессоров) — самостоятельное определение релевантности страниц.

Главное

Релевантность — степень отношения к делу. Продвигайте только релевантные документы.
Как работают поисковые системы Сегалович И.В.

П.С. Продолжение следует…

Компания Яндекс — Технологии — Индексирование интернета

Поисковая машина Яндекса отвечает на вопросы пользователей, находя нужные документы в интернете. А размеры современного интернета исчисляются в эксабайтах, то есть в миллиардах миллиардов байтов. Конечно же, Яндекс не обходит весь интернет каждый раз, когда ему задают вопрос. Поисковая система, так сказать, делает домашнее задание.

Поиск в интернете состоит из двух частей. Первая — поисковик обходит интернет, создавая его слепок на своих серверах. Вторая — пользователь задаёт запрос и получает ответ с серверов поисковика.

Яндекс ищет по поисковому индексу — базе данных, где для всех слов, которые есть на известных поиску сайтах, указано их местонахождение — адрес страницы и место на ней. Индекс можно сравнить с предметным указателем в книге или адресным справочником. В отличие от обычного предметного указателя, индекс содержит не только термины, а вообще все слова. А в отличие от адресного справочника, у каждого слова-адресата есть не одно, а очень много «мест прописки».

Подготовка данных, по которым ищет поисковая машина, называется индексированием. Специальная компьютерная система — поисковый робот — регулярно обходит интернет, выкачивает документы и обрабатывает их. Создается своего рода слепок интернета, который хранится на серверах поисковика и обновляется при каждом новом обходе.

У Яндекса два поисковых робота — основной и быстрый (он называется Orange). Основной робот индексирует интернет в целом, а Orange отвечает за то, чтобы в поиске можно было найти самые свежие документы, которые появились минуты или даже секунды назад. У каждого робота есть список адресов документов, которые нужно проиндексировать.

Когда при обходе робот видит на уже известных сайтах новые ссылки, он добавляет их в свой список, увеличивая количество индексируемых страниц. Впрочем, владелец сайта сам может помочь основному роботу Яндекса найти свой ресурс и подсказать, например, как часто обновляются его страницы — через сервис Яндекс.Вебмастер.

Сначала программа-планировщик выстраивает маршрут — очередность обхода документов. При этом планировщик учитывает важные для поисковой системы характеристики сайтов, такие как, например, цитируемость или частота обновления документов. После создания маршрута планировщик отдаёт его другой части поискового робота — «пауку». Паук регулярно обходит документы по заданному маршруту. Если сайт на месте, то есть работает и доступен, паук выкачивает запланированные в маршруте документы. Он определяет тип скачанного документа (html, pdf, swf и т.п.), кодировку и язык, а затем отправляет данные в хранилище.

Там программа разбирает документ по кирпичику: очищает от html-разметки, оставляя чистый текст, выделяет данные о местоположении каждого слова и добавляет их в индекс. Сам документ в исходном виде также остается в хранилище до следующего обхода. Благодаря этому пользователи могут найти в Яндексе и посмотреть документы, даже если сайт временно недоступен. Если сайт закрылся или документ был удалён или обновлён, Яндекс удалит копию со своих серверов или заменит её на новую.

Поисковый индекс, данные о типе документов, кодировке, языке и сохраненные копии документов вместе составляют поисковую базу. Она обновляется постоянно, но, чтобы это обновление стало доступно пользователям, её нужно перенести на «базовый поиск». Базовый поиск — сервера, которые отвечают пользователям на запросы. Туда переносится не вся поисковая база, а только её полезная часть — без спама, дубликатов сайтов (зеркал) и других ненужных документов.

Обновление поисковой базы из хранилища основного робота попадает в поиск «пакетами» — раз в несколько дней. Этот процесс создаёт дополнительную нагрузку на сервера, поэтому производится ночью, когда к Яндексу обращаются на порядок меньше пользователей. Сначала новые части базы помещаются рядом с такими же частями из прошлого обхода. Затем они проверяются по целому ряду факторов, чтобы обновление не ухудшило качество поиска. Если проверка прошла успешно, новая часть базы заменяет собой старую.

Робот Orange предназначен для поиска в реальном времени. Его планировщик и паук настроены так, чтобы находить новые документы и выбирать из огромного их количества все, хоть сколько-нибудь интересные. Каждый такой документ Orange сразу обрабатывает и выкладывает на базовый поиск. Срочных документов не очень много по сравнению с общим объемом интернета, поэтому обновление базы в реальном времени можно делать и при дневных нагрузках на сервера.

Поиск информации в Интернет (web)

Компьютерные телекоммуникации

Способы поиска информации в web

Поиск информации – одна из самых востребованных на практике задач, которую приходится решать любому пользователю Интернета.

Существуют три основных способа поиска информации в Интернет:

1.Указание адреса страницы.

2.Передвижение по гиперссылкам.

3.Обращение к поисковой системе (поисковому серверу).

Способ 1: Указание адреса страницы

Это самый быстрый способ поиска, но его можно использовать только в том случае, если точно известен адрес документа или сайта, где расположен документ.

Не стоит забывать возможность поиска по открытой в окне браузера web-странице (Правка-Найти на этой странице...).

Способ 2: Передвижение по гиперссылкам

Это наименее удобный способ, так как с его помощью можно искать документы, только близкие по смыслу текущему документу.

Способ 3: Обращение к поисковой системе

Пользуясь гипертекстовыми ссылками, можно бесконечно долго путешествовать в информационном пространстве Сети, переходя от одной web-страницы к другой, но если учесть, что в мире созданы многие миллионы web-страниц, то найти на них нужную информацию таким способом вряд ли удастся.

На помощь приходят специальные поисковые системы (их еще называют поисковыми машинами). Адреса поисковых

серверов хорошо известны всем, кто работает в Интернете. В настоящее время в русскоязычной части Интернет популярны следующие поисковые серверы: Яндекс (yandex.ru), Google (google.ru) и Rambler (rambler.ru).

Поисковая система

Поисковая система — веб-сайт, предоставляющий возможность поиска информации в Интернете.

Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на ftp- серверах, товары в интернет-магазинах, а также информацию в группах новостей Usenet.

По принципу действия поисковые системы делятся на два типа: поисковые каталоги и поисковые индексы.

Поисковые каталоги

Поисковые каталоги служат для тематического поиска.

Информация на этих серверах структурирована по темам и подтемам. Имея намерение осветить какую-то узкую тему, нетрудно найти список web-страниц, ей посвященных.

Каталоог ресурсов в Интернете или каталог интернет- ресурсов или просто интернет-каталог — структурированный набор ссылок на сайты с кратким их описанием.

Каталог в котором ссылки на сайты внутри категорий сортируются по популярности сайтов называется рейтинг (или топ).

Поисковые индексы

Поисковые индексы работают как алфавитные указатели. Клиент задает слово или группу слов, характеризующих его область поиска, — и получает список ссылок на web-страницы, содержащие указанные термины.

Первой поисковой системой для Всемирной паутины был «Wandex», уже не существующий индекс, разработанный Мэтью Грэйем из Массачусетского технологического института в 1993.

Как работает поисковой индекс?

Поисковые индексы автоматически, при помощи специальных программ (веб-пауков), сканируют страницы Интернета и индексируют их, то есть заносят в свою огромную базу данных.

Поискоовый робот («веб-па к»)уо — программа, являющаяся составной частью поисковой системы и предназначенная для обхода страниц Интернета с целью занесения информации о них (ключевые слова) в базу поисковика. По своей сути паук больше всего напоминает обычный браузер. Он сканирует содержимое страницы, забрасывает его на сервер поисковой машины, которой принадлежит и отправляется по ссылкам на следующие страницы.

В ответ на запрос, где найти нужную информацию, поисковый сервер возвращает список гиперссылок, ведущих web-страницам, на которых нужная информация имеется или упоминается. Обширность списка может быть любой, в зависимости от содержания запроса.

Алгоритмы и технологии Яндекса. Как работает поиск?

В прошлой статье мы рассмотрели наиболее интересные технологии Яндекса, применяемые для обеспечения качественного поиска в интернете. Теперь разберем более подробно, как устроена поисковая машина Яндекса. Что же происходит после того, как пользователь вводит запрос в строку поиска?

yandex_search.jpg

MatrixNet

Технология поиска Яндекс устроена сложно. Поисковая выдача формируется на основе формулы ранжирования, построенной на нескольких сотнях факторов, каждый из которых может включаться с индивидуальным коэффициентом, а также в различных комбинациях с прочими факторами.

Формула ранжирования — это функция, построенная на множестве факторов, при помощи которых определяется релевантность сайта поисковому запросу и его очередность в выдаче

Для обеспечения качественного поиска факторы и коэффициенты в формуле ранжирования должны регулярно обновляться. Построением такой формулы в Яндексе занимается MatrixNet (Матрикснет) - метод машинного обучения, введенный Яндексом в 2009 году с целью сделать поиск более точным.

«Матрикснет» — метод машинного обучения, с помощью которого подбирается формула ранжирования Яндекса. Входными данными являются факторы и обучающие данные, подготовленные асессорами (экспертными сотрудниками Яндекса).

Основная его особенность заключается в том, что он устойчив к переобучению и позволяет построить сложную формулу ранжирования с десятками тысяч коэффициентов, которая учитывает множество различных факторов и их комбинаций без увеличения количества асессорских оценок и опасности найти несуществующие закономерности.

search_2.jpg

Архитектура поиска

Ежедневно пользователи посылают Яндексу десятки миллионов запросов. Для формирования ответа под какой-нибудь один запрос поисковой машине необходимо проверить миллионы документов, определить их релевантность и упорядочить при помощи формулы ранжирования так, чтобы наиболее подходящие страницы сайтов оказались вверху выдачи. Для ускорения этого процесса Яндекс использует заранее подготовленные данные — индекс.

Индекс — база поисковой системы, содержащая сведения о запросах и их позициях на страницах сайтов в сети. Индекс формируется поисковым роботом, который обходит сайты и собирает информацию с заданной периодичностью.

Размер индекса в поиске огромен, чтобы быстро обработать такой объем данных используются тысячи серверов, объединенные в кластеры.

После того, как пользователь вводит запрос в строку поиска, он анализируется компьютерной системой «Метапоиск» на предмет региональной привязки, класса запроса и т.д. Там же запрос проходит лингвистическую обработку. Далее «Метапоиск» проверяет кэш на наличие поискового ответа по данному запросу. По часто задаваемым запросам результаты поиска хранятся в памяти поисковика в течение какого-то времени, а не формируются каждый раз заново.

«Метапоиск» — это программа, которая принимает и разбирает поисковые запросы, передает их соответствующим «Базовым поискам», обеспечивает агрегацию и ранжирование найденных документов, а также производит кеширование части ответов, которые впоследствии возвращаются пользователям без обращения к «Базовому поиску».

Если же ответ не найден, «Метапоиск» передает запрос другой компьютерной системе – «Базовому поиску». Там же хранится поисковая база Яндекса (индекс). Так как это огромный объем данных, индекс разбивается на части, которые хранятся на разных серверах. Такой подход позволяет производить поиск одновременно по нескольким частям базы данных, что заметно ускоряет процесс. Каждый сервер имеет несколько копий, это дает возможность распределять нагрузку и не терять данные. При передаче запроса «Метапоиск» выбирает наименее загруженные сервера «Базового поиска».

«Базовый поиск» обеспечивает поиск по всей части индекса (базе поисковой системы), содержащей сведения о запросах и их позициях на страницах сайтов в сети.

Каждый сервер базового поиска отдает список документов, содержащих поисковый запрос, обратно в «Метапоиск», где они ранжируются по сформированной «Матрикснетом» формуле. Результаты такой работы мы видим на странице выдачи.

search_3.jpg

Использование индекса в качестве источника данных, многостадийный подход к формированию ответа и дублирование данных позволяют Яндексу обеспечивать поиск за доли секунды.

Оценка качества поиска

Помимо скорости поиска не менее важно и его качество. Для этого у Яндекса существует система оценки качества поиска, которая также помогает улучшить это качество.

Релевантность – свойство документа, определяющее степень его соответствия поисковому запросу. Вычисляется на основе формулы ранжирования.

Релевантность документа поисковому запросу вычисляется на основе формулы ранжирования – функции от множества факторов. Сейчас в Яндексе более 800 различных факторов, таких как возраст сайта, региональная привязка, взаимодействие пользователей с сайтом (поведенческий фактор), уникальность контента и т.д. В случае с персонализированным поиском релевантность документа зависит непосредственно от предпочтений пользователя, отправившего запрос.

Формула ранжирования постоянно обновляется, так как меняются потребности пользователей и индекс поисковика. Для ее обновления применяется методы машинного обучения. На основе экспертных данных выявляются зависимости между характеристиками документов и порядком их включения в выдачу, которые вносятся в формулу для ее корректировки.

Оценка качества поиска — удовлетворенность пользователей результатами поиска и порядком их следования.

Экспертными данными для машинного обучения являются оценки асессоров, которые также применяются для оценки качества поиска.

Асессоры — специалисты, оценивающие по ряду критериев релевантность представленного в выдаче документа поисковому запросу.

Асессоры оценивают поисковые результаты в выдаче по ряду критериев, которые позволяют определить, присутствует ли на сайте полный ответ на запрос, является ли сайт брендовым, не переспамлен ли текстовый контент и т.д. В основном асессоры работают с наиболее популярными поисковыми запросами (порядка 150 тыс.), при этом оцениваются первые 30 позиций выдачи. Это наиболее авторитетная оценка, так как ее проводит человек, а не машина, т.е. сайт получает оценку с точки зрения пользователя.

Актуализация и улучшение правил ранжирования в комплексе с оценкой качества поиска помогают Яндексу формировать выдачу, соответствующую ожиданиям пользователей.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *