Системы поиска – Поисковые системы Интернета: Яндекс, Google, Rambler, Yahoo — информация, принципы работы

Содержание

Поисковые системы интернета – Полный список всех поисковых систем

seo_optimization

Чтобы увеличить посещаемость вашего сайта, его необходимо довавить в поисковые системы, чтобы люди могли найти вас в интернете.  В этой статье я приведу полный список поисковых систем, куда можно добавить  ваш сайт.

Вот список всех поисковых систем, куда можно добавить ваш сайт:

(ссылки открываются на новой странице и ведут сразу на страницу регистрации)

yandex.ru – Пожалуй  самая популярная поисковая система в России. Имеется расширенный поиск.
rambler.ru – Тоже одна из популярных русскоязычных поисковых систем.
google.ru –  Также одна из популярных систем в России. И по всему миру (google.com)


www.yahoo.com– Еще один из крупных поисковых систем в мире.
www.apport.ru – Довольно распространенная поисковая система в Россия, имеется два языка.
msn.com – Также довольно популярная поисковая система по новостям и по сайтам.
www.altavista.com – Без сравнения самая крупная система в мире.

astalavista.box.sk – Поисковая система по поиску бесплатного программного обеспечения.
www.bigfoot.com – Социальная сеть, поиск людей.
www.excite.com – Удобный поиск.
www.filez.com – Поиск  сайтов и бесплатного программного обеспечения.
www.hotbot.com – Одна из самых быстрых систем индексация сайтов.
infoseek.go.com – Проиндексировано более 60 мил. страниц.
www.Jassan.com – Поиск по фондовым биржам, корпорациям.
www.lycos.com – Удобный поиск музыки, видео, изображений и фотографий.
www.moneysearch.com – Поиск по сайтам финансового рынка, а также посайтам компаний связанные с бизнесом.
www.travel-finder.com – Поиск по сайтом сосредоточенные на спорте, туризме.
www.atrus.ru – Поиск, каталоги.
www.list.ru – Каталог ресурсов.
www.ru – Поиск, также имеется каталог.
www.strars.ru – Поиск по сайтам, также имеется каталог.
sel.alfainter.net – Каталог, но индексации сайтов нет.
www.anet.donetsk.ua – Каталог сайтов сети интернет.
www.a-counter.kiev.ua – Каталог сайтов.
el.visti.net – Поиск по рефератам, дипломным работам.
www.internetri.net – Украинский каталог.
www.qp.dp.ua – Каталог по сайтам.
www.meta.kharkiv.net – Еще один  поисковик
www.topping.com.ua – Каталог по сайтам. Поиск в интернете, имеется рейтинг.
poshuk.dnepr.net – Сравнительно молодой каталог.
sesna.kharkiv.org – Еще один поисковик
www.susanin.com Сусанин – Довольно известный каталог.
uahoo.gu.net UA  – Каталог по сайтам в интернете
www.ukrainet.lviv.ua – Украинский каталог.
www.echo.com.ua – Регистрация в системах
www.allonesearch.com – Поиск по сайтам.
www.beaucoup.com – Поиск по сайтам в интернете. Имеется шесть языков.
www.deja.com – Одна из мощных поисковых систем по поиску новостей. Поиск может проводится по авторам, дате добавления итд…
www.dogpile.com – Имеется логический поиск по сайтам.

Также помимо регистрации вашего сайта в поисковых системах, желательно зарегистрировать (добавить) ваш сайт в каталоги! Бесплатно можно сделать тут

Локальный поисковик — Википедия

Локальный поисковик Tracker

Локальный поисковик или персональный поиск — программное обеспечение для быстрого поиска информации в файлах пользователя. Другими словами, это поисковая система, которая выполняет поиск не в интернете, а на запоминающем устройстве, подключённом к персональному компьютеру пользователя.

Локальные поисковики могут искать информацию в электронной почте, в журнале посещённых страниц браузера и в клиентах мгновенных сообщений, в аудио- и видеофайлах, и просто в офисных и текстовых документах.

Содержание

  • 1 Реализации
  • 2 См. также
  • 3 Примечания
  • 4 Ссылки

Кроссплатформенные:

  • DocFetcher
  • Launchy
  • Recoll
  • Strigi
  • Tropes Zoom (англ.)
  • Xapian

Для Microsoft Windows:

  • Copernic Desktop Search
  • Everything
  • Google Desktop (поддержка окончена 14 сентября 2011)
  • Locate32
  • Windows Search
  • Архивариус 3000[1]
  • Персональный поиск Яндекса (поддержка приостановлена 12 июля 2007)

Для Mac OS X:

  • Spotlight

Для Linux и Unix:

  • Beagle
  • Google Desktop (поддержка окончена 14 сентября 2011)
  • Tracker
  • Локальный поиск — класс алгоритмов из области искусственного интеллекта.
  • Поисковый индекс
  1. ↑ Archivarius 3000 3.96: поиск документов на ПК | hwp.ru, HWP.ru - обзоры и тесты IT-новинок с 1998 года. Архивировано 21 июля 2018 года. Дата обращения 20 июля 2018.
  • Сравнение 4 локальных поисковиков
  • Linux Desktop Search Engines Compared / Linux.com 2009-12-01  (англ.)
  • The best Linux desktop search tools / TuxRadar, 2010-01-08 (англ.)
  • 6 of the best desktop search tools for Linux. Do desktop search tools spell the end of grep? / TechRadar, Jan 28, 2010 (англ.)
  • Сравнение. Настольный поиск: Beagle, Google Desktop, Tracker, Strigi, Recoll. "Linux Format" №01 (126/127) Январь 2010  (рус.)
ПО Это заготовка статьи о программном обеспечении. Вы можете помочь проекту, дополнив её.
⛭
Локальные поисковики
Для Microsoft Windows
  • Copernic Desktop Search
  • Everything
  • Filehawk
  • Google Desktop
  • Google Quick Search Box
  • Locate32
  • Tropes Zoom
  • Windows Desktop Search
  • Yahoo Desktop Search
  • Архивариус 3000
  • Персональный поиск Яндекса
Searchtool.svg
Для *nix
  • Beagle
  • GNOME Storage
  • Tracker
Для MacOS
  • Easyfind
  • Apple Spotlight
Кроссплатформенные
  • Docco
  • DocFetcher
  • Launchy
  • Strigi
  • Recoll

Разновидности поисковых систем в интернете: простыми словами о сложном

Здравствуйте, дорогие читатели! С вами Екатерина Калмыкова. Сегодняшняя статья будет посвящена такому понятию, как поисковая система, что это такое, для чего она нужна. Также мы подробно рассмотрим разновидности поисковых систем в интернете.

Если у вас возник вопрос: «Зачем мне знать про эти поисковые системы?», то я отвечу так. Когда вы едите вкусный суп в ресторане, хотелось бы вам знать, из каких ингредиентов он приготовлен, чтобы повторить его самостоятельно дома? Ведь если вас устраивает конечный результат, то есть вкус супа, то наверняка вам интересно было бы узнать, что привело к такому результату?

Также можно сказать и про работу с поисковой системой (ПС). Если вы в будущем создадите свой блог, то зная работу ПС вам не придется обращаться за помощью к специалистам. Вы сможете самостоятельно вести таким образом свой проект, чтобы поисковая система его видела и показывала другим пользователям. Ведь именно от этого будет зависеть посещаемость вашего ресурса и соответственно заработок.

Итак, приступим.

Что такое поисковая система?

Поисковая система  — это специальный ресурс в Интернете, который выдает информацию пользователю в соответствии с его запросом. То есть этот ресурс собирает все данные в глобальной сети, все веб-проекты и при поступлении от пользователя определенного запроса выдает необходимую искомую информацию путем направления его, например, на тематический блог или сайт.

Таким образом, после создания своего проекта ваша задача будет попасть в выдачу, то есть в «список» или базу поисковой системы. Поскольку продвижение сайта в интернете просто не возможно без использования какой-либо поисковой системы, поэтому вам необходимо будет позаботиться о качестве своего ресурса, о внутренней и внешней его оптимизации. Как это сделать мы поговорим в следующих статьях. Так что подпишитесь, чтобы не пропустить.

А пока, если вы решили создать свой блог, то рекомендую прочитать вот эти статьи:

Поскольку новые веб-ресурсы появляются практически каждый день, то соответственно и база поисковых систем должна постоянно обновляться. Каждый вновь созданный сайт должен проиндексироваться роботом. Говоря простыми словами, помощники ПС – роботы должны познакомиться с новым ресурсом и передать эти данные самой поисковой системе.

Ну, тут вы, наверное, догадались, что при посещения вашего блога роботом ему все должно понравиться. От этого гостя и будет зависеть ваша дальнейшая судьба.

Как сделать, чтобы робот от вашего проекта остался в полном восторге я расскажу в одной из следующих статей. Не пропустите, будет интересная и весьма любопытная информация, которой я с вами поделюсь.

Работа поисковых систем

Вся работа, связанная с ПС, начинается с ввода искомого запроса в поисковой строке. Что могут искать пользователи? Да что угодно, начиная от рецепта пирожков с капустой и заканчивая извечным вопросом «как заработать денег побольше ничего не делая».

Чтобы именно ваш ресурс выходил в качестве ответа на вопрос, необходимо опережать своих конкурентов. Для этого и нужно обратить особое внимание на продвижение своего проекта, куда входят такие мероприятия как написание качественного оптимизированного контента, то есть отвечающего на запросы статьи, улучшение поведенческого фактора, то есть чтобы вашему читателю было интересно находится на ресурсе, это улучшение юзабилити, то есть удобство посетителя и многие другие факторы. Это мы все научимся с вами делать.

Компоненты поисковых систем

А что же помогает поисковикам, например, тому же Гугл индексировать ваш ресурс? 

  1. Агенты — это работники, выполняющий основную часть работу — индексируют и анализируют сайты.
  2. Пауки (spider) – программа, которая может скачивать страницы веб-ресурса и собирать общую информацию о нем.
  3. Кроулеры (crawler) – программа, отыскивающая все ссылки на страницах, переходя по которым разыскивает новые данные не знакомые поисковикам.
  4. Индексатор (indexer) – анализирует текст, заголовки, стиль и др.
  5. Роботы  - индексируют страницы вашего контента, а также изучают разнообразные ссылки.

Для того чтобы индексация происходила так, как нужно вам вы и создаете специальный документ «robots.txt». Он позволяет системе проверять только те страницы, которые вам нужно, и убирать то, что видеть не следует.

Виды поисковых систем

Существуют несколько вариантов информационно — поисковых систем:

  • Каталоги. Простое сравнение поиска – это книжная полка в библиотеке. Там все хранится в подкатегориях и категориях определенной тематики. Если вы попали в такой поисковик, то поверьте, информация, которую вы там найдете, будет более чем полезна и понятна для вашего восприятия. Догадались о каком распространенном сайте идет речь? Конечно же о википедии, которая собрала в себе целый справочник полезной информации.
  • Поисковые указатели. Поиск в данных осуществляется за счет ключевых фраз. Это и удобно и неудобно одновременно. Думаю, меня поймут те люди, которые ищут, например, «Девушка показывает класс», чтобы найти как девушка показывает большой палец вверх, а в поиске вылезает что-то не очень приличное. 🙂 Такой вид поиска характеризирует большую часть поисковых систем.
  • Рейтинговые системы. Определяют вашу популярность за счет количества посещений. Конечно, не самый лучший критерий, так как не всегда учитывается полезность и качественность самого ресурса. Пример такой системы – это интернет ресурс alexa.com.

Поисковые сервера подразделяются также на общие и специализированные. Общие поисковики сортируют информационные данные без всякого отбора по всем известным им веб-ресурсам. К ним относятся Яндекс, Рамблер, Гугл. Специализированные  — осуществляют сортировку по используемому языку.

Также поисковые системы могут делиться на региональное и мировое распространение.

На сегодняшний день все поисковики постоянно совершенствуют свои алгоритмы по отбору качественных, релевантных ресурсов.

Немного истории

В Рунете ПС появились в 1996 года – это Апорт и Рамблер. Годом позже в 1997 году образовался Яндекс, а еще годом позже в 1998 году появился еще один конкурент – Google. В настоящий момент наиболее популярные – это Яндекс и Google.

Какие же поисковики сейчас наиболее популярны?

Приведем статистику:

Как вы видите, сейчас в России наибольшей популярностью пользуется Яндекс, наряду с Гугл и Мэйл.

Таким образом, вы можете увидеть топ поисков, на которые вам следует ориентироваться при создании и продвижении своего проекта.

Поисковая система Яндекс (Yandex)

Принцип работы следующий: в поисковую строку вводите искомый запрос, нажимаете «Найти» и смотрите выдачу. Яндекс подобрал вам 13 млн. ответов на ваш запрос. Искать можно также в картинках, видео, маркете (смотрим левую колонку).

Дополнительно вы можете настроить регион для поиска. Для этого необходимо в строке поиска нажать на значок рядом с крестиком и в окне фильтра выбрать нужный регион.

Поисковая система Гугл (Google)

Гугл работает по аналогии с Яндекс. Искать информацию можно в разных разделах: картинки, видео, новости, карты и т.д.

  

Если вы нажмете на «Инструменты поиска», то откроется панель с настройками, где вы можете выбрать регион, язык и за какое время осуществить поиск информации.

Теперь вы знаете, какие системы поиска существуют в интернете, также вы увидели самые популярные из них, и теперь, вооруженные информацией вы можете налаживать свои связи и взаимодействие с поисковиками.

На сегодня все. Как Вам статья?

Всем пока.

Советую подписаться на обновление блога, чтобы не пропустить выход свежих новостей.

Екатерина Калмыкова

 

 

Поисковый индекс — Википедия

Поиско́вый и́ндекс — структура данных, которая содержит информацию о документах и используется в поисковых системах. Индекси́рование[⇨], совершаемое поисковой машиной, — процесс сбора, сортировки и хранения данных с целью обеспечить быстрый и точный поиск информации. Создание индекса включает междисциплинарные понятия из лингвистики, когнитивной психологии, математики, информатики и физики. Веб-индексированием называют процесс индексирования в контексте поисковых машин, разработанных, чтобы искать веб-страницы в Интернете.

Популярные поисковые машины сосредотачиваются на полнотекстовой индексации документов, написанных на естественных языках[1][⇨]. Мультимедийные документы, такие как видео и аудио[2] и графика[3][4], также могут участвовать в поиске.

Метапоисковые машины используют индексы других поисковых сервисов и не хранят локальный индекс, в то время как поисковые машины, основанные на кешированных страницах, долго хранят как индекс, так и текстовые корпусы. В отличие от полнотекстовых индексов, частично-текстовые сервисы ограничивают глубину индексации, чтобы уменьшить размер индекса. Большие сервисы, как правило, выполняют индексацию в заданном временно́м интервале из-за необходимого времени и затрат на обработку, в то время как поисковые машины, основанные на агентах, строят индекс в масштабе реального времени.

Цель использования индекса — повышение скорости поиска релевантных документов по поисковому запросу. Без индекса поисковая машина должна была бы сканировать каждый документ в корпусе, что потребовало бы большого количества времени и вычислительной мощности. Например, в то время, как индекс 10 000 документов может быть опрошен в пределах миллисекунд, последовательный просмотр каждого слова в 10 000 больших документов мог бы занять часы. Дополнительная память, выделяемая для хранения индекса, и увеличение времени, требуемое для обновления индекса, компенсируется уменьшением времени на поиск информации.

Факторы, влияющие на проектирование поисковых систем[править | править код]

При разработке поисковой системы необходимо учитывать следующие факторы:

Факторы слияния
Как данные входят в индекс? Как слова и подчиненные функции добавляются в индекс во время текстового корпусного обхода? И могут ли несколько поисковых роботов работать асинхронно? Поисковый робот должен сначала проверить, обновляет он старое содержание или добавляет новое. Слияние индекса[⇨] поисковой системы подобно SQL Merge и другим алгоритмам слияния[5].
Методы хранения
Как хранить индексируемые данные? То есть определяют вид хранимой информации: сжатый или отфильтрованный.
Размер индекса
Сколько памяти компьютера необходимо, чтобы поддерживать индекс.
Скорость поиска
Как быстро можно найти слово в инвертированном индексе. Важным для информатики является сравнение скорости нахождения записи в структуре данных и скорости обновления/удаления индекса.
Хранение
Как хранится индекс в течение длительного времени[6].
Отказоустойчивость
Для поисковой службы важно быть надежной. Вопросы отказоустойчивости включают проблему повреждения индекса, определяя, можно ли отдельно рассматривать некорректные данные, связанные с плохими аппаратными средствами, секционированием и схемами на основе хеш-функций и композитного секционирования[7], а также репликации.

Индексные структуры данных[править | править код]

Архитектура поисковой системы различается по способам индексирования и по методам хранения индексов, удовлетворяя факторы[⇨]. Индексы бывают следующих типов:

Суффиксное дерево
Образно структурировано как дерево, поддерживает линейное время поиска. Построено на хранении суффиксов слов. Деревья поддерживают расширенное хеширование, которое важно для индексации поисковой системы[8]. Используется для поиска по шаблону в последовательностях ДНК и кластеризации. Основным недостатком является то, что хранение слова в дереве может потребовать пространство за пределами необходимого для хранения самого слова[9]. Альтернативное представление — суффиксный массив. Считается, что он требуют меньше виртуальной памяти и поддерживает блочно-сортирующее сжатие данных.
Инвертированный индекс
Хранилище списка вхождений каждого критерия поиска[10], обычно в форме хеш-таблиц или бинарного дерева[11][12].
Индекс цитирования
Хранилище цитат или гиперссылок между документами для поддержки анализа цитирования, предмет библиометрии.
N-грамма
Хранилище последовательностей длин данных для поддержки других типов поиска или анализа текста[13].
Матрица термов документа
Используется в латентно-семантическом анализе (ЛСА), хранит вхождения слов в документах в двумерной разреженной матрице.

Проблемы параллельного индексирования[править | править код]

Одной из основных задач при проектировании поисковых систем является управление последовательными вычислительными процессами. Существует ситуации, в которых возможно создание состояния гонки и когерентных отказов. Например, новый документ добавлен к корпусу, и индекс должен быть обновлен, но в то же время индекс должен продолжать отвечать на поисковые запросы. Это коллизия между двумя конкурирующими задачами. Считается, что авторы являются производителями информации, а поисковый робот — потребителем этой информации, захватывая текст и сохраняя его в кэше (или корпусе). Прямой индекс является потребителем информации, произведенной корпусом, а инвертированный индекс — потребителем информации, произведенной прямым индексом. Это обычно упоминается как модель производителя-потребителя. Индексатор является производителем доступной для поиска информации, а пользователи, которые её ищут, — потребителями. Проблема усиливается при распределенном хранении и распределенной обработке. Чтобы масштабировать большие объемы индексированной информации, поисковая система может основываться на архитектуре распределенных вычислений, при этом поисковая система состоит из нескольких машин, работающих согласованно. Это увеличивает вероятность нелогичности и делает сложнее поддержку полностью синхронизируемой, распределенной, параллельной архитектуры[14].

Прямой индекс[править | править код]

Прямой индекс хранит список слов для каждого документа. Ниже приведена упрощенная форма прямого индекса:

Прямой индекс
Документ Слова
Документ 1 наша, Таня, громко, плачет
Документ 2 уронила, в, речку, мячик
Документ 3 тише, Танечка, не, плачь,
Документ 4 не, утонет, в, речке, мяч

Необходимость разработки прямого индекса объясняется тем, что лучше сразу сохранять слова за документами, поскольку их в дальнейшем анализируют для создания поискового индекса. Формирование прямого индекса включает асинхронную системную обработку, которая частично обходит узкое место обновления инвертированного индекса[15]. Прямой индекс сортируют, чтобы преобразовать в инвертированный. Прямой индекс по сути представляет собой список пар, состоящих из документов и слов, отсортированный по документам. Преобразование прямого индекса к инвертированному является только вопросом сортировки пар по словам. В этом отношении инвертированный индекс — отсортированный по словам прямой индекс.

Инвертированный индекс[править | править код]

Многие поисковые системы используют инвертированный индекс при оценке поискового запроса, чтобы быстро определить местоположение документов, содержащих слова из запроса, а затем ранжировать эти документы по релевантности. Поскольку инвертированный индекс хранит список документов, содержащих каждое слово, поисковая система может использовать прямой доступ, чтобы найти документы, связанные с каждым словом в запросе, и быстро получить их. Ниже приведено упрощенное представление инвертированного индекса:

Инвертированный индекс
Слово Документы
в Документ 2, Документ 4
громко Документ 1
мяч Документ 2, Документ 4
наша Документ 1
не Документ 3, Документ 4
плакать Документ 1, Документ 3
речка Документ 2, Документ 4
Таня Документ 1, Документ 3
тише Документ 3
уронить Документ 2
утонуть Документ 4

Инвертированный индекс может только определить, существует ли слово в пределах конкретного документа, так как не хранит никакой информации относительно частоты и позиции слова, и поэтому его считают логическим индексом. Инвертированный индекс определяет, какие документы соответствуют запросу, но не оценивает соответствующие документы. В некоторых случаях индекс включает дополнительную информацию, такую как частота каждого слова в каждом документе или позиция слова в документе[16]. Информация о позиции слова позволяет поисковому алгоритму идентифицировать близость слова, чтобы поддерживать поиск фраз. Частота может использоваться, чтобы помочь в ранжировании документов по запросу. Такие темы в центре внимания исследований информационного поиска.

Инвертированный индекс представлен разреженной матрицей, так как не все слова присутствуют в каждом документе. Индекс подобен матрице термов документа, используемом в ЛСА. Инвертированный индекс можно считать формой хеш-таблицы. В некоторых случаях индекс представлен в форме двоичного дерева, которая требует дополнительной памяти, но может уменьшить время поиска. В больших индексах архитектура, как правило, представлена распределенной хеш-таблицей[17].

Слияние индекса[править | править код]

Инвертированный индекс заполняется путём слияния или восстановления. Архитектура может быть спроектирована так, чтобы поддерживать инкрементную индексацию[18][19], где слияние определяет документ или документы, которые будут добавлены или обновлены, а затем анализирует каждый документ в слова. Для технической точности, слияние объединяет недавно индексированные документы, обычно находящиеся в виртуальной памяти, с индексным кэшем, который находится на одном или нескольких жестких дисках компьютера.

После синтаксического анализа индексатор добавляет указанный документ в список документов для соответствующих слов. В более крупной поисковой системе процесс нахождения каждого слова для инвертированного индекса может быть слишком трудоемким, поэтому его, как правило, разделяют на две части:

  • разработка прямого индекса,
  • сортировка прямого индекса в инвертированный индекс.

Инвертированный индекс называется так из-за того, что он является инверсией прямого индекса.

Сжатие[править | править код]

Создание и поддержка крупномасштабного поискового индекса требует значительной памяти и выполнения задач обработки. Многие поисковые системы используют ту или иную форму сжатия, чтобы уменьшить размер индексов на диске[6]. Рассмотрим следующий сценарий для полнотекстового механизма поиска в Интернете:

  • Требуется 8 битов (1 байт) для хранения одного символа. Некоторые кодировки используют 2 байта на символ[20].
  • Среднее число символов в любом слове на странице примем за 5.

Учитывая этот сценарий, несжатый индекс для 2 миллиардов веб-страниц должен был бы хранить 500 миллиардов записей слов. 1 байт за символ или 5 байт за слово — потребовалось бы 2500 гигабайт одного только пространства памяти. Это больше, чем среднее свободное пространство на диске 2 персональных компьютеров. Для отказоустойчивой распределенной архитектуры требуется еще больше памяти. В зависимости от выбранного метода сжатия индекс может быть уменьшен до части такого размера. Компромисс времени и вычислительной мощности, требуемой для выполнения сжатия и распаковки.

Примечательно, что крупномасштабные проекты поисковых систем включают затраты на хранение, а также на электроэнергию для осуществления хранения.

Синтаксический анализ (или парсинг) документа предполагает разбор документа на компоненты (слова) для вставки в прямой и инвертированный индексы. Найденные слова называют токенами (англ. token), и в контексте индексации поисковых систем и обработки естественного языка парсинг часто называют токенизацией (то есть разбиением на токены). Синтаксический анализ иногда называют частеречной разметкой, морфологическим анализом, контент-анализом, текстовым анализом, анализом текста, генерацией согласования, сегментацией речи, лексическим анализом. Термины «индексация», «парсинг» и «токенизация» взаимозаменяемы в корпоративном сленге.

Обработка естественного языка постоянно исследуется и улучшается. Токенизация имеет проблемы с извлечением необходимой информации из документов для индексации, чтобы поддерживать качественный поиск. Токенизация для индексации включает в себя несколько технологий, реализация которых может быть коммерческой тайной.

Проблемы при обработке естественного языка[править | править код]

Неоднозначность границ слова
На первый взгляд может показаться, что токенизация является простой задачей, но это не так, особенно при разработке многоязычного индексатора. В цифровой форме тексты некоторых языков, таких, как китайский или японский, представляют сложную задачу, так как слова четко не разделены пробелом. Цель токенизации в том, чтобы распознать слова, которые будут искать пользователи. Специфичная для каждого языка логика используется, чтобы правильно распознать границы слов, что необходимо для разработки синтаксического анализатора для каждого поддерживаемого языка (или для групп языков с похожими границами и синтаксисом).
Неоднозначность языка
Для более точного ранжирования документов поисковые системы могут учитывать дополнительную информацию о слове, например, к какому языку или части речи оно относится. Эти методы зависят от языка, поскольку синтаксис между языками различается. При токенизации некоторые поисковые системы пытаются автоматически определить язык документа.
Различные форматы файлов
Для того, чтобы правильно определить, какие байты представляют символы документа, формат файла должен быть правильно обработан. Поисковые системы, которые поддерживают различные форматы файлов, должны правильно открывать документ, получать доступ к документу и токенизировать его символы.
Ошибки памяти
Качество данных естественного языка не всегда может быть совершенным. Уязвимость существует из-за неизвестного количества документов, в частности, в Интернете, которые не подчиняются соответствующему протоколу файла. Двоичные символы могут быть ошибочно закодированы в различных частях документа. Без распознавания этих символов и соответствующей обработки может ухудшиться качество индекса или индексирования.

Токенизация[править | править код]

В отличие от большинства людей, компьютеры не понимают структуру документа естественного языка и не могут автоматически распознавать слова и предложения. Для компьютера документ — это только последовательность байтов. Компьютер не «знает», что символ пробела является разделителем слов в документе. Человек должен запрограммировать компьютер так, чтобы определить, что является отдельным словом, называемым токеном. Такую программу обычно называют токенизатором или синтаксическим анализатором (парсером), а также лексическим анализатором[21]. Некоторые поисковые системы и другое ПО для обработки естественного языка поддерживают специализированные программы, удобные для осуществления синтаксического анализа, например, YACC или Лекс[22].

Во время токенизации синтаксический анализатор определяет последовательность символов, которые представляют слова и другие элементы, например, пунктуация, представленная числовыми кодами, некоторые из которых являются непечатаемыми управляющими символами. Синтаксический анализатор может распознать некоторые объекты, например, адреса электронной почты, телефонные номера и URL. При распознавании каждого токена могут быть сохранены некоторые характеристики, например, язык или кодировка, часть речи, позиция, число предложения, позиция в предложении, длина и номер строки[21].

Распознавание языка[править | править код]

Если поисковая система поддерживает несколько языков, то первым шагом во время токенизации будет определение языка каждого документа, поскольку многие последующие шаги зависят от этого (например, стемминг и определение части речи). Распознавание языка — это процесс, при котором компьютерная программа пытается автоматически определить или классифицировать язык документа. Автоматическое распознавание языка является предметом исследований в обработке естественного языка[23].

Анализ формата документа[править | править код]

Если поисковая система поддерживает множество форматов документов, то документы должны быть подготовлены для токенизации. Проблема состоит в том, что некоторые форматы документов содержат информацию о форматировании в дополнение к текстовому содержанию. Например, документы HTML содержат HTML-теги[24]. Если бы поисковая система игнорировала различие между содержанием и разметкой текста, то посторонняя информация включалась бы в индекс, что привело бы к плохим результатам поиска. Анализ формата — выявление и обработка языка разметки, встроенного в документ. Анализ формата также упоминается как структурный анализ, разделение тегов, текстовая нормализация.

Задача анализа формата осложняется тонкостями различных форматов файлов. Некоторые форматы файлов защищаются правом интеллектуальной собственности, о них мало информации, а другие — наоборот, хорошо документированы. Распространенные, хорошо задокументированные форматы файлов, которые поддерживают поисковые системы[25][26]:

Некоторые поисковики поддерживают файлы, которые хранятся в сжатом или зашифрованном формате[27][28][29]. При работе со сжатым форматом индексатор сначала распаковывает документ. Этот шаг может привести к получению одного или нескольких файлов, каждый из которых должен быть индексирован отдельно. Бывают следующие поддерживаемые форматы сжатого файла:

Анализ формата может включать методы повышения качества, чтобы избежать включения ненужной информации в индекс. Контент может управлять информацией о форматировании, чтобы включать дополнительные сведения. Примеры злоупотребления форматированием документа в случае веб-спама:

  • Включение сотен или тысяч слов в раздел, который скрыт от представления на мониторе, но является видимым индексатору, при помощи тегов форматирования (например, в скрытый тег div в HTML можно включить использование CSS или JavaScript).
  • Установка цвета шрифта слов таким же, как цвет фона, что делает невидимыми слова для человека при просмотре документа, но слова остаются видимыми для индексатора.

Распознавание раздела[править | править код]

Некоторые поисковые системы включают распознавание раздела, определяют основные части документа до токенизации. Не все документы в корпусе читаются как правильно написанная книга, разделенная на главы и страницы. Некоторые документы в Интернете, такие как новостные рассылки и корпоративные отчеты, содержат ошибочное содержание и боковые блоки, в которых нет основного материала. Например, эта статья отображает в левом меню ссылки на другие веб-страницы. Некоторые форматы файлов, как HTML или PDF, допускают содержание, которое будет отображаться в колонках. Хотя содержимое документа представлено на экране в различных областях, исходный текст хранит эту информацию последовательно. Слова, которые появляются последовательно в исходном тексте, индексируются последовательно, несмотря на то, что предложения и абзацы отображаются в различных частях монитора. Если поисковые системы индексируют весь контент, как будто это основное содержание документа, то качество индекса и поиска может ухудшиться. Отмечают две основные проблемы:

  • Содержание в различных разделах рассматривают как связанное с индексом, хотя в действительности это не так.
  • Дополнительное содержание «боковой панели» включено в индекс, но оно не способствует реальной значимости документа, поэтому индекс заполнен плохим представлением о документе.

Для анализа раздела может потребоваться, чтобы поисковая система реализовала логику визуализации каждого документа, то есть абстрактное представление самого документа, и затем проиндексировала представление вместо документа. Например, иногда для вывода контента на страницу в Интернете используют JavaScript. Если поисковая система «не видит» JavaScript, то индексация страниц происходит некорректно, поскольку часть контента не индексируется. Учитывая, что некоторые поисковые системы не беспокоятся о проблемах с визуализацией, веб-разработчики стараются не представлять контент через JavaScript или используют тег NoScript, чтобы убедиться, что веб-страница индексируется должным образом[30]. В то же время этот факт можно использовать, чтобы «заставить» индексатор поисковой системы «видеть» различное скрытое содержание.

Индексация метатегов[править | править код]

Определенные документы часто содержат встроенные метаданные, такие как автор, ключевые слова, описание и язык. В HTML-страницах метатеги содержат ключевые слова, которые также включены в индекс. В более ранних технологиях поиска в Интернете индексировались ключевые слова в метатегах для прямого индекса, а полный текст документа не анализировался. В то время еще не было полнотекстовой индексации, и аппаратное обеспечение компьютера было не в состоянии поддерживать такую технологию. Язык разметки HTML первоначально включал поддержку метатегов для того, чтобы правильно и легко индексировать, без использования токенизации[31].

В процессе развития Интернета в 1990-х, многие корпорации создали корпоративные веб-сайты. Ключевые слова, используемые для описания веб-страниц стали больше ориентироваться на маркетинг и разрабатывались, чтобы управлять продажами, помещая веб-страницу в начало страницы результатов поиска для определенных поисковых запросов. Факт, что эти ключевые слова были определены субъективно, приводил к спаму, что вынудило поисковые системы принять полнотекстовую индексацию. Разработчики поисковой системы могли поместить много «маркетинговых ключевых слов» в содержание веб-страницы до того, как наполнят её интересной и полезной информацией. Однако целью проектирования веб-сайтов являлось привлечение клиентов, поэтому разработчики были заинтересованы в том, чтобы включить больше полезного контента на сайт, чтобы сохранить посетителей. В этом смысле полнотекстовая индексация была более объективной и увеличила качество результатов поисковой системы, что содействовало исследованиям технологий полнотекстовой индексации.

В локальном поиске решения могут включать метатеги, чтобы обеспечить поиск по авторам, так как поисковая система индексирует контент из различных файлов, содержание которых не очевидно. Локальный поиск больше находится под контролем пользователя, в то время как механизмы интернет-поиска должны больше фокусироваться на полнотекстовом индексе.

  1. ↑ Clarke,Cormack, 1995.
  2. ↑ Rice,Bailey.
  3. ↑ Jacobs,Finkelstein,Salesin, 2006.
  4. ↑ Lee.
  5. ↑ Brown, 1996.
  6. 1 2 Cutting,Pedersen, 1990.
  7. ↑ mysql.
  8. ↑ trie.
  9. ↑ Gusfield, 1997.
  10. ↑ inverted index.
  11. ↑ Foster, 1965.
  12. ↑ Landauer, 1963.
  13. ↑ 5-gram.
  14. ↑ Dean,Ghemawat, 2004.
  15. ↑ Brin,Page, 2006.
  16. ↑ Grossman,Frieder,Goharian, 2002.
  17. ↑ Tang,Sandhya, 2004.
  18. ↑ Tomasic, 1994.
  19. ↑ Luk,Lam, 2007.
  20. ↑ unicode.
  21. 1 2 Tokenization Guidelines, 2011.
  22. ↑ Lex&Yacc, 1992.
  23. ↑ Automated language recognition, 2009.
  24. ↑ html, 2011.
  25. ↑ formats files.
  26. ↑ Типы файлов Google/Yandex.
  27. ↑ Программы индексации и поиска файлов.
  28. ↑ Индексирование архивов.
  29. ↑ Служба индексирования windows.
  30. ↑ JS indexing.
  31. ↑ Lee Hypertext, 1995.
  • Charles E. Jacobs, Adam Finkelstein, David H. Salesin. Fast Multiresolution Image Querying (англ.) // Department of Computer Science and Engineering. — University of Washington, Seattle, Washington 98195, 2006.
  • Cutting, D., Pedersen, J. Optimizations for dynamic inverted index maintenance (англ.) / Jean-Luc Vidick. — NY, USA: ACM New York, 1990. — P. 405-411. — ISBN 0-89791-408-2.
  • Eric W. Brown. Execution Performance Issues in Full-Text Information Retrieval. — University of Massachusetts Amherst: Computer Science Department, 1996. — 179 с. — (Technical Report 95-81).
  • Dan Gusfield. Algorithms on Strings, Trees and Sequences: Computer Science and Computational Biology. — USA: Cambridge University Press, 1997. — 326 с. — ISBN 0-521-58519-8.
  • Caxton Croxford Foster. Information retrieval: information storage and retrieval using AVL trees (англ.) // ACM '65 Proceedings of the 1965 20th national conference. — NY, USA, 1965. — P. 192-205. — DOI:10.1145/800197.806043.
  • Landauer, W. I. The balanced tree and its utilization in information retrieval (англ.) // IEEE Trans. on Electronic Computers. — USA, 1963. — No. 6. — P. 12.
  • Jeffrey Dean, Sanjay Ghemawat. MapReduce: Simplified Data Processing on Large Clusters (англ.). — Google, Inc, 2004.
  • Sergey Brin, Lawrence Page. The Anatomy of a Large-Scale Hypertextual Web Search Engine (англ.). — Stanford University, Stanford: Computer Science Department, 2006.
  • Grossman, Frieder, Goharian. IR Basics of Inverted Index (англ.). — 2002.
  • Tang Hunqiang, Sandhya Dwarkadas. Hybrid Global Local Indexing for Efficient Peer to Peer Information Retrieval (англ.). — University of Rochester: Computer Science Department, 2004.
  • Anthony Tomasic. Incremental Updates of Inverted Lists for Text Document Retrieval (англ.) : Conference Proceeding. — Stanford University, 1994.
  • Robert W.P. Luk, Wai Lam. Efficient in-memory extensible inverted file (англ.) // Information Systems. — 2007. — No. 32 (5). — P. 733-754. — DOI:10.1016/j.is.2006.06.001.
  • Radim Řehůřek, Milan Kolkus. Language Identification on the Web: Extending the Dictionary Method (англ.) // Lecture Notes in Computer Science Volume. — Mexico, 2009. — No. 5449. — P. 357-368. — ISBN 978-3-642-00382-0. (недоступная ссылка)
  • Scoping SIG, Tokenization Taskforce PCI Security Standards Council. Info Supplement:PCI DSS Tokenization Guidelines. — 2011. — С. 23.
  • Б. Лоусон, Р. Шарп. Изучаем HTML5 = Introducing HTML5. — Питер, 2011. — 272 с. — (Библиотека специалиста). — 2000 экз. — ISBN 978-5-459-00269-0, 978-0321687296.
  • T. Berners-Lee. Hypertext Markup Language - 2.0 (англ.). — Network Working Group, 1995.
  • Levine JR, Mason T, Brown D. Lex & Yacc. — Sebastopol: O'Reilly & Associates, 1992. — P. 387. — ISBN 1565920007.
  • James Lee. Software Learns to Tag Photos (англ.). MIT Technology Review 1-2 (Ноябрь 09, 2006). Дата обращения 3 декабря 2013.

YaCy — Википедия

Материал из Википедии — свободной энциклопедии

YaCy (от англ. Yet another Cyberspace, Ещё одно Киберпространство; созвучно с англ. Ya see) — свободно распространяемая децентрализованная поисковая система, построенная по принципу одноранговой сети (P2P). Есть версии для Windows, Linux, MacOSX. Основной программный модуль, написанный на Java, функционирует на нескольких тысячах компьютеров (по состоянию на 2011 год) участников сети YaCy. Каждый участник проекта независимо исследует Интернет, анализируя и индексируя найденные страницы и складывает результаты индексирования в общую базу данных (так называемый индекс), который совместно используется всеми пользователями YaCy по принципу P2P.

В отличие от частично распределённых поисковых систем, сеть YaCy характеризуется децентрализованной архитектурой. Все узлы эквивалентны и отсутствует центральный сервер. Программа может работать в режиме поискового робота или в качестве локального прокси-сервера, индексируя страницы, посещаемые пользователем (при этом игнорируются страницы с признаками персональных данных — cookies и т. п.).

Доступ к функциям поиска обеспечивается за счёт локально запущенного веб-сервера, который генерирует поисковую страницу с полем для ввода поисковых запросов и возвращает результаты поиска в том же формате, что и другие популярные поисковые системы.

Программа распространяется под лицензией GPL. Проект поддерживает европейское отделение фонда свободного программного обеспечения (FSFE).[1]

Проект YaCy был основан Михаэлем Кристеном (нем. Michael Christen) в 2003 году.

Преимущества[править | править код]

  • Совместный поиск может быть осуществлён с YaCy практически всегда: всегда есть часть сети, которая будет доступна.
  • Интернет-пользователи поисковика YaCy независимы от компаний, их рейтинга (который надо заработать) и их цензуры. Рейтинг страниц рассчитывается на ищущем узле.[источник не указан 2003 дня]
  • Программное обеспечение с открытым исходным кодом, распространяется по лицензии GNU GPL и является бесплатным.
  • При использовании прокси‐сервера клиента он может просканировать страницы из глубокой паутины или неиндексированных сетей общего пользования (таких, как I2P), которые не могут быть проиндексированными обычными поисковыми роботами, такими как в Google, Yahoo или Bing.
  • YaCy не обязательно связан с участием в общественном YaCy-кластере и может, таким образом, быть использованным в качестве поисковой системы в частных сетях (таких, как внутренняя сеть компании) или в частных поисковых сервисах (и индексах) определённой группы страниц.
  • Чем больше узлов находится в сети, тем меньше данных хранится на каждом узле относительно размера индекса, и тем меньше влияние на сеть изменения количества узлов.

Недостатки[править | править код]

  • Спамеры, теоретически, могут запускать свои узлы, возвращающие спам в качестве результата. Поэтому клиент имеет функцию проверки страниц на наличие искомого текста.[2]
  • Из‐за того, что YaCy необходимо связаться с другими узлами для запроса и из‐за упомянутой выше (необязательной) проверки достоверности результатов поиск занимает больше времени, чем в традиционных поисковых системах.[2]
  • Главный клиент не ищет различные формы слов.
  • Протокол YaCy организован с использованием индивидуальных HTTP-запросов, что влечёт за собой бо́льшие задержки, чем при использовании UDP или TCP с постоянным подключением.
  • Главный клиент написан на Java и в существующей реализации работает медленно. С ростом объёма локального индекса значительно растёт потребление памяти и снижается скорость работы. Проверка локальной БД объёмом ~20 Гб может занять несколько секунд, до того, как запрос будет отправлен другим пирам.
  • В общественной сети «freeworld» для поиска по Всемирной паутине в настоящее время представлено относительно мало «активных» «старших» узлов (хранящих накопленный поисковый индекс и отвечающих на поисковые запросы от других узлов), и они могут выдать относительно немного результатов по сравнению с крупными поисковыми машинами. На один узел приходится до нескольких десятков миллионов записей, поэтому их полное перемещение между узлами занимает значительное время, и резкое выключение или добавление значительного количества узлов может временно ухудшить качество сети для некоторых поисковых запросов, как это произошло после выпуска версии 1.0 в ноябре 2011 года, когда количество участников быстро увеличилось примерно до 4000[2] или 1000[3]. В начале марта 2012 года «активными» были около 1/6 одновременно работавших узлов.

Ядро поиска отличается от других поисковых систем — это не центральный сайт, а компьютерная программа, которая работает в различных операционных системах. Поиск ведётся на локальном веб-сайте, который работает с помощью установленной программы. Отображение результатов обычно происходит в виде веб-страницы.

В сочетании с дополнительными P2P-системами используется прокси, который автоматически индексирует посещённые страницы. Индексирование не производится в тех случаях, когда данные передаются через GET или POST, или же используются куки (cookies) или HTTP-аутентификации (например, страницы входящие в определённую запароленную зону).[4] Тем самым гарантируется, что действительно индексируются только доступные для общественности данные.

  • YaCy обеспечивает всех пользователей прокси-функцией, которая позволяет также подключаться к другим узлам по адресу ИМЯУЗЛА.yacy или ИМЯХЭША.yacyh. www.ИМЯУЗЛА.yacy может быть главной страницей пользователя, под share.ИМЯУЗЛА.yacy находится файлообменник, а ИМЯУЗЛА.yacy это стандартный интерфейс доступа. Другие поддомены могут быть специально созданы путём создания папки с именем поддомена. Динамический DNS не поддерживается.
  • Кроме .yacy-домена, YaCy предоставляет возможность создавать домашнюю страницу и папки, которые могут быть связаны с текущим IP или адресом динамического DNS и доступны для не YaCy пользователей.
  • YaCy имеет встроенную функцию передачи сообщений с помощью которой можно отправлять текстовые сообщения (с форматированием вики), и, в зависимости от настройки приёмника, также отправлять файлы.
  • YaCy имеет встроенные вики и блог.
  • Есть управление закладками, которые могут быть общедоступными и личными.
  • Есть возможность внесения отдельных областей в чёрные списки.
  • Есть OpenSearch-интерфейс. Каждый узел обеспечивает доступность его по адресу http://<адрес-узла>:<порт-узла>/opensearchdescription.xml, например https://web.archive.org/web/20120602233757/http://sciencenet.fzk.de:8080/opensearchdescription.xml . Чтобы добавить вашу персональную поисковую систему YaCy в список поисковых систем Firefoxa нужно открыть этот XML файл в браузере и сохранить его в папку «searchplugins», а затем перезапустить Firefox.

Программа основана на веб-сервере, который также является кэширующим-прокси. Пользователь веб-сервера может получить доступ к оболочке поиска и управления своим собственным узлом. Прокси имеет общий код со сканером, а это значит, что все посещённые через него страницы, которые не являются личными, по умолчанию автоматически записываются в индекс. Кроме того, YaCy предоставляет собственный домен в YaCy-сети, который доступен через прокси-сервер. Для поиска в YaCy интегрированы Solr и Lucene (для версии 1.6 это версии 4.3)

Распределённый индекс[править | править код]

В отличие от файлообменных сервисов результаты P2P-поиска должны быть доступны немедленно. Чтобы достигнуть этого YaCy использует распределённую хеш-таблицу (DHT). Это означает, что все распознанные программой URL-адреса и слова отправляются к узлам, которые подходят для хранения соответствующих контрольных сумм слов, узлов или ссылок. При поиске всё работает наоборот: поиск происходит только по узлам, подходящим для хранения хешей URL-адреса для этого слова.

Таким образом, для получения результатов задействуется только часть узлов.

Типы узлов[править | править код]

Сеть YaCy состоит из четырёх различных типов узлов:

Новичок
Эти узлы не могут быть найдены, потому что новичок не имеет связи с сетью. Таким образом, вы видите только себя, если узел новичок.
Младший
Узел находится за файрволом. Другие относят его к младшим или потенциальным узлам,[5] они видят только последний его запрос и у них нет способа определить, находится ли он до сих пор в сети.
Старший(Senior)
На старший можно попасть снаружи и он является полноправным членом сети YaCy. В статистике сети работающие в данный момент старшие узлы называются активными, неработающие — пассивными.[5]
Главный
Старший, который выгружает список сидов, используемый для начального соединения с другими узлами.

Протокол[править | править код]

Протокол YaCy состоит из текстовых сервлетов, которые обеспечивает встроенный веб-сервер по адресу /yacy/servletname.html. Другие узлы передают данные через GET-параметры и получают ответ в виде простого текста, точный формат отличается для сервлетов.

Начальная загрузка[править | править код]

При начальной загрузке узел пытается связаться с другими узлами YaCy-сети. Сначала ищутся списки узлов. Первый адрес в superseed.txt служит для загрузки устойчивых YaCy-узлов. seeds.txt является ссылками на другие узлы, таким образом устанавливается контакт с YaCy-сетью. В следующий раз, когда вы запустите YaCy, gebootstrapt создаётся из известных с предыдущего запуска узлов сети. В дальнейшем списки узлов будут необходимы только когда большинство старых ссылок будут не доступны.

  • M. Christen: Peer-to-Peer: Eigenes Suchportal mit Yacy einrichten in iX 02/2008, S. 102 ff.
  • M. Schlenker: Gemeinsam gegen Google in OpenSource, 01/2007, November 2006, S. 94-97
  • J. Bager: Europäische Gegenströmung in c’t, 2006/10, 2. Mai 2006, S.172-174 (Onlinetext)
  • R. Sietmann: Wider die Monokultur. P2P-Strategien gegen die Suchmaschinen-Monopolisierung. in c’t, 2005/16, 25. Juli 2005, S.52-53 (Onlinetext)
  • M. Schwarze: Jedermanns Suchmaschine in: HAZ (Artikel als PDF 107 kB)
  • Michael Christen: YaCy — Peer-to-Peer Web-Suchmaschine in Die Datenschleuder, #86, 2005, S.54-57 (gesamtes Heft als PDF 1,7 MB)

Семантический поиск — Википедия

Семантический поиск — способ и технология поиска информации, основанная на использовании контекстного (смыслового) значения запрашиваемых фраз, вместо словарных значений отдельных слов или выражений при поисковом запросе. Улучшение результатов поиска при обработке запросов достигается за счет более точной интерпретации поисковых намерений пользователя.

Для осуществления семантического поиска в Сети (или в каких-либо системах с ограниченным доступом пользователей) применяются специальные технологии. При семантическом поиске учитывается информационный контекст, местонахождение и цель поиска пользователя, словесные вариации, синонимы, обобщенные и специализированные запросы, язык запроса, а также другие особенности, позволяющие получить соответствующий результат[1].

Технология семантического поиска рассматривается как дополнение, либо альтернатива традиционным видам поиска информации. Ряд крупных поисковых систем, таких как Google и Bing, используют некоторые элементы семантического поиска, не являясь таковыми в чистом виде.

Цель семантического поиска - определять особенности пользователя и предоставлять ему наиболее релевантные результаты.

Семантический поиск возник из семантической сети, которая строится на онтологиях. В области наук об информации и вычислительной технике онтология изначально означает информационную структуру и набор фактов, представляющих собой систему знания. Теория семантического поиска уходит корнями к 2003 году и статье Р.Гуха и др., о IBM, Стэнфорде и Консорциуме Всемирной паутины[2]. Тогда был продемонстрирован принцип работы семантического поиска.

С ростом популярности семантических сетей увеличилось и количество метаданных для поисковых систем. Почти все, что связано с запросами или сайтами, может считаться частью семантической области, имеющей отношение к результатам поиска.

Семантический поиск зависит как от семантической разметки веб-сайтов, так и от огромного количества семантической информации, которое она за собой влечет. В 2013 году первым крупным прорывом в технологиях семантического поиска стал алгоритм «Колибри»[3]. С этим алгоритмом был применен «разговорный поиск».

Атрибуты, определяющие семантический поиск[править | править код]

Атрибуты семантического поиска (отличающие его от не семантического поиска) не обязательно являются его преимуществами. Некоторые из атрибутов могут повысить точность поиска за счет использования большого количества времени (или других ресурсов). Соответственно, эти десять атрибутов являются лишь характерными чертами семантического поиска, дающими преимущество только в идеальных условиях[4].

1. Обработка морфологических вариаций.

2. Обработка синонимов с правильными значениями.

3. Обработка обобщений.

4. Обработка концептуального множества.

5. Обработка базы знаний.

6. Обработка запросов и вопросов, заданных простым языком.

7. Возможность определения непрерывного параграфа и наиболее соответствующего предложения.

8. Возможность к адаптации и органичному прогрессу.

9. Способность работать, не полагаясь на данные статистики, поведение пользователей и других искусственных средств.

10. Способность обнаруживать результаты своей собственной деятельности.

Семантический поиск в поисковых системах[править | править код]

Факторы, учитываемые поисковыми системами[править | править код]

Семантический поиск осуществляет не только анализ контекста, но и других факторов. Умные поисковые системы учитывают целый ряд факторов для того, чтобы получить наиболее соответствующие и подходящие поисковые запросы, включая:

1. Текущие тенденции

Если выборы президента только что закончились, и кто-то ищет информацию: «Кто стал новым президентом?», семантический поиск должен понять запрос и дать соответствующие результаты, основанные на текущих тенденциях и новостях.

2. Местонахождение пользователя

Если человек ввел запрос «Какая сейчас температура?», семантическая поисковая система должна предоставить результаты, основанные на месте его нахождения в момент запроса. Например, для ростовского жителя результатом запроса будут данные о температуре воздуха в городе Ростове-на-Дону.

3. Цель поиска

Семантический поиск основывается на выдаче подходящих результатов, основанных на цели поиска пользователя, а не определенных слов, использованных при обращении к поисковой системе.

4. Вариации слов в семантическом поиске

Семантический поиск должен учитывать лингвистические особенности запроса (падеж, число и время) и предлагать подходящие результаты для всех семантических вариаций слов, то есть видеть различия между близкими по написанию словами. Например, в таких словах как «техника» (транспортные средства или должность в род. падеже), «техники» (методики или должность во мн.ч.), «техник» (должность или методики во мн.ч), смысл часто меняется при переходе от единственного числа к множественному.

5. Синонимы

Семантические поисковые системы должны понимать синонимы и давать более или менее похожие результаты на любые синонимичные слова, запрашиваемые пользователем. Например, при запросах «наивысший пик» или «наибольший пик» ответ должен быть одинаковым.

6. Общие и специализированные запросы

Семантические поисковые системы должны обнаруживать связь между общими и специализированными запросами и предоставлять соответствующие результаты. Например, в сети существует информация как по общим вопросам здравоохранения, так и информация про «диабет». Если кто-то запрашивает информацию о состоянии здоровья, то семантический поиск должен предложить ссылки на оба источника, несмотря на то что в статье про диабет отсутствует упоминание слов «здоровье» или «здравоохранение».

7. Концептуальное множество

Это подмножество контекстной информации в семантическом поиске. Семантический поиск понимается как концепция запроса для получения соответствующих результатов. Например, запрос «проблемы дорожного движения в Москве» может выдать соответствующие результаты, включая такие, как «узкие дороги», «машины с мигалками», «ремонт дорог и строительство эстакад», «оставленный на обочинах автотранспорт» и т. д., так как с широкой концептуальной точки зрения, все это приводит к проблемам дорожного движения.

8. Простой язык при запросах

Не каждый человек - технический гуру, и не много людей знают, что именно нужно искать, чтобы получить нужный ответ. Большинство пользователей просто спросят, например, «Время во Владивостоке», на что большинство поисковых систем дадут ссылки на сайты где упоминаются «время» и «Владивосток». Умные поисковые системы сразу выдадут текущее время во Владивостоке.

9. Зависимость между значением фразы и использованными в ней словами

Конкретные слова в словосочетаниях и фразах или их порядок могут изменить истинное значение всего запроса. Например, запрос «Система приобретет новые активы в различных секторах» коренным образом отличается от запроса «Система приобретет новые очертания в различных секторах». В первом случае речь может идти о компании АФК «Система» и ее стратегии по покупке активов, вероятнее всего, в частном и государственном секторах. Второй вариант, вероятнее всего, говорит об изменении экономической модели и ее отражении на практике.

Преимущества семантического поиска в Google[править | править код]

Google не является в чистом виде семантической поисковой системой, хотя и использует некоторые элементы семантического поиска. Семантическая поисковая оптимизация, предоставляет результат, основанный на множестве факторов, а не только на значении слов запроса.

Результат семантического поиска связан:

1. С миллионами других людей, которые пишут те же слова запроса.

2. С машинным обучением Google.

3. С временными, сезонными и погодными тенденциями относительно данного запроса.

4. С поисковыми тенденциями в конкретном месте проживания.

Каждый байт данных обрабатывается таким образом, что поисковая система индексирует и предоставляет самые подходящие результаты к самому простому запросу.

Основываясь на агрегированной информации миллионов пользователей, алгоритм поисковой системы умеет понимать, чего они действительно хотят. Поисковые системы собирают огромное количество информации с каждого запроса. Google и другие поисковики используют данные по кликабельности страниц выдачи и времени нахождения на сайте для предоставления наилучших результатов поиска. Благодаря консоли поиска в Google и Google Analytics можно также получить некоторые из этих данных[3].

Обзор семантических поисковых систем[править | править код]

Суть семантического поиска заключается не только в форме вопросов, заданных поисковой системе. Поскольку, веб — это набор неструктурированных HTML-страниц, в основе семантического поиска также лежит и базовая информация.

Одной из самых интуитивных и наиболее точных семантических баз данных считается Freebase. Freebase работает не только через текстовый поиск, а что наиболее важно, и через — MQL (Metaweb Query Language). MQL работает подобно JSON (текстовый формат обмена данными), но обладает более широкими возможностями. С его помощью можно составить любой запрос в Freebase, ответом на который будет тот же запрос, но уже с прикрепленными результатами поиска. Powerset, по сути, это тематическая база данных, которая работает с определенной структурированной информацией[5].

Google, в первую очередь, ориентируется на статистическую частоту запросов и почти не принимает во внимание семантику. Особо стоит отметить новую систему SearchMonkey от Yahoo! Эта система ничего не добавляет к найденным результатам, но использует семантические аннотации для более полного, интерактивного и полезного пользовательского интерфейса.

Компании Hakia и Powerset постоянно работают над улучшением возможностей поиска. Их стратегия включает создание структур подобных Freebase с дальнейшим проведением поиска по наиболее релевантным результатам на естественном языке. Основное отличие заключается в том, что Hakia (как и другие) использует технологию для поиска по всей сети, а Powerset замкнул свой поиск только на Wikipedia[5].

Поисковые системы сталкиваются с огромным числом проблем при осуществлении поиска по семантике. Первой из них является определение того, что конкретно имел в виду пользователь, когда вводил поисковый запрос, то есть существование различных значений слова или фразы в различных контекстах.

Семантический поиск не сможет помочь при решении задач, не решаемых вычислительным путем.

Существуют требующие вычисления задачи, которые не имеют ничего общего с пониманием семантики слова. На ранней стадии существования Семантического Веба считалось, что с его помощью можно решать даже сверхсложные задачи, однако, достигнуть высокого уровня все еще не удалось. Существуют пределы того, что можно вычислить, и имеется категория задач с огромным числом возможных решений, которые невозможно решить только на основе представления информации в RDF.

Кроме того, существует пласт задач, с которыми семантический веб справляется великолепно. Он решается при помощи тематической базы данных. Семантические технологии помогают отыскать тематическую информацию, рассредоточенную по всей сети, следовательно, семантические поисковые системы часто превосходят тематические запросы[6].

Поисковый робот — Википедия

Материал из Википедии — свободной энциклопедии

Поиско́вый ро́бот («веб-пау́к», «веб-краулер» [wɛb-krɔːlə], бот ) — программа, являющаяся составной частью поисковой системы и предназначенная для перебора страниц Интернета с целью занесения информации о них в базу данных поисковика.

По принципу действия, паук напоминает обычный браузер. Он анализирует содержимое страницы, сохраняет его в некотором специальном виде на сервере поисковой машины, и отправляется по ссылкам на следующие страницы.

Владельцы поисковых машин нередко ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной. Кроме обычных пауков, существуют так называемые «дятлы» — роботы, которые «простукивают» проиндексированный сайт, чтобы определить, что он доступен.

Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения значимой информации определяются алгоритмами информационного поиска.

В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах.

Также многие поисковые системы предоставляют пользователю возможность самостоятельно добавить сайт в очередь для индексирования. Обычно это существенно ускоряет индексирование сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается практически единственной возможностью указать на его существование. Ещё одним способом быстрой индексации сайта является добавление на сайт систем веб-аналитики, принадлежащих поисковым сервисам. Например, таких как Google Analytics, Яндекс.Метрика и Рейтинг@Mail.ru от Google, Яндекса и Mail.Ru соответственно.

Ограничить индексацию сайта можно с помощью файла robots.txt. Полная защита от индексации может быть обеспечена другими механизмами, например установкой пароля на странице либо требованием заполнить регистрационную форму перед тем, как получить доступ к содержимому.

Робот не анализирует найденный контент, он только передает его на сервера поисковой системы, где уже происходит его обработка.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *