Файл: Анализ поисковых систем в сети Интернет (Понятие и функции поисковой системы) ..pdf

ВУЗ: Не указан

Категория: Курсовая работа

Дисциплина: Не указана

Добавлен: 17.06.2023

Просмотров: 38

Скачиваний: 2

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Интерфейс Google выдержан в сдержанном стиле, где нет ничего лишнего, в отличие от многих своих конкурентов, которые встраивали поисковую систему в веб-портал. Поисковая машина Google стала настолько популярной, что появились системы, подражающие ей, например, Mystery Seeker (тайный поисковик).

К 2000 году Yahoo! осуществлял поиск на основе системы Inktomi. Yahoo! в 2002 году купил Inktomi, а в 2003 году купил Overture, которому принадлежали AlltheWeb и AltaVista. Затем Yahoo! работал на основе поисковой системы Google вплоть до 2004 года, пока не запустил, свой собственный поисковик на основе всех купленных ранее технологий.

Осенью 1998 года фирма Microsoft впервые запустила поисковую систему Microsoft Network Search (MSN Search), используя результаты поиска от Inktomi. В начале 1999 года сайт начал отображать выдачу Looksmart, смешанную с результатами Inktomi. Также MSN search использовал результаты поиска от AltaVista.

В 2004 году фирма Microsoft начала переход к собственной поисковой технологии с использованием собственного поискового робота — msnbot. После проведения ребрендинга 1 июня 2009 года компанией Microsoft была запущена поисковая машина Bing. 29 июля 2009 года Yahoo! и Microsoft подписали соглашение, согласно которому Yahoo! Search работал на основе технологии Microsoft Bing. На момент 2015 года союз Bing и Yahoo! дал первые настоящие плоды. Теперь Bing занимает 20,1 % рынка, а Yahoo! 12,7 %, что в общем занимает 32,60 % от общего рынка поисковых систем в США.

1.3 Поиск информации на русском языке

В 1996 году был реализован поиск с учётом русской морфологии на поисковой машине Altavista и запущены оригинальные российские поисковые машины Рамблер и Апорт.

Поисковая машина Яндекс была открыта 23 сентября 1997 года. 22 мая 2014 года компанией Ростелеком была открыта национальная поисковая машина Спутник, которая на момент 2015 года находится в стадии бета-тестирования. 22 апреля 2015 года был открыт новый сервис «Спутник. Дети» специально для детей, с повышенной безопасностью.

Примеры работ поисковых систем Спутник и Яндекс можно увидеть на рисунках 2 и 3.

Рисунок 2. Поисковая система «Спутник».

Рисунок 3. Пример работы поисковой машины «Яндекс».

Большую популярность получили методы кластерного анализа и поиска по метаданным. Из международных систем такого плана наибольшую известность получила «Clusty» компании Vivisimo. В 2005 году в России при поддержке МГУ запущен поисковик «Нигма», поддерживающий автоматическую кластеризацию и экспериментирующий с визуальной кластеризацией. В 2006 году открылась российская метамашина Quintura, предлагающая визуальную кластеризацию в виде облака тегов.


Местонахождение поисковых систем среди ключевых уровней интернета можно увидеть на рисунке 3.

Рисунок 3. Ключевые уровни интернета.

  1. 2 Основные свойства поисковых систем

2.1 Характеристики поисковых систем

Поисковые системы обладают основными характеристиками:

  1. Полнота;

Одна из основных характеристик поисковой системы – это полнота. Представляет собой отношение количества найденных по запросу документов к общему числу документов в сети Интернет, удовлетворяющих данному запросу. Например, если в сети Интернет имеется 100 страниц, содержащих словосочетание «как выбрать машину», а по соответствующему запросу было найдено всего 60 из них, то полнота поиска будет равна 0,6.

Из этого выходит, что чем полнее поиск по запросу, тем больше вероятность того, что пользователь найдет нужный ему документ, при условии, что он вообще существует в Интернете.

  1. Точность;

Точность - еще одна важная характеристика поисковой системы, которая определяется степенью соответствия найденных документов по запросу пользователя. Для примера, если по запросу «как выбрать машину» находится сто документов, в пятидесяти из них содержится словосочетание «как выбрать машину», а в остальных просто присутствуют эти слова («как правильно выбрать радио и установить в машину»), то точность поиска считается равной 50/100 (=0,5).

Чем точнее поиск, тем быстрее пользователь может найти нужные ему документы, тем меньше лишней информации среди них будет встречаться, тем чаще найденные документы будут соответствовать запросу.

  1. Актуальность;

Не менее важная составляющая поиска – это актуальность, которая характеризуется временем, которое проходит с момента публикации документов в сети Интернет, до занесения их в индексную базу поисковой машины. Например, на следующий день после появления интересной новости, большое количество пользователей могут обратиться к поисковым машинам с соответствующими запросами. Объективно, с момента публикации новостной информации на эту тему прошло меньше суток, а основные документы уже были проиндексированы и доступны для поиска. Это осуществляется, благодаря существованию у крупных поисковых машин так называемой «быстрой базы», обновляющейся несколько раз в день.


  1. Скорость поиска;

Скорость поиска зачастую связана с его устойчивостью к нагрузкам. Для примера, на сегодняшний день в рабочие часы к поисковой машине Рамблер приходит около 60 запросов в секунду[2]. Данная загруженность требует сокращения времени обработки каждого запроса.

Здесь интересы пользователя и поисковой системы совпадают: пользователь желает получить результаты как можно быстрее, а поисковая машина должна отрабатывать запросы в максимально короткие сроки, чтобы не затормаживать вычисление следующих запросов.

  1. Наглядность;

Наглядность представления результатов - важный компонент удобного поиска. По многим запросам поисковая машина находит сотни, а иногда и тысячи результатов. Вследствие некорректно составленных запросов или неточности поиска, даже первые страницы выдачи не всегда могут содержать только нужную информацию. Это означает, что пользователь зачастую должен производить свой собственный поиск внутри найденного списка.

Различные элементы, содержащиеся на странице выдачи поисковой системы, помогают ориентироваться в результатах поиска.

Пример результата работы поисковой системы, обладающей всеми основными вышеперечисленными характеристиками, можно увидеть на рисунке 4.

Рисунок 4. Пример качественного результата работы поисковой системы Google.

2.2 Состав и принцип работы поисковых систем

Основной поисковой системой в России является «Яндекс», далее - Rambler.ru, Google.ru, Aport.ru, Mail.ru. На данный момент, Mail.ru использует базу поиска и механизм работы «Яндекса».

Практически каждая крупная поисковая машина имеют свою собственную структуру, отличную от других. Однако можно выделить общие основные компоненты, присущие для всех поисковых машин. Различия в структуре могут быть лишь в виде реализации механизмов взаимодействия этих компонентов.

  1. Модуль индексирования

Модуль индексирования состоит из трех вспомогательных программ (роботов):

  • Spider (паук) – программа, предназначенная для скачивания веб-страниц.

«Паук» обеспечивает скачивание страницы и занимается извлечением всех внутренних ссылок с этой страницы. Скачивается html-код каждой страницы. Для скачивания страниц используются протоколы HTTP.


Робот «паук» работает следующим образом – на сервер передается запрос “get/path/document” и некоторые другие команды HTTP-запроса. В ответ робот получает текстовый поток, который содержит служебную информацию и, непосредственно, сам документ.

Ссылки извлекаются из тэгов a, area, base, frame, frameset, и др. Наряду со ссылками, многими роботами обрабатываются и редиректы (перенаправления).

Каждая скачанная страница сохраняется в следующем формате:

  • URL страницы;
  • дата, когда страница была скачана;
  • http-заголовок ответа сервера;
  • тело страницы (html-код).
  • Crawler («путешествующий» паук) – это программа, автоматически проходящая по всем ссылкам, найденным на странице.

Выделяет все ссылки, присутствующие на странице. Задача Crawler - определить, основываясь на ссылках или исходя из заранее заданного списка адресов, куда дальше должен идти паук. Следуя по найденным ссылкам, он осуществляет поиск новых документов, которые еще неизвестны поисковой системе.

  • Indexer (робот - индексатор) – это программа, анализирующая веб-страницы, скачанные пауками.

Индексатор «разбирает» страницу на составные части и, применяя собственные лексические и морфологические алгоритмы, анализирует их. Анализу подвергаются различные элементы веб-страницы, такие как текст, заголовки, ссылки структурные и стилевые особенности, специальные служебные html-теги и т.д.

Таким способом, модуль индексирования позволяет обходить по ссылкам заданное множество ресурсов, скачивать встречающиеся страницы, извлекать ссылки на новые страницы из получаемых документов и проводить полный анализ данных документов.

  1. База данных

Индекс поисковой системы или база данных - это система хранения данных - информационный массив, в котором специальным образом хранятся преобразованные параметры всех скачанных и обработанных модулем индексирования документов.

  1. Поисковый сервер

Поисковый сервер - это важнейший элемент всей системы, так как от алгоритмов, лежащих в основе ее функционирования, напрямую зависит качество и быстрота поиска.

Поисковый сервер работает следующим образом:

Запрос, полученный от пользователя, подвергается морфологическому анализу. После генерируется информационное окружение каждого документа, который содержится в базе.

Полученные данные передаются в качестве входных параметров специальному модулю ранжирования. Происходит обработка данных по всем документам, в результате чего, для каждого документа рассчитывается персональный рейтинг, характеризующий релевантность запроса, введенного пользователем, и различных составляющих этого документа, которые хранятся в индексе поисковой машины.


В зависимости от выбора пользователя, этот рейтинг может быть скорректирован дополнительными условиями, примером является «расширенный поиск».

Далее генерируется сниппет, это означает, что для каждого найденного документа из таблицы документов извлекаются заголовок, краткая аннотация, наиболее соответствующая запросу, и ссылка на сам документ, причем найденные слова подсвечиваются.

После, пользователю передаются полученные результаты поиска в виде SERP (Search Engine Result Page) – страницы выдачи поисковых результатов.

Очевидно, все эти компоненты тесно взаимосвязаны друг с другом и работают во взаимодействии, образовывая четкий, достаточно сложный механизм работы поисковой машины, который требует огромных затрат ресурсов.

Обработка поискового запроса в системе «Рамблер» происходит, так, как это изображено на рисунке 5[3].

Рисунок 5. Обработка поискового запроса.

Запрос поступает в поисковую систему через маршрутизатор Cisco 6000 series. Затем Cisco передает его наименее загруженной машине первого уровня - frontend (1.1 - 1.3, на рис. машине 1.3). Машина Frontend, в свою очередь, отправляет запрос дальше, на один из восьми proxy-серверов, также выбирая наиболее свободный сервер (2.1 - 2.8, на рис. машине 2.2). Одновременно frontend отправляет запрос на машины, осуществляющие поиск по товарам (3.1 - 3.2, на рис. машине 3.1) и по базе Тор 100 (4.1 - 4.2, на рис. машине 4.1). На proxy проводится поиск по ссылочному индексу, и его результаты вместе с поисковым запросом передаются на индексные машины - backends (5.1.х - 5.7.х, на рис. машинам 5.1.2, 5.2.11, 5.3.1 и т.д.). Та же информация отправляется на машины с "быстрой базой" (6.1 - 6.2).

На текущий момент в поиск включено 77 backend'ов. Они сгруппированы по 11 машин, и каждая группа содержит копию одной из частей поискового индекса. Таким образом, информация о сайтах, условно входящих в красный сектор Интернета, находится на backend'ах первой группы (5.1.1 - 5.1.11 на рис), оранжевый сектор - на backend'ах второй группы (5.2.1 - 5.2.11) и т.д. Proxy-сервер выбирает наименее загруженный backend в каждой группе машин и отправляет на него поисковый запрос с результатами ссылочного поиска. На backend'ах осуществляется поиск по частям индексной базы и ранжирование с учетом результатов поиска по ссылочному индексу. При ранжировании для всех найденных документов высчитывается вес по конкретному запросу.

После того, как запрос обработан на backend'ах, информация о результатах и ранжировании отдается обратно на proxy-сервер. Туда же поступают отсортированные результаты с машин "быстрой базы". Proxy интегрирует данные, полученные с восьми машин: склеивает дубли, объединяет зеркала сайтов, переранжирует документы в общий список по весу, рассчитанному на backend'ах. Итак, первым в списке найденного может быть документ с машины 5.3.1, вторым и третьим - с 6.1, четвертым - с 5.5.2 и т.д. На proxy-сервере также реализуется построение цитат к документам и подсветка слов запроса в тексте. Полученные результаты отдаются на frontend.