Файл: Анализ поисковых систем в сети Интернет (Понятие и функции поисковой системы) ..pdf
Добавлен: 17.06.2023
Просмотров: 39
Скачиваний: 2
Введение
Поисковые системы уже давно стали неотъемлемой частью российского Интернета. Поисковые системы представляют собой огромные и сложные механизмы, которые являются не только инструментом поиска информации, но и заманчивые сферы для бизнеса.
Большинство пользователей поисковых систем никогда не задумывались о принципе их работы, о схеме обработки запросов, выдачи результатов и о том, из чего эти системы состоят и как функционируют.
Актуальность работы состоит в том, что поисковые системы постоянно используются в современном мире. Если пользователь умеет правильно составлять запрос и понимает структуру работы поисковых систем, улучшается качество и скорость работы.
Цель работы: теоретический анализ работы поисковых систем
Задачи:
- раскрыть понятие поисковых систем;
- изучить характеристики и принципы работы поисковых систем.
Основой теоретических исследований были работы А.Б. Экслера, А.Б Егорова, В.С. Гусева.
1.1 Определение поисковых систем
Поисковая система - это программно-аппаратный комплекс, предназначенный для поиска информации в сети Интернет, отвечающий на запрос пользователя. Пользователь задает запрос в виде текстовой фразы (поискового запроса), затем осуществляется выдача списка ссылок на источники информации, в порядке релевантности (в соответствии запросу).
Наиболее крупные международные поисковые системы: «Google», «Yahoo», «MSN». В русском Интернете это – «Яндекс», «Рамблер», «Апорт».
Для поиска информации с помощью поисковой машины пользователь формулирует поисковый запрос. Работа поисковой машины заключается в том, чтобы по запросу пользователя найти информацию, содержащую либо указанные ключевые слова, либо слова, как-либо связанные с ключевыми фразами. При этом поисковая машина генерирует страницу результатов поиска. Такая поисковая подборка может содержать различные типы результатов, например: веб-страницы, изображения, аудиофайлы. Некоторые поисковые системы также извлекают информацию из подходящих баз данных и каталогов ресурсов в Интернете.
Для получения наиболее качественного результата по запросу, пользователь должен корректно сформулировать запрос, в соответствии с тем, что он хочет найти. Запрос должен быть максимально кратким и простым для понятия. Допустим, необходимо найти информацию в «Яндексе» о том, как выбрать автомобиль. Для этого, нужно открыть главную страницу «Яндекса», и ввести текст поискового запроса «как выбрать машину». После введения запроса пользователю предоставляется возможность выбрать из найденных результатов ссылки с интересующей его информацией.
Однако, если запрос составлен некорректно и найденная информация не подходит пользователю, то либо нужно перефразировать свой запрос, либо в базе поисковой системы действительно нет никакой актуальной информации по заданному запросу (такое может быть при задании очень «узких» запросов, как, например, «как выбрать машину в городе Кирсанов»).
Основная задача любой поисковой системы – предоставление информации, необходимой пользователям. Обучить всех пользователей составлять корректные запросы, соответствующие принципам работы поисковых систем, практически невозможно. В связи с этим, разработчики создают такие алгоритмы и принципы работы поисковых систем, которые бы позволяли находить пользователям информацию, в которой они нуждаются.
Это означает, что поисковая система должна «думать» так же, как думает пользователь при поиске информации. Когда пользователь обращается с запросом к поисковой машине, он хочет найти то, что ему нужно, максимально быстро и просто. Получая результат, он оценивает работу системы, руководствуясь несколькими основными параметрами: «Нашел ли он то, что искал? Если не нашел, то сколько раз ему пришлось перефразировать запрос, чтобы найти искомое? Насколько актуальную информацию он смог найти? Насколько быстро обрабатывала запрос поисковая машина? Насколько удобно были представлены результаты поиска? Был ли искомый результат первым или же сотым? Как много ненужного мусора было найдено наравне с полезной информацией? Найдется ли нужная информация, при обращении к поисковой системе, скажем, через неделю, или через месяц?».
Так же важно отметить что поисковая система тем лучше, чем больше документов, релевантных запросу пользователя, она будет возвращать. Результаты поиска могут становиться менее релевантными из-за особенностей или вследствие человеческого фактора.
Пример работы запроса представлен на рисунке 1.
Рисунок 1. Ранжирование результатов запроса по геологическому признаку.
По состоянию на 2015 год самой популярной поисковой системой в мире является Google, однако есть страны, где пользователи отдали предпочтение другим поисковикам. Так, например, в России «Яндекс» обгоняет Google больше, чем на 10 %.
Таблица 1.
Сведения популярности рынка международных поисковых систем
Поисковая система |
Процент рынка в июле 2014 |
Процент рынка в октябре 2014 |
Процент рынка в сентябре 2015 |
---|---|---|---|
|
68,69 % |
58.01 % |
69.24% |
Baidu |
17,17 % |
29.06 % |
6,48% |
Bing |
6.22 % |
8.01 % |
12,26% |
Yahoo! |
6.74 % |
4.01 % |
9,19% |
AOL |
0,13 % |
0.21 % |
1,11% |
Excite |
0.22 % |
0,00 % |
0.00% |
Ask |
0,13 % |
0,10 % |
0,24% |
Россия и русскоязычные поисковые системы
В России популярность поисковых систем среди пользователей выглядит иначе. Большая часть рынка принадлежит Яндексу – его доля составляет 56,2 %, а Google, в свою очередь, занимает всего 37,6 %.
Данные распределения популярности международных поисковых систем в России[1]:
- Google (37,6 %);
- Bing (0,3 %);
- Yahoo! (0,1 %) и принадлежащие этой компании поисковые машины: Inktomi, AltaVista, Alltheweb.
1.2 Введение в историю информационных систем
На раннем этапе развития сети Интернет Тим Бернерс-Ли поддерживал список веб-серверов, размещённый на сайте ЦЕРН. Со временем, список сайтов расширялся, и поддерживать вручную такой список становилось всё сложнее. На сайте NCSA был специальный раздел «Что нового!» (англ. What's New!), где публиковали ссылки на новые сайты.
Первой компьютерной программой для поиска в Интернете, была программа Арчи (англ. archie — архив без буквы «в»). Программа была создана в 1990 году студентами, изучающими информатику в университете Макгилла в Монреале - Аланом Эмтэджем (Alan Emtage), Биллом Хиланом (Bill Heelan) и Дж. Питером Дойчем (J. Peter Deutsch).
Программа скачивала списки всех файлов со всех доступных анонимных FTP-серверов и строила базу данных, в которой можно было выполнять поиск по именам файлов. Однако, программа Арчи не индексировала содержание этих файлов, так как объём данных был настолько мал, что всё можно было легко найти вручную.
Распространение и развитие сетевого протокола Gopher, придуманного в 1991 году Марком Маккэхилом (Mark McCahill) в университете Миннесоты, привело к появлению двух новых поисковых программ, Veronica и Jughead. Как и Арчи, они искали имена файлов и заголовки, сохранённые в индексных системах Gopher. Veronica (англ. Very Easy Rodent-Oriented Net-wide Index to Computerized Archives) позволяла выполнять поиск по ключевым фразам большинства заголовков меню Gopher во всех списках Gopher. Программа Jughead (англ. Jonzy's Universal Gopher Hierarchy Excavation And Display) извлекала информацию о меню от определённых Gopher-серверов.
Хотя, вручную поддерживались многочисленные специализированные каталоги, к лету 1993 года ещё не было ни одной машины для поиска в интернете. Оскар Нирштрасс (Oscar Nierstrasz) в Женевском университете написал ряд сценариев на Perl, которые периодически копировали эти страницы и переписывали их в стандартизированный формат. Это стало основой для W3Catalog, первой примитивной поисковой системы сети, запущенной 2 сентября 1993 года.
Считается, что первым поисковым роботом, написанным на языке Perl, был «World Wide Web Wanderer» — бот Мэтью Грэя (Matthew Gray) из Массачусетского технологического института в июне 1993 года. Этот робот создавал поисковый индекс «Wandex».
Цель робота Wanderer состояла в том, чтобы определить размер всемирной паутины и найти все веб-страницы, содержащие слова из запроса. В 1993 году появилась вторая поисковая система «Aliweb».
Aliweb ожидала уведомлений от администраторов веб-сайтов о наличии на их сайтах индексного файла в определённом формате, при этом не используя поисковых роботов.
В декабре 1993 года Дж. Флетчер создал JumpStation. Принцип работы исходил из поиска веб-страниц и построения их индексов с помощью поискового робота, и использования веб-форм в качестве интерфейса для формулирования поисковых запросов.
Это был первый инструмент поиска в Интернете, который сочетал три важнейших функции поисковой системы:
- проверка информации;
- индексация;
- поиск.
Из-за ограниченности ресурсов компьютеров того времени индексация и, соответственно, поиск были ограничены только названиями и заголовками веб-страниц, найденных поисковым роботом.
Первой полнотекстовой поисковой машиной, проводящей индесацию ресурсов при помощи робота («craweler-based»), стала система «WebCrawler», запущенная в 1994 году.
В отличие от своих предшественниц, она давала возможность пользователям искать информацию, по любым словам, расположенным на любой веб-странице — с тех пор это стало являться стандартом для большинства поисковых систем. А также, это был первый поисковик, получивший широкое распространение. В 1994 году была запущена система «Lycos», разработанная в Университете Карнеги-Меллон и ставшая достаточно серьёзным коммерческим предприятием.
Вскоре появилось множество других конкурирующих поисковых машин, таких как: «Magellan», «Excite», «Infoseek», «Inktomi», «Northern Light» и «AltaVista». В определенном смысле, они конкурировали с популярными интернет-каталогами, такими как «Yahoo!». Но, поисковые возможности каталогов могли ограничиваться поиском по самим каталогам, а не по текстам веб-страниц. Позже каталоги объединялись или снабжались поисковыми роботами с целью улучшения поиска.
В 1996 году компания Netscape хотела заключить уникальную сделку с одной из поисковых систем, установив её поисковой системой по умолчанию на веб-браузере Netscape. Это привлекло настолько большой интерес, что Netscape заключила контракт сразу с пятью крупнейшими поисковыми системами (Yahoo!, Magellan, Lycos, Infoseek и Excite). За пять миллионов долларов США в год они предлагались по очереди на поисковой странице Netscape.
Поисковые машины участвовали в «Пузыре доткомов» конца 1990-х. Несколько компаний эффектно вышли на рынок, получив рекордную прибыль во время их первичного публичного предложения. Некоторые отказались от рынка общедоступных поисковых движков и стали работать только с корпоративным сектором, например, Northern Light.
В 1998 году Google взял на вооружение идею продажи ключевых слов. Тогда это была маленькая компания, обеспечивающая работу поисковой системы по адресу goto.com. Этот шаг ознаменовал для поисковых систем переход от соревнований друг с другом к одному из самых выгодных коммерческих предприятий в сети Интернет. Поисковые системы стали продавать первые места в результатах поиска отдельным компаниям.
В настоящее время существуют три основные международные поисковые системы – Google, Yahoo и MSN, имеющие собственные базы данных и алгоритмы поиска. Большинство остальных поисковых систем используют, в том или ином виде, результаты трех вышеперечисленных систем. Например, поиск AOL (search.aol.com) использует базу Google, а AltaVista, Lycos и AllTheWeb – базу Yahoo.
Стоит отметить, что поисковая машина Google занимает первые позиции с начала 2000-х. Компания добилась высокого положения благодаря хорошим результатам поиска с помощью алгоритма PageRank. Алгоритм был представлен общественности в статье «The Anatomy of Search Engine», написанной Сергеем Брином и Ларри Пейджем, основателями Google. Этот итеративный алгоритм ранжирует веб-страницы, основываясь на оценке количества гиперссылок на веб-страницу в предположении, что на «хорошие» и «важные» страницы ссылаются больше, чем на другие.