Файл: «Анализ поисковых систем в сети Интернет» (История становления и развития поисковых систем).pdf
Добавлен: 28.03.2023
Просмотров: 112
Скачиваний: 6
ВВЕДЕНИЕ
На начальном этапе развития сети Интернет, количество его пользователей было относительно невелико, а объем доступной информации сравнительно небольшим. В большинстве своем, доступ к сети Интернет имели лишь сотрудники научно-исследовательской сферы. В это время задача поиска информации в Интернете не была столь актуальной, как в настоящее время – Интернет использовался лишь для передачи данных от пользователя к пользователю напрямую.
Все изменилось, когда появилась задача получить распределенный доступ к информационным ресурсам. Кроме того, количество информации, обрабатываемой и передаваемой через Интернет, росло в геометрической прогрессии. Именно тогда и возникла необходимость поиска нужной информации.
Сегодня сложно представить свою жизнь без поисковых систем. Количество информации, которая доступна в сети Интернет огромна. И чтобы найти необходимую – невозможно обойтись без одной из поисковых систем.
На сегодняшний день существует несколько крупных игроков среди так называемых «поисковиков». Каждый из них обладает своими положительными и отрицательными качествами. У каждого своя система ранжирования, поиска информации и так далее.
Из вышесказанного видно, что потребность максимально быстрого и эффективного поиска информации велика. Она актуальна, как для частных пользователей, так и для корпораций в рамках решения бизнес-вопросов. Для последних оптимизация особенно важна, так как возможность ускорения рабочих процессов сможет повысить производительность сотрудников в целом.
Именно поэтому выбранная мной тема курсовой работы столь актуальна сегодня.
Цель данной курсовой работы – провести анализ пяти самых популярных и узнаваемых поисковых систем сети Интернет в 2019 году, на основе которого создать сводную таблицу.
Для достижения этой цели необходимо решить ряд задач, а именно:
· изучить историю появления и развития поисковых систем,
· изучить теоретическую базу вопроса,
· определить пять наиболее крупных и популярных поисковых систем в 2019 году и изучить, как они устроены,
· выделить критерии оценки поисковых систем
· свести информацию по критериям оценки в единую таблицу.
Предметом курсовой работы являются пять выбранных поисковых систем.
Объектом курсовой работы становятся поисковые системы в целом.
Курсовая работа состоит из введения, двух глав – теоретической и практической (аналитической), заключения и списка используемой литературы. В первой главе мы рассмотрим историческую базу и теоретические аспекты поисковых систем, а во второй – сделаем выборку по самым крупным и популярным поисковым системам, проведем их анализ и сформируем сравнительную таблицу по выбранным критериям.
Глава 1
1.1. История становления и развития поисковых систем
Интернет – глобальная компьютерная сеть, которая охватывает весь мир. Сегодня Интернет имеет около 4 383 810 342 абонентов в более чем 150 странах мира. Увеличение размера сети с 2000 по 2019 составило 1114%. Интернет – является глобальной системой взаимосвязанных компьютерных сетей для связи устройств по всему миру. Если ранее сеть использовалась исключительно в качестве среды передачи файлов и сообщений электронной почты, то сегодня решаются более сложные задачи распределённого доступа к ресурсам. При низкой стоимости услуг пользователи могут получить доступ к коммерческим и некоммерческим информационным службам России, США, Канады, Австралии и многих европейских стран. В архивах свободного доступа сети Интернет можно найти информацию практически по всем сферам человеческой деятельности, начиная с новых научных открытий до прогноза погоды на завтра.
Кроме того, Интернет предоставляет уникальные возможности дешевой, надежной и конфиденциальной глобальной связи по всему миру. Это оказывается очень удобным для фирм, имеющих свои филиалы по всему миру, транснациональных корпораций и структур управления. Обычно, использование инфраструктуры Интернет для международной связи обходится значительно дешевле прямой компьютерной связи через спутниковый канал или через телефон.
Одним из первых способов организации доступа к информационным ресурсам сети стало создание открытых каталогов сайтов, ссылки на ресурсы в которых группировались согласно тематике. Первым таким проектом стал сайт Yahoo.com, открывшийся весной 1994 года. После того, как количество сайтов в каталоге Yahoo значительно увеличилось, была добавлена возможность поиска нужной информации по каталогу. В полном смысле это еще не было поисковой системой, так как поисковая область была ограничена только ресурсами, присутствующими в каталоге, а не всеми Интернет ресурсами.
Каталоги ссылок широко использовались ранее, однако практически полностью утратили свою популярность в настоящее время. Так как даже современные, огромные по своему объему каталоги, содержат информацию лишь о ничтожно малой части сети Интернет. Самый большой каталог сети DMOZ (его еще называют Open Directory Project) содержит информацию о 5 миллионах ресурсов, тогда как база поисковой системы Google состоит из более чем 8 миллиардов документов.
Первой полноценной поисковой системой стал проект «WebCrawler», вышедший в свет в 1994 году. Основным отличием поисковой системы от своих предшественников является предоставление возможности пользователям осуществлять поиск по любым ключевым словам на любой веб-странице. Сегодня эта технология является стандартом поиска любой поисковой системы. Поисковая система «WebCrawler» стала первой системой, о которой было известно широкому кругу пользователей.
В 1995 году появились поисковые системы Lycos и AltaVista. В 1996 году AltaVista внедрила морфологическое расширение для русского языка и стала первой поисковой системой, которая была доступна русскоязычным пользователям Интернета. В этом же году были запущены первые отечественные поисковые системы – «Rambler.ru» и «Aport.ru». Появление первых отечественных поисковых систем ознаменовало новый этап развития Рунета, позволяя русскоязычным пользователям осуществлять запрос на родном языке, а также оперативно реагировать на изменения, происходящие внутри Сети.
С запуском в 1997 году поисковой системы «Яндекс» отечественные поисковые машины начали конкурировать между собой, улучшая систему поиска и индексации сайтов, выдачи результатов, а также предлагая новые сервисы и услуги.
В 1997 году Сергей Брин и Ларри Пейдж создали поисковую машину Google в рамках исследовательского проекта в Стэндфордском университете. В настоящий момент Google – самая популярная поисковая система в мире, которая дала пользователям возможность осуществлять качественный поиск с учетом морфологии, ошибок при написании слов, а также повысить релевантность в результатах выдачи запросов. Сегодня компания Google обрабатывает более 40 миллиардов запросов в месяц, что соответствует 62,4 % всех поисковых запросов в мире.
1.2. Понятие поисковой системы, состав и принципы её работы
Поисковая система (поисковик) – сайт, где пользователь может найти интересующую его информацию по заданному ключевому запросу. Cайты и их страницы разбросаны в Internet без какого-либо порядка, без первой или последней страницы. «Читать» Интернет подряд — невозможно.
Сегодня существует множество поисковых систем, среди которых есть наиболее известные и популярные. В мировом масштабе на первом месте – Google, в русскоязычном пространстве Интернета, который еще называют Рунетом, наиболее посещаемый поисковик — Яндекс.
Далее обратим внимание на принцип работы поисковиков. Пользователь заходит на сайт поисковой системы, где ему необходимо ввести ключевую фразу, по которой он ищет необходимую информацию, в специальную форму, затем послать запрос путем нажатия кнопки поиск. После этого пользователь получает список текстовых ссылок на сайты, соответствующие этому запросу. Так выглядит принцип работы поисковика для пользователя.
Теперь необходимо изучить, как происходит процесс работы незаметный пользователю и внутреннее устройство поисковых систем.
Поисковая машина – это аппаратно-программный комплекс, который производит быстрый поиск информации по ключевой фразе внутри сервера или Интернет-ресурса. Основа поисковой машины у всех поисковых систем примерно одинаковая. Обычно, это поисковый бот, необходимый для индексации и поиска сайта, программное обеспечение, отвечающее за составление каталога запроса, и ранжирование результатов по релевантности поискового запроса. Конечно, крупные игроки среди поисковых систем всегда держат в тайне точное содержание своей поисковой машины. Ключевое отличие – это база проиндексированных сайтов, релевантность и учет морфологии языка запроса. Эти аспекты в своей совокупности определяют качество работы поисковых машин.
Классифицируется поисковая машина по области поиска информации:
1. Локальный поиск. Нужен, чтобы для реализации поиска информации по локальной сети, а также по одному сайту. Поисковый скрипт на сайте или внутренние серверы больших фирм – отличные примеры локального поиска.
2. Глобальный поиск. Нужен для поиска информации в группе сайтов, по сайтам региона или всей сети Интернет. Именно такой глобальный поиск и используют большие поисковые системы Google, Яндекс, Yahoo и аналогичные им.
Поисковые машины осуществляют свой поиск по сети Интернет в различных форматах – географическое положение, фотографии и картинки, музыка и аудиофайлы, личная информация и так далее. Это могут быть графические форматы (.gif, .png, .svg,) или мультимедийные (аудио и видео). Но именно поиск по текстовым документам является самым распространенным (web-страницы, документы в формате doc, rtf, txt и другие). Поиск по картинкам, фотографиям, видео- и аудиозаписям менее распространен, потому что это гораздо сложнее с точки зрения технологии. Системы типа Яндекс.Картинки осуществляли поиск не по непосредственно изображениям, а по альтернативным текстам, соответствующим этим изображениям. Каталог поиска картинок в Google составляется вручную. У такой технологии есть свои плюсы и минусы: релевантность запроса увеличивается, но обновление баз изображений замедляет.
Модуль индексирования поисковой машины включает в себя 3 вспомогательных программы (робота):
- Spider (паук) – программа нужная для скачивания web-страниц. «Паук» осуществляет скачивание страницы и вынимает все внутренние ссылки с этой страницы. С каждой страницы скачивается html-код. Роботы задействуют протоколы HTTP для скачивания страниц. Принцип работы «паука» такой: робот передает запрос “get/path/document” и некоторые другие команды HTTP-запроса на сервер. В ответ робот получает текстовый поток, содержащий непосредственно сам документ и информацию служебного характера. Ссылки извлекаются из тэгов a, area, base, frame, frameset, и других. Вместе со ссылками, многими роботами также обрабатываются перенаправления (редиректы). Все страницы, которые были скачаны, сохраняются в таком формате:
- URL страницы
- Дата скачивания страницы
- http-заголовок ответа сервера
- html-код – так называемое тело страницы
- Crawler («путешествующий» паук). Принцип его работы заключается в автоматических переходах по всем ссылкам страницы и их выделении. Задача Crawler – определить дальнейший путь паука, исходя из заранее заданного списка адресов или основываясь на ссылках. Далее он проходит по найденным ссылкам и выполняет поиск новых документов, пока еще незнакомых поисковой системе.
- Indexer (робот-индексатор) – анализирует веб-страницы, скаченные программами Spider и Crawler. Индексатор раскладывает страницу на составные части и проводит их анализ, применяя собственные морфологические и лексические алгоритмы. Робот-интексатор анализирует разные элементы страницы. Это и заголовки, и текст, и структурные ссылки. А еще стилевые особенности, специальные служебные html-теги и так далее.
В итоге этой работы, модуль индексирования дает возможность проходить по ссылкам заданное множество ресурсов, скачивать встречающиеся страницы, извлекать ссылки на новые страницы из получаемых документов и производить их глубокий анализ.
База данных или индекс поисковой системы – система хранения данных, информационный массив, в котором хранятся особым образом преобразованные параметры всех скачанных и обработанных модулем индексирования документов.
Поисковый сервер – важнейший элемент системы. Качество и скорость потока самым прямым образом зависят от алгоритмов, лежащих в основе его функционирования.
Поисковый сервер работает следующим образом:
- Полученный от пользователя запрос подвергается морфологическому анализу. Генерируется информационное окружение каждого документа, содержащегося в базе (которое и будет впоследствии отображено в виде сниппета, то есть соответствующей запросу текстовой информации на странице выдачи результатов поиска).
- Полученные данные передаются в качестве входных параметров специальному модулю ранжирования. Происходит обработка данных по всем документам, в результате чего, для каждого документа рассчитывается собственный рейтинг, характеризующий релевантность запроса, введенного пользователем, и различных составляющих этого документа, хранящихся в индексе поисковой системы.
- В зависимости от выбора пользователя этот рейтинг может быть скорректирован дополнительными условиями (например, так называемый «расширенный поиск»).
- Далее генерируется сниппет, то есть, для каждого найденного документа из таблицы документов извлекаются заголовок, краткая аннотация, наиболее соответствующая запросу и ссылка на сам документ, причем найденные слова подсвечиваются.
- Полученные результаты поиска передаются пользователю в виде SERP (Search Engine Result Page) – страницы выдачи поисковых результатов.