Файл: Анализ поисковых систем в сети Интернет (История развития поисковых систем).pdf

ВУЗ: Не указан

Категория: Курсовая работа

Дисциплина: Не указана

Добавлен: 26.05.2023

Просмотров: 101

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Введение

В настоящее время достаточно сложно переоценить важность интернета в нашей жизни. Сейчас любой человек имеющий доступ в интернет может найти практически любую информацию, ответы на большинство своих вопросов, найти книги или посмотреть фильмы на специальных сайтах - онлайн кинотеатрах. В сети каждый день появляются множество новых документов, и, конечно же, в большинстве случаев они оставались бы не востребованными, никем не найдены, и все это огромное количество информации оказалось бы никому не доступным и не нужным. Поэтому появилась необходимость создавать такие средства, которые позволили бы просто и понятно ориентироваться в информационных ресурсах всемирных сетей, мгновенно и качественно находить нужную информацию.

Для меня главными обстоятельствами в выборе темы «Анализ поисковых систем в сети Интернет», для курсовой работы, стали актуальность темы на сегодняшний день, а также достаточная открытость и известность мне этой темы, так как я часто пользуюсь всемирными сетями.

Для современного человека интернет превратился в незаменимый инструмент для повседневной работы в любых отраслях и направлениях. Количество данных в сети стремительно растет ежедневно, и пропорционально им растет их объем. Ученые утверждают, что объем информации, передаваемой по Интернету, увеличивается в два раза почти каждые полгода.

На заре развития интернета, когда еще не существовало поисковых систем говорили, что в интернете ничего невозможно найти, но там есть всё. Но когда появились и стали быстро развиваться поисковые каталоги, поисковые машины, и всевозможные поисковые программы ситуация в корне поменялась, и сейчас в интернете информацию которая вам нужна, можно найти в считанные секунды.

Самым популярным и самым используемым способом поиска в сети Интернет является использование поисковых систем. Поисковая система – это некий портал, осуществляющий поиск, сбор и сортировку информации в сети Интернет. Поисковые системы — это инструмент, который помогает пользователю очень быстро находить интересующую его информацию в интернете.

1. Поисковые системы

1.1. Что такое поисковая система?

По своей сути, для обычного пользователя, поисковая система – это специализированный сайт, на котором он может ввести в определенном поле свой запрос и получить ответ в виде списка ссылок на страницы сайтов, которые релевантные его запросу. Но это так выглядит процесс работы поисковой системы для обычного пользователя, которому недоступны алгоритмы работы поисковой системы. Для того, чтобы понять, как происходит процесс работы поисковой системы изнутри и разобраться во внутреннем устройстве самой поисковой системы нужно обратиться к их истории.


1.2. История развития поисковых систем.

В первые годы развития Интернета, численность его пользователей была незначительной, а количество информации, которая была доступной пользователю, очень мало. В то время выход в интернет имели зачастую только сотрудники научно-исследовательской сферы. Но и необходимости поиска информации в Интернете как таковой не было, по причине малого количества информации. Использование поиска информации в то время было не столь актуальным, как в настоящее время.

Создание открытых каталогов сайтов стало первым способом организации доступа к информационным ресурсам сети. В каталогах ссылки группировались по тематикам ресурсов. Самым первым открытым каталогом был сайт Yahoo.com, его создали весной 1994 года. После того, как количество сайтов в каталоге Yahoo достигло достаточно большого количества нужную информацию стало возможным искать по каталогу. Конечно же это еще даже отдаленно не напоминало поисковую систему в нашем современном понимании, так как область поиска была ограничена только теми ресурсами, которые присутствовали в каталоге, и не затрагивала всех остальных ресурсов интернета.

Первая полноценная поисковая система, ориентированная на широкий круг пользователей, была «WebCrawler», созданная в 1994 году. Главным отличием этой поисковой системы от предшественников заключается в предоставлении пользователю возможности осуществлять поиск на любой веб-странице, по любым ключевым словам. В настоящее время такая технология - это стандарт поиска любой поисковой системы.

В 1995 году появились поисковые системы Lycos и AltaVista. В 1996 году AltaVista стала доступна русскоязычным пользователям, запустив морфологическое расширение для русского языка. В этом же году запущены такие отечественные поисковые системы как – «Rambler.ru» и «Aport.ru». Появились первые отечественные поисковые системы, и Рунет (интернет на русском языке) вышел на новый уровень, позволяя всем русскоязычным пользователям осуществлять запросы на русском языке, и оперативно реагировать на любые изменения, которые происходят внутри Сети.

После того как в 1997 году запустили поисковую систему «Яндекс», очень сильно между собой начали конкурировать отечественные поисковые машины, они улучшают систему выдачи результатов, поиска и индексации сайтов, а стали предлагать новые сервисы и услуги.


Сергей Брин и Ларри Пейдж в 1997 году, в рамках исследовательского проекта в Стэндфордском университете, создали поисковую машину Google. В настоящее время Google - самая популярная поисковая система в мире, именно она дала возможность пользователю осуществлять с учетом морфологии качественный и быстрый поиск, ошибок при написании слов, и в результатах выдачи запросов очень сильно повысила релевантность. На данный момент компания Google обрабатывает более 40 миллиардов запросов в месяц, это соответствует около 62,4% из всех поисковых запросов в мире.

1.3 Задачи поисковых систем

Для всех поисковых систем в настоящее время существует ряд основных задач:

- поиск новых сайтов;

- оценка сайта;

- ранжирование сайтов в базе данных

- ответ пользователю, максимально соответствующий запросу.

Главная задача любой поисковой системы, предоставить пользователь ту информацию, которую он ищет. Но пользователи не знают алгоритмы работы поисковых систем и запросы к поисковым системам как правило не соответствуют принципу их работы. Именно поэтому разработчикам нужно создавать такие принципы работы и алгоритмы поисковых систем, которые бы позволяли пользователям находить искомую ими информацию и постоянно их оптимизировать. Проще говоря современная поисковая система должна думать точно также как думает пользователь, когда вводит свой поисковый запрос. Обращаясь к поисковой системе, пользователь надеется максимально просто и быстро найти информацию по своему запросу. Именно поэтому разработчики поисковых систем постоянно совершенствуют алгоритмы и принципы поиска, стараясь максимально ускорить работу системы, добавляя новые функции и возможности.

1.4 Состав и принципы работы поисковой системы

Поисковая машина – это аппаратно-программный комплекс, который осуществляет быстрый поиск внутри сервера или Интернет-ресурса необходимой информации. У всех поисковых систем основа поисковой машины примерна одинаковая. В основном, это программное обеспечение, отвечающее за ранжирование результатов по релевантности поискового запроса и составление каталога запроса, поисковый бот, который необходим для поиска сайта и индексации. Но некоторые крупные поисковые системы держат содержание своей поисковой машины в секрете. Основным отличием является учет и релевантность морфологии языка запроса, база проиндексированных сайтов. Все это в совокупности и определяет критерий качества работы поисковых машин.


Поисковые машины классифицируются по области поиска информации:

1. Локальный поиск. Он предназначен, чтобы осуществлять поиск информации по всемирной сети какой-либо ее части, например, по локальной сети, либо по одному или нескольким сайтам. Таким примером являются внутренние серверы крупных компаний или поисковый скрипт на сайте.

2. Глобальный поиск. Он предназначен для того, чтобы искать информацию по региональной части, по группе сайтов, либо в сети Интернет и т.д. Именно глобальным поиском пользуются такие крупные поисковые системы как Яндекс, Google, Yahoo и т.д.

Поисковые машины по сети интернет осуществляют различный поиск информации. Например, музыка, картинки, личная информация, географическое положение и т.д. Поисковая машина может работать с файлами различных форматов (например, .html,.htm,.txt,.doc,.rtf, …), мультимедийного (видео, звука и другой информации) или графического (.gif, .png, .svg) типа. Но самым распространенным поиском является поиск текстовых документов (документы в формате doc, rtf, txt, web-страницы и др.). Но с технологической точки зрения поиск по звукам, видео, изображениям является более сложным, поэтому он не реализован массово. Например, такие системы как Яндекс.Картинки ищут картинки по альтернативным текстам, соответствующим этим изображениям, а не по самим изображениям. А в компании Google каталог поиска картинок составляется вручную, это тормозит обновление баз изображений, но значительно увеличивает релевантность запроса.

Модуль индексирования: Модуль индексирования состоит из трех вспомогательных программ (роботов):

Spider (паук) – программа, которая предназначена для скачивания веб-страниц. «Spider» полностью обеспечивает скачивание страницы, и все внутренние ссылки извлекает с этой страницы. С каждой страницы скачивается html-код. Роботы используют протоколы HTTP для скачивания страниц. «Spider» работает следующим образом. Робот передает на сервер запрос «get/path/document» и несколько других команд HTTP-запроса. В ответ роботу приходит текстовый поток, который содержит сам документ и служебную информацию.

Ссылки извлекаются из тэгов frame, base, area, frameset, и др. Многие роботы, наряду со ссылками, обрабатывают редиректы (перенаправления). Все страницы сохраняются в таких форматах как:

  • дата, когда страница была скачана
  • тело страницы (html-код)
  • URL страницы
  • http-заголовок ответа сервера

Crawler («путешествующий» паук) – эта программа, автоматически проходит по всем ссылкам, которые нашла на странице. Выделяет все ссылки, присутствующие на странице. Его задача – состоит в том, чтобы исходя из заранее заданного списка адресов или основываясь на ссылках, определить, куда дальше должен идти паук. Crawler, осуществляет поиск новых документов, еще неизвестных поисковой системе, следуя по найденным ссылкам.


Indexer (робот - индексатор) - это программа, анализирующая веб-страницы, которые скачали пауки. Индексатор, применяя собственные лексические и морфологические алгоритмы, разбирает страницу на составные части и анализирует их. Разные элементы страницы подвергаются анализу, например, заголовки, текст, специальные служебные html-теги, ссылки структурные и стилевые особенности, и т.д.

Благодаря этому, модуль индексирования дает возможность извлекать ссылки на новые страницы из получаемых документов и производить полный анализ этих документов, обходить по ссылкам заданное множество ресурсов, скачивать встречающиеся страницы.

База данных: Индекс поисковой системы или база данных - это информационный массив, в котором хранятся преобразованные параметры всех документов, скачанных и обработанных модулем индексирования.

Поисковый сервер: Поисковый сервер важнейший элемент всей системы, потому что скорость и качество поиска напрямую зависит от его алгоритмов, которые лежат в основе его функционирования.

Работает поисковый сервер следующим образом:

  • Запрос, который получен от пользователя подвергается морфологическому анализу. Генерируется информационное окружение каждого документа, содержащегося в базе (как раз оно и будет отображено в виде сниппета, т. е. текстовой информации соответствует запросу на странице выдачи результатов поиска).
  • Все полученные данные передаются специальному модулю ранжирования в качестве входных параметров. После чего по всем документам происходит обработка данных, далее подсчитывается собственный рейтинг для каждого документа, который характеризует релевантность разных составляющих данного документа, хранящихся в индексе поисковой системы запроса, введенного пользователем.
  • Этот рейтинг может быть составлен в зависимости от выбора пользователя дополнительными условиями (например, «расширенный поиск»).
  • Далее генерируется сниппет, т. е., из таблицы документов извлекаются краткая аннотация, наиболее соответствующая запросу, заголовок и ссылка на сам документ для каждого найденного документа, и еще подсвечиваются все найденные слова.
  • Пользователю результаты поиска, которые мы получили, передаются в виде SERP (Search Engine Result Page) – страницы выдачи поисковых результатов.

Все эти компоненты работают во взаимодействии и тесно связаны друг с другом, именно они образовывают тот самый довольно сложный механизм работы поисковой системы, который требует огромных затрат ресурсов.