Файл: Анализ поисковых систем в сети Интернет (Понятие поисковых систем в сети Интернет).pdf

ВУЗ: Не указан

Категория: Курсовая работа

Дисциплина: Не указана

Добавлен: 30.03.2023

Просмотров: 166

Скачиваний: 2

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

ВВЕДЕНИЕ

Современному этапу развития человечества в XXI веке свойственен переходный период от индустриального общества к информационному. Одним из самых важных явлений данного перехода является появление и развитие глобальной информационной компьютерной среды. В связи с расширением информационных потоков появился вопрос о быстром и точном поиске нужной информации в компьютерной сети интернет.

В наши дни объем информации бесконечно растёт, а поэтому нет определенного предела совершенствованию информационно-поисковых систем.

Основной задачей разработчиков данных поисковых сервисов является улучшение качества поиска, а также эффективности использования вычислительных способностей и удобства в использовании системы. Для достижения данной цели постоянно необходимо менять и дорабатывать поисковые алгоритмы, а также создавать дополнительные сервисы и дорабатывать дизайн для привлечения и удобства «клиентов».

Однако для того, чтобы быть «онлайн» в данном направлении, при разработке необходимо закладывать современные технологии и большой запас отказоустойчивости, постоянно «заглядывать» в завтрашний день и примерять будущую нагрузку на сегодняшний поиск. Такой подход позволяет совершать важные и нужные шаги для повышения эффективности поиска в глобальной сети Интернет.

Целью работы является анализ поисковых систем в сети Интернет.

Для решения поставленной цели были поставлены следующие задачи:

- изучить теоретические основы поисковых систем в сети Интернет;

- провести анализ современных поисковых систем в Интернет;

- рассмотреть организацию поиска в поисковой системе Яндекс.

Объектом работы являются поисковые системы в сети Интернет.

Предметом работы является организация работы современных поисковых систем в сети Интернет.

При подготовке работы были использованы такие информационные источники как специализированная профессиональная литература, материалы из СМИ, данные интернет-ресурсов. Применены такие методы и приемы исследования как анализ, синтез, сравнение.

Глава 1. Теоретические основы поисковых систем в сети Интернет


1.1. Понятие поисковых систем в сети Интернет

Поисковая система – это программно-аппаратный комплекс, который предназначен для осуществления поиска в сети Интернет. Он помогает пользователям быстро найти необходимые сведения, реагируя на запрос пользователя выдачей списка ссылок на источники информации. Достаточно набрать в строке поиска интересующий вопрос или фразу, нажать на кнопку «Поиск» или «Search», и через несколько секунд поисковая система выдаст необходимую информацию[1].

Поисковые системы классифицируют по способу работы и по области использования. Каждая поисковая система имеет собственный алгоритм поиска, который определенным образом анализирует релевантность сайтов, чтобы выдать результат, наиболее соответствующий запросу пользователя.

Рассмотрим типы поисковых систем по способу работы.

Индексные поисковые системы собирают информацию в Интернете автоматически, с помощью специальных программ-роботов, посещающих веб-страницы. Они осуществляют всесторонний поиск по ключевым словам. Примерами таких поисковых систем являются Google, AltaVista, HotBot, Яндекс.

Индексная поисковая система состоит из трех основных компонентов:

1. Агент (паук или кроулер). Агент – это специальная программа, которая запускается на сервере поисковой системы с целью посещения веб-страниц. Когда агент находит новую страницу, удовлетворяющую алгоритму поисковой системы, он индексирует ее, то есть добавляет в базу данных поисковой системы. Посещать страницы агенту помогает система гиперссылок, благодаря которой программа может бесконечно переходить с одной страницы на другую.

2. База данных поисковой системы. В ней хранятся все найденные и обработанные документы (индексы). Индекс позволяет быстро совершать поиск и обычно состоит из списка ключевых слов и информации о них (позиции в тексте, веса и др.). База регулярно обновляется, и именно из последнего ее обновления выдаются результаты для поставленного запроса. Частота обновления базы данных – критически важный параметр любой поисковой системы. Чем чаще происходит ее обновление, тем качественнее поисковая система.

3. Поисковый механизм. Поисковый механизм – интерфейс для взаимодействия пользователя и базы данных, то есть та самая программа, с которой мы непосредственно имеем дело[2].

Индексные поисковые системы работают по одному общему принципу. Сначала агент начинает сканирование сети с определенного адреса. На сервере создаются индексированные копии документов, своего рода вспомогательные файлы. Затем сохраненные документы просматриваются, определяются гиперссылки с этих страниц, по ним осуществляется переход на новые страницы. После сохранения копий найденных документов весь процесс повторяется. Все веб-страницы, проиндексированные поисковой системой, попадают в базу данных, что позволяет пользователю, формирующему запрос на поиск необходимой информации, мгновенно получить ссылки на нее.


Каталоговые системы поиска содержат тематически структурированный каталог серверов и чаще всего пополняются вручную модераторами. Эти системы устроены так же, как тематический каталог обычной библиотеки. Ссылки в них хранятся по теме категорий. Начав с основной страницы каталога, нужно выбрать ссылку, обозначающую главную категорию, а затем на последующих страницах указывать подкатегории до тех пор, пока не будут достигнуты ссылки на конкретные страницы. Каталог обычно имеет тематическую разбивку на подкаталоги, те в свою очередь могут подразделяться на более мелкие поддиректории и т. д. Ярким примером каталога является система Yahoo.

Индексные поисковые системы и поисковые каталоги отличаются так же, как содержание и алфавитный указатель в книге. Задача и содержания, и алфавитного указателя – помочь найти в книге нужный раздел. Содержание – это пример каталогизации. Алфавитный указатель – пример индексации. Читатель находит в указателе нужный термин и получает номер страницы, на которой он встречается.

Метапоисковые системы – это системы, которые используют для поиска базы данных других поисковых систем. Они посылают запрос одновременно на несколько поисковых систем, каталогов и иногда в так называемую невидимую (скрытую) паутину – хранилище онлайн-информации, не считанной традиционными поисковыми системами. Собрав результаты, метапоисковая система удаляет дублированные ссылки и в соответствии со своим алгоритмом объединяет результаты в общем списке. Примером такой системы может служить российское решение Nigma, использующее для поиска Google, Yahoo, Апорт и Яндекс.

Специализированные поисковые системы, в отличие от поисковых систем общего назначения, которые ищут любую интересующую информацию, ищут информацию определенного вида, например, изображения, книги, организации, людей, то есть работают в какой-то конкретной области. Примерами таких систем могут служить moresoft.ru для поиска программ и файлов, bukinist.agava.ru для поиска книг и других электронных текстов, kinopoisk.ru для поиска информации о фильмах, Яндекс.Маркет для поиска описаний и цен товаров, представленных в Интернет-магазинах, drivers.ru для поиска драйверов, wink.com для поиска людей.

По области поиска поисковые системы можно разделить на глобальные и локальные. 

Глобальные предназначены для поиска информации по всей сети Интернет либо по значительной ее части, а локальные – по какой-либо части Сети, например, по одному или нескольким сайтам, либо по локальной сети. Часто локальные поисковые системы собирают информацию в пределах одного национального домена, как, например, yandex.ru.


Также существуют локальные поисковые машины, которые можно установить себе на компьютер, например Copernic Desktop Search для Microsoft Windows, Spotlight для  Mac OS X, Tracker для Linux. Они значительно облегчают жизнь тех пользователей, которые хранят огромные архивы не рассортированных файлов.

Алгоритм создания эффективного запроса выглядит следующим образом:

- Формулировка задачи поиска. Для получения необходимой информации, в первую очередь, нужно понять, на какой именно вопрос пользователь ищет ответ.

- Ограничение области поиска. Выдача результатов может различаться в зависимости от региона, поэтому нужно добавить в запрос тот город, регион или страну, результаты по которым интересуют пользователя.

- Подбор ключевых слов, то есть слов и фраз, относящихся к теме поиска. Ключевые слова делят на высоко-, средне- и низкочастотные, это зависит от частоты запроса и определяется на основе статистики поисковой системы.

- Формулировка запроса. Важные слова необходимо поместить в начало запроса, для более эффективного поиска необходимо использовать язык запросов.

Использование поисковых систем может стать причиной проникновения на компьютер пользователя вредоносной программы. Выдавая результаты по запросам пользователей, поисковые системы могут выдавать адреса зараженных сайтов.

Также нужно иметь в виду, что поисковые системы выдают лишь ссылки на релевантные сайты, но не отвечают за достоверность информации, которая на этих сайтах содержится. Задача поисковых систем – максимально быстро и точно ответить на запрос, поэтому не стоит безоговорочно доверять всей информации, которая находится по выдаваемым ссылкам. Сайты, полученные при поиске, могут содержать некорректную или откровенно ложную информацию, которая может ввести в заблуждение пользователя, ведь далеко не все источники, скорее меньшая их часть, пишутся и проверяются действительно компетентными людьми. Например, информацию на таком популярном ресурсе как Википедия размещают все желающие, следствием чего является высокий процент ошибок в статьях. Рекомендуется крайне осторожно выбирать источники для школьных, студенческих и научных работ, да и вообще перепроверять любую информацию, особенно из совершенно незнакомой области.

Обозначим основные характеристики поиска:

- Полнота. Данная характеристика является одной из важнейших характеристик поиска, она представляет собой отношение величины найденных по запросу документов к общему их количеству в сети Интернет, относящихся к определенному запросу. К примеру, в Интернете есть 100 страниц, которые имеют словосочетание «как выбрать авто», а по такому же запросу было отобрано лишь 60 из общего числа, то в данном случае полнота поиска составляет 0,6. Понятно, что чем полнее сам поиск, тем больше вероятность, что пользователь найдёт именно тот документ, который ему нужен, конечно, если он вообще существует.


- Точность. Ещё одна важная функция поисковой системы – точность. Она определяет степень соответствия найденных страниц в Интернете запросу пользователя. Например, если по ключевой фразе «как выбрать автомобиль» найдется 100 документов, в половине из них содержится данное словосочетание, а в остальных просто есть в наличии такие слова (как грамотно выбрать автомагнитолу, и установить её в автомобиль»), то поисковая точность равна 50/100 = 0,5.

Чем поиск точнее, тем быстрее пользователь найдёт нужную ему информацию, тем меньше различных ненужных документов будет встречаться среди результатов, тем меньше найденных документов будут не соответствовать смыслу запроса.

- Актуальность. Это важная составляющая поиска, которую характеризует время, проходящее с момента публикации информации в сети Интернет до занесения её в индексную базу поисковой системы.

Например, на следующий день после появления информации о выходе нового iPad, много пользователей обратилась к поиску с соответствующими типами запросов. В большинстве случаев информация о данной новости уже доступна в поиске, хотя времени с момента её появления прошло еще мало. Это происходит благодаря наличию у крупных поисковых систем «быстрой базы», которая обновляется несколько раз в день.

Скорость поиска. Данная функция тесным образом связана с так называемой «устойчивостью к нагрузкам». Каждую секунду к поиску обращается большое число людей, подобная загруженность требует значительного уменьшения времени для обработки одного запроса. Тут интересы, как пользователя, так и поисковой системы полностью совпадают: пользователь хочет получить результат как можно скорее, а поисковая система должна отработать его запрос также максимально быстро, чтобы не тормозить обработку следующих запросов.

Наглядность. Наглядное представление результатов является важным элементом удобства поиска. По множеству запросов поисковая система находит тысячи, а в некоторых случаях и миллионы различных документов. Вследствие нечёткости составления ключевых фраз для поиска или его неточности, даже самые первые результаты запроса не всегда имеют только необходимые сведения.

Это значит, что человеку часто приходится осуществлять собственный поиск среди предоставленных результатов. Различные компоненты страниц выдачи поисковых систем помогают ориентироваться в результатах поиска[3].