Файл: Анализ поисковых систем в сети Интернет (Работа поисковой машины).pdf

ВУЗ: Не указан

Категория: Курсовая работа

Дисциплина: Не указана

Добавлен: 27.05.2023

Просмотров: 111

Скачиваний: 3

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

1. Паук (spider) - браузероподобная программа, которая скачивает веб-страницы;

2. «путешествующий» паук (crawler) - который автоматически идет по всем ссылкам, найденным на странице.

3. Индексатор (indexer) - «слепая» программа, которая анализирует веб-страницы, скаченные пауками.

4. База данных (the database) - хранилище скаченных и обработанных страниц.

5. Система выдачи результатов (search engine results engine) - которая извлекает результаты поиска из базы данных.

Паук работает точно как браузер, при соединении с веб-сайтом и загрузке страницы. Он не имеет никаких визуальных компонент.

Паук сообщает о содержании найденного документа, индексирует его и извлекают итоговую информацию. Также он просматривает заголовки, некоторые ссылки и посылает проиндексированную информацию базе данных поискового механизма.

Паук не копирует страницы сайта в индекс поисковой машины, а сохраняет информацию о структуре каждой страницы сайта - например, какие слова встречаются в документе и в каком порядке, адреса гиперссылок страницы сайта, размер документа в килобайтах, дата его создания и многое другое. Поэтому индекс поисковой машины в несколько раз меньше, чем объем проиндексированной информации.

Основная задача Crawler определять, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Они просматривают заголовки и возвращают только первую ссылку.[5]

Индексатор разбирает страницу на различные ее части и анализирует их. Элементы типа заголовков страниц, заголовков, ссылок, текста, структурных элементов, элементов и других стилевых частей страницы вычленяются и анализируются.

Индексаторы могут быть запрограммированы так, чтобы переходить по различным ссылкам различной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе. Из-за их природы они могут застревать в циклах, поэтому, проходя по ссылкам, им нужны значительные ресурсы сети. Однако, имеются методы, предназначенные для того, чтобы запретить им поиск по сайтам, владельцы которых не желают, чтобы они были проиндексированы.

База данных – это хранилище всех данных, которые поисковая система скачивает и анализирует, что, как правило, требует огромных ресурсов.

Система выдачи результатов является в принципе самым важным элементом с точки зрения пользователя, поскольку именно она решает, какие страницы удовлетворяют его запросу. Это та часть поисковой системы, с который пользователь непосредственно имеет дело, осуществляя поиск. Она выводит ранжированный определенным образом список документов с HTML и возвращает его человеку, сделавшему запрос.


Различные поисковые механизмы также выбирают различные способы показа полученного списка - некоторые показывают только ссылки; другие выводят cсылки c первыми несколькими предложениями, содержащимися в документе или заголовок документа вместе с ссылкой.

Каждый поисковый механизм имеет собственный набор правил, определяющих, как собирать документы.

Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее.

Некоторые игнорируют ссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации; другие игнорируют ссылки к ресурсам типа баз данных; другие проинструктированы, что нужно просматривать прежде всего наиболее популярные страницы.

Приемы работы, используемые при работе с теми или другими поисковыми инструментами, практически одинаковы.

Схема поиска информации в сети Интернет проста. Пользователь набирает ключевую фразу и активизирует поиск, тем самым получает подборку документов по сформулированному (заданному) запросу. Этот список документов ранжируется по определенным критериям так, чтобы вверху списка оказались те документы, которые наиболее соответствуют запросу пользователя. Каждый из поисковых инструментов использует различные критерии ранжирования документов, как при анализе результатов поиска, так и при формировании индекса (наполнении индексной базы данных web-страниц).[6]

Не смотря на то, что поисковые системы меняются, большинство до сих пор отбирают результаты поиска на основании примерно следующих критериев:

- заголовок - Присутствует ли ключевое слово в заголовке?

- домен/адрес - Присутствует ли ключевое слово в имени домена или в адресе страницы?

- стиль - Жирный (STRONG или B), Курсив (EM или I), Заголовки HEAD: если место на странице, где ключевое слово использовано в жирных, курсивных или Hx (H1, H2,…) текстовых заголовках?

- плотность - Как часто ключевое слово употреблено на странице?

- мета данные - некоторые поисковые системы читают мета ключевые слова и мета описания;

- ссылки наружу - На кого есть ссылки на странице и встречается ли ключевое слово в тесте ссылки?

- внешние ссылки - Кто еще в сети имеет ссылку на данный сайт? Каков текст ссылки?

- ссылки внутри страницы - На какие еще страницы данного сайта содержит ссылки эта страница? [7]

Существуют основные методы поиска информации в Internet, используемые по отдельности или в комбинации друг с другом.


Использование поисковых машин является одним из основных и фактически единственным при проведении предварительного поиска. Применение поисковых машин основано на использовании ключевых слов, передающихся поисковым серверам в качестве аргументов поиска.

В качестве методов рассматривается и непосредственный поиск с использование гипертекстовых ссылок. Так как все сайты в пространстве Internet фактически связаны между собой, то поиск информации может быть произведен путем последовательного просмотра связанных страниц с помощью браузера.

Этот метод поиска представляется в принципе ручным, но при этом оказывается единственно возможным на заключительных этапах информационного поиска, когда механическое исследование уступает место более глубокому анализу.

При этом, использование каталогов, классифицированных и тематических списков и всевозможных справочников также относится к этому виду поиска.[8]

Поиск с применением специальных средств представляет собой полностью автоматизированный метод, весьма эффективный для проведения первичного поиска, сущность которого заключается в применении специализированных программ – пауков, которые в автоматическом режиме просматривают Web-страницы, отыскивая на них искомую информацию.

Таким образом, можно говорить об автоматизированном варианте просмотра с помощью гипертекстовых ссылок. При этом данный метод является особо эффективным тогда, когда использование поисковых машин не дает необходимых результатов в силу нестандартности запроса, либо других причин.

Еще один метод – анализ новых ресурсов, поиск по которым может оказаться необходимым при проведении повторных циклов поиска, поиска наиболее свежей информации либо для анализа тенденций развития объекта исследования в динамике.

Целесообразно использования такого метода при поиске в узкоспециальной предметной области, поскольку большинство поисковых машин обновляет свои индексы со значительной задержкой, вызванной гигантскими объемами обрабатываемых данных, и это упущение обычно тем больше, чем менее популярна интересующая тема.

Поиск информации в Internet рассматривается как процесс решения поисковой задачи, стоящей перед пользователем, а не просто как нахождение релевантной запросу информации. [9]

Методика поиска информации включает несколько этапов:

  1. Формулировка и уточнение информационного запроса. От того, насколько верно сформулирован запрос, будет зависеть последующий выбор информационных ресурсов.

На данном этапе целесообразно осуществить:

- формулирование запроса на естественном языке;

- определение типа информационной потребности;

- определение цели поиска информации;

- определение необходимых ограничений поиска;

- окончательную формулировку информационного запроса.

Традиционно различают два типа информационных потребностей:

а) когда наилучшей метаинформацией (информацией об информации) признается та, которая наиболее полно и точно описывает конкретную информационную потребность данного потребителя и позволяет получить точный ответ – фактографический поиск;

б) когда границы определены нечетко, а также с течением времени могут изменяться – документальный поиск

Однако, как правило, чтобы найти некоторые факты в интернете, необходимо сначала провести поиск документов (Web-страниц), содержащих эти факты. В этом случае можно говорить о документально-фактографическом поиске. [10]

  1. Определение цели поиска информации, позволяющее выявить степень требуемой полноты информации:

- предварительное знакомство с проблемой;

- тщательное изучение проблемы.

Как правило, пользователю требуется некоторое количество информации, но абсолютная полнота сведений ему не нужна.

На данном этапе необходимо определить:

- информация из каких источников интересует пользователя (статьи, монографии, материалы конференций, другое);

- на каком языке;

- каковы географические рамки поиска;

- каковы хронологические рамки поиска.

3. Определение путей и способов рационального решения поисковой задачи – разработка общей программы поиска с параллельным выбором и оценкой качества поисковых систем.

Отбор и оценку качества поисковых систем необходимо проводить с точки зрения их соответствия реальной информационной потребности и специфике запроса. Каждый пользователь имеет специфические требования, оказывающие влияние на выбор поисковой системы, ее содержания и возможностей.

При выборе поисковой системы необходимо обращать внимание на следующие параметры: объем индекса поисковой системы, контроль качества содержащейся в ней информации, возможности языков запросов.

Разработка общей программы поиска заключается в определении объектов, методов и возможных направлений поиска на основе выявленных ограничений поиска (тематических, хронологических, языковых, географических), а также степени полноты поиска.

Сначала идет поиск информационных ресурсов (то есть совокупностей документов), а затем информационный поиск конкретизируется, ограничивается непосредственным поиском самих документов. [11]


  1. Создание инструментов, необходимых для решения поисковой задачи:

- отбор совокупности информационных ресурсов по теме поиска;

- проведение поиска в информационных ресурсах;

- оценка полноты информации;

- расширение круга информационных ресурсов.

Список информационных ресурсов намечается таким образом, чтобы ресурсы, дополняя друг друга, максимально охватывали информацию по данной теме в соответствии с заранее намеченными ограничениями поиска. Так если их круг слишком узок, результаты поиска могут оказаться неудовлетворительными, а если слишком широк – возрастает трудоемкость поиска. (Приложение 2)

При проведении поиска рекомендуется использовать следующие методы:

- метод догадки - заключается в том, что после можно попытаться написать название искомой организации или ее аббревиатуру;

- метод поиска от общего к частному обычно - используется при проведении поиска в классификационных поисковых системах.

П༌оскольку поиск в них проводится༌ только по предметным категория༌м и описания༌м ресурс༌ов, то целес༌ообразно изнач༌ально макс༌имально рас༌ширить запрос༌;

- метод поис༌ка от ч༌ас༌тного к общему обыч༌но ис༌пользуетс༌я༌ при проведении поис༌ка в с༌ловарных поис༌ковых с༌ис༌темах.

В༌ результате формируетс༌я༌ с༌пис༌ок информ༌ационных рес༌урс༌ов.

Т༌радиционно различ༌ают две базовые с༌тратегии поис༌ка:

- отрас༌левой поис༌к - ос༌ущес༌твля༌етс༌я༌ от общего к ч༌ас༌тном༌у путем༌ прос༌м༌отра и༌ерархи༌ч༌ес༌ки༌х клас༌с༌и༌фи༌каторов;

- предм༌етный пои༌с༌к – ос༌ущес༌твля༌етс༌я༌ от ч༌ас༌тного к общем༌у путем༌ выборки༌ данных по знач༌ени༌я༌м༌ дес༌кри༌пторов, ключ༌евых с༌лов.

В༌ыбор той и༌ли༌ и༌ной пои༌с༌ковой с༌тратеги༌и༌ зави༌с༌и༌т от конкрет༌ной задач༌и༌ пои༌с༌ка.

Н༌апри༌м༌ер, при༌ проч༌и༌х равных ус༌лови༌я༌х пои༌с༌к по ключ༌евым༌ с༌ловам༌ т༌ем༌ предпоч༌т༌и༌т༌ельнее пои༌с༌ку по клас༌с༌и༌фи༌кат༌ору, ч༌ем༌ более конкрет༌ный характ༌ер и༌м༌еет༌ запрос༌.

П༌ос༌кольку далеко не вс༌егда поль༌зоват༌елю нужна вс༌я༌ и༌нформ༌аци༌я༌ по зая༌вленной т༌ем༌е, а дос༌т༌ат༌оч༌но ли༌шь༌ нес༌коль༌ки༌х авт༌ори༌т༌ет༌ных и༌с༌т༌оч༌ни༌ков, необ༌ходи༌м༌о провес༌т༌и༌ проверку с༌пи༌с༌ка д༌окум༌ент༌ов на д༌уб༌лет༌нос༌т༌ь༌. [12]

В༌ нас༌т༌оя༌щее врем༌я༌ нет༌ проб༌л༌ем༌ с༌ пои༌с༌ком༌ нуж༌ной и༌нформ༌аци༌и༌, зат༌о вс༌т༌ает༌ проб༌л༌ем༌а оценки༌ д༌ос༌т༌овернос༌т༌и༌ пол༌уч༌енной и༌нформ༌аци༌и༌. Т༌ак д༌о༌с༌т༌о༌верно༌й с༌ч༌и༌т༌ает༌с༌я༌ и༌нфо༌рм༌аци༌я༌, ко༌т༌о༌рая༌ не взывает༌ с༌о༌м༌нени༌й, по༌д༌л༌и༌нная༌, реал༌ь༌ная༌.