Файл: Доклад по теме Методы и средства поиска информации в Интернете.doc
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 30.11.2023
Просмотров: 33
Скачиваний: 2
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
Федеральное государственное бюджетное образовательное учреждение высшего образования
«РОССИЙСКАЯ АКАДЕМИЯ НАРОДНОГО ХОЗЯЙСТВА
И ГОСУДАРСТВЕННОЙ СЛУЖБЫ
ПРИ ПРЕЗИДЕНТЕ РОССИЙСКОЙ ФЕДЕРАЦИИ»
СРЕДНЕРУССКИЙ ИНСТИТУТ УПРАВЛЕНИЯ - ФИЛИАЛ
ДОКЛАД
по теме: «Методы и средства поиска информации в Интернете»
Подготовила: Лёвкина Екатерина Юрьевна
Группа: 12НБЗСП
Преподаватель: Закалкин Д. А.
Орел, 2022 г.
Поиск информации в сети Интернет - это последовательность действий, от определения предмета поиска, до получения ответа на имеющиеся вопросы с использованием всех поисковых сервисов, которые предоставляет сегодня Интернет.
В целом поиск информации в сети - это достаточно специфическая и кропотливая работа, требующая определенных знаний и навыков. Для проведения поисковых работ пригодятся: знания основных информационных ресурсов и умение хорошо в них ориентироваться, практические навыки работы - это приходит со временем, хорошая зрительная память и умение быстро читать, а так же некоторые навыки аналитической работы.
Основные методы поиска в Интернет. Более или менее серьезный подход к любой задаче начинается с анализа возможных методов ее решения. Поиск информации в Интернете может быть произведен по нескольким методам, значительно различающимся как по эффективности и качеству поиска, так и по типу извлекаемой информации. В ряде случаев приходится использовать весьма трудоемкие методы - результат того стоит.
Можно выделить следующие основные методы поиска информации в Интернете, которые, в зависимости от целей и задач ищущего, используются по отдельности или в комбинации друг с другом:
-
Непосредственный поиск с использованием гипертекстовых ссылок. Поскольку все сайты в пространстве WWW фактически оказываются связанными между собой, поиск информации может быть произведен путем последовательного просмотра связанных страниц с помощью броузера.
Хотя этот полностью ручной метод поиска выглядит полным анахронизмом в Сети, содержащей несколько десятков миллионов узлов, "ручной" просмотр Web-страниц часто оказывается единственно возможным на заключительных этапах информационного поиска, когда механическое "копание" уступает место более глубокому анализу. Использование каталогов, классифицированных и тематических списков и всевозможных небольших справочников также относится к этому виду поиска.
-
Использование поисковых машин. Сегодня этот метод является одним из основных и фактически единственным при проведении предварительного поиска. Результатом последнего может являться список ресурсов Интернет, подлежащих детальному рассмотрению.
Как правило, применение поисковых машин основано на использовании ключевых слов, которые передаются поисковым серверам в качестве аргументов поиска: что искать. Если делать все правильно, то формирование списка ключевых слов требует предварительной работы по составлению тезауруса (словаря).
-
Поиск с применением специальных средств. Этот полностью автоматизированный метод может оказаться весьма эффективным для проведения первичного поиска.
Одна из технологий этого метода основана на применении специализированных программ-спайдеров, которые в автоматическом режиме просматривают Web-страницы, отыскивая на них искомую информацию. Фактически это автоматизированный вариант просмотра с помощью гипертекстовых ссылок, описанный выше (поисковые машины для построения своих индексных таблиц используют похожие методы). Нет нужды говорить, что результаты автоматического поиска обязательно требуют последующей обработки.
Применение данного метода целесообразно, если использование поисковых машин не может дать необходимых результатов (например, в силу нестандартности запроса, который не может быть адекватно задан существующими средствами поисковых машин). В ряде случаев этот метод может быть очень эффективен.
Выбор между использованием спайдера или поисковых серверов являет собой вариант классического выбора между применением универсальных или специализированных средств.
-
Анализ новых ресурсов. Поиск по новообразованным ресурсам может оказаться необходимым при проведении повторных циклов поиска, поиска наиболее свежей информации или для анализа тенденций развития объекта исследования в динамике.
Другой возможной причиной может явиться то, что большинство поисковых машин обновляет свои индексы со значительной задержкой, вызванной гигантскими объемами обрабатываемых данных, и эта задержка обычно тем больше, чем менее популярна интересующая вас тема. Это соображение может оказаться весьма существенным при проведении поиска в узкоспециальной предметной области.
Средства поиска в Интернет. Поисковых систем сегодня существует достаточно много, международных и отечественных.
AltaVista является одной из самых старых, если не старейшей, поисковой системой в Интернете - она была создана в 1995 году. В настоящее время AltaVista может осуществлять поиск на 25 языках, включая русский.
Известны также зарубежные системы InfoSeek, Lycos, WebCrawler и отечественные Апорт, Rambler, Яndex. В последнее время стала расти популярность поисковой системы Google.
Если перед пользователем стоит задача найти что-либо в русскоязычной части сети, то, скорее всего, наиболее успешный результат даст поиск с использованием русскоязычных поисковиков. Прежде всего, потому что русскоязычные поисковые сервера, в отличие от англоязычных, ведут поиск с учетом морфологии русского языка.
По данным системы статистики SpyLOG, наибольшей популярностью среди русскоязычной части пользователей Интернета пользуются системы Яndex, Rambler, Google и Апорт. Популярность поисковых машин рассчитывается по количеству переходов с них на русскоязычные сайты (рис.1).
Рис. 1 Поисковые машины: распределение переходов на русскоязычные Интернет-ресурсы.
Информационно-поисковая система Rambler (www.rambler.ru) успешно работает с 1996 г. и является одной из лучших информационно-поисковых систем в России и странах СНГ.
В состав Rambler входят:
-
Поисковая система (www.rambler.ru) по серверам России и странам СНГ. Содержит информацию о более чем 12 миллионах документов с более чем 48000 сайтов. Система имеет развитый язык запросов и гибкую форму вывода результатов. Rambler индексирует домены ru, su, ua, by, kz, kg, ge, uz и некоторые русскоязычные ресурсы из доменов com, net, org.. В апреле 2001 года (на момент запуска обновленной версии поисковой машины) в базе данных Rambler хранилась информация о почти 8 миллионах уникальных документов. Ежедневно в базу данных этого поисковика вносится до 60 тысяч изменений и дополнений, что обеспечивает постоянное пополнение базы сведениями обо всех новинках, появляющихся в русскоязычной части Сети. Ежедневно портал Rambler посещают около 300 тыс. человек.
Rambler учитывает координаты слов, обучена строгой и нечеткой морфологии, связывает поиск с каталогом, в качестве которого используется “Top100”, группирует результаты поиска по сайтам, ищет по числам. Достаточно удачная архитектура продукта позволяет Rambler иметь для поисковика количество серверов в 2 раза меньшее, чем у "Яндекса", и в 3 раза меньшее, чем у "Апорта".
"Паук" Rambler производит индексирование в новостях 5 раз в день; в сайтах, входящих в Top100, - 1 раз в день; все прочие посещаются не чаще, чем 1 раз в две недели. Rambler не индексирует личные странички, находящиеся на публичных зарубежных серверах (geocities, tripod и других), а страницы подобных отечественных сайтов (narod, boom) обходит медленней, чем другие ресурсы.
Очень удобной функцией Rambler является "восстановить текст". Благодаря этой функции пользователь может просмотреть проиндексированную страницу даже если эта страница удалена или сервер, на котором расположена страница недоступен.
Динамические, т.е. постоянно изменяемые страницы на сайтах, страницы Rambler пока не индексирует.
-
Система определения рейтинга (http://top100.rambler.ru/top100/in-dex.shtml.ru) сайтов/страниц по посещаемости, с учетом классификации сайтов. Множество сайтов разбито на более чем 55 категорий (администрации, образование, наука, работа,...). -
Система обрабатывает до 3.5 миллионов счетных хитов в день, содержит более 59 тыс. ресурсов. Система ведет восемь видов рейтингов. Кроме того, для текущего дня регистрируются 5 дополнительных параметров. Обновление рейтингов - каждые 30 минут. -
Информационный и развлекательный проект "Кулички на Рамблере" ( http://kulichki.rambler.ru). Проект содержит много интересной и развлекательной информации в различных областях (компьютеры, музыка, спорт, юмор, ...). Включает в себя более 20 тыс. страниц, имеет более 500 тыс. хитов в день; -
В мае 2001 года Rambler объявил об открытии нового проекта - Руметрика, посвященный исследованию развития русскоязычного сектора Интернета. Создатели проекта несколько раз в месяц публикуют данные об объеме Рунета, распределении сайтов по тематическим группам, динамике пользовательской активности, а также различные аналитические материалы, оценки социологов, аналитиков и экспертов в различных областях.
Яndex начал работу в сентябре 1997 года. Выполняет поиск по русскоязычной части Интернет (Рунет) с учетом русской морфологии. Поисковой машиной автоматически сканируются домены: su, ru, am, az, by, ge, kg, kz, md, ua, uz.
Яndex ежедневно просматривает сотни тысяч Web-страниц в поисках изменений или новых ссылок. В настоящее время Яndex содержит сведения о более чем 155 тысячах серверов. База данных машины содержит информацию о 23 млн. документах общим объемом 257 МГб. В поисковую машину Яndex вносятся только русскоязычные сайты. Для увеличения скорости поиска информации Яndex предоставляет возможность поиска по 17 категориям: культура/искусство; наука/образование; деловой мир; предприятия; СМИ; домашний очаг; интернет; государство; вокруг света; работа и заработок; торговля; компьютеры; отдых; спорт; справки; юмор; непознанное. Поисковая машина предоставляет разнообразные сервисы, которые позволяют пользователю делать персональные настройки (создавать свой сайт, свой почтовый ящик и т.д. и т.п.). Чтобы получить возможность работы с персональными настройками, необходимо зарегистрироваться. Яndex не требует от пользователя знания специальных команд для поиска. Достаточно набрать вопрос (например: "где продать зерно пшеница"). Независимо от того, в какой форме употребляется слово в запросе, поиск учитывает все его формы по правилам русского языка. После того, как задан запрос, Яndex выведет список ссылок на документы, наиболее точно ему соответствующие. Яndex обладает развитым языком запросов, позволяющим осуществлять "тонкий" поиск. Для того чтобы воспользоваться широким спектром возможностей, необходимо использовать страницу "расширенный поиск". Яndex предлагает пользователям новую услугу - почтовую подписку на поисковый запрос. Эта услуга позволяет узнать, когда в Сети появляется новая информация на интересующую вас тему? Еще одна услуга Яndex: поиск в категории. Поиск в категории - по сути, комбинация поисковой системы и каталога. В обычном каталоге поиск в разделе идет по описаниям ресурсов, составленными авторами. Яndex предлагает поиск по содержанию страниц, относящихся к тому или иному разделу. При поиске для каждого найденного документа Яndex вычисляет величину релевантности содержания этого документа поисковому запросу. Список найденных документов перед выдачей пользователю сортируется по этой величине в порядке убывания. Релевантность документа зависит от ряда факторов, в том числе от
частотных характеристик искомых слов, веса слова или выражения, близости искомых слов в тексте документа друг к другу и т.д.
Google работает с 1997 года и сейчас считается крупнейшей международной поисковой системой в Интернете. Существует и русская версия. По популярности, влиятельности и техническим возможностям ему нет равных. По заявлению Google в русской версии на данный момент (апрель 2005 года) их база данных насчитывает 3 083 324 652 проиндексированных страниц.
Поисковый “паук” Google ведет поиск не только в WWW-сети, но и в архивах групп новостей Usenet, существующим с 1981 года, то есть с тех пор, когда Web еще не было на свете. Сейчас эти архивы содержат 700 млн. сообщений, рассортированных по 35 тысячам категорий. Google также может найти по запросу изображения, файлы форматов Microsoft Office и PDF расположенных в сети Интернет.
Google использует базу данных и алгоритмы поиска международной поисковой сети Yahoo!, причем его основное отличие от других поисковых систем заключается в том, что Google более строго относится к соответствию выдаваемых ссылок на страницы со словами в форме запроса. Поисковая система имеет возможность вести поиск web-страниц на 26 различных языках.
Для облегчения процесса поиска в поисковой системе используется так называемый "интеллектуальный агент", конкретизирующий область поиска и присваивающий сайтам рейтинг по критерию "важность". Этот метод получил название PageRank. PageRank — уникальный метод, так как был создан специально для поисковый системы Google. Суть данной технологии такова: когда учтены все факторы обуславливающие релевантность и частоту цитируемости, Google использует PageRank, чтобы откорректировать результаты так, что более “важные” сайты поднимутся соответственно вверх на странице результатов поиска пользователя. То есть, порядок ранжирования в Google работает следующим образом:
-
Найти все страницы, соответствующие ключевым словам поиска. -
Отранжировать соответственно “страничным факторам”, таким, как ключевые слова. -
Учесть текст ссылок на страницы. -
Откорректировать результаты данными PageRank.
PageRank, используемая в Google, в основном основана на link popularity (“популярность ссылки”). Т.е. при вычислении релевантности страницы наибольший вклад имеет количество и качество ссылок на страницы с других страниц. Сейчас link popularity используется во всех основных поисковых системах мира (в той или иной степени). Кстати, в некоторых русскоязычных поисковых системах также используется этот параметр, например, в Яndex, этот параметр называется индекс цитирования.