Добавлен: 23.11.2023
Просмотров: 159
Скачиваний: 5
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
Лаб4 Зуев 2.201-2ВИ
Тема. Поиск информации в Интернет (2 часа)
Цель работы: изучение принципов организации поиска в сети Internet и приобретение практических навыков составления поисковых запросов.
Порядок выполнения работы:
-
Создайте копию этого файла и сохраните под именем: Лаб4 Фамилия студента № группы.
-
Вставьте в файл верхний колонтитул и добавьте в него информацию следующего содержания: «Лаб4 Фамилия студента № группы».
-
Ознакомьтесь с теоретическим материалом.
-
Выполните «задание», заполнив соответствующие таблицы и ответив на вопросы.
-
Отчет предоставить в Moodle в формате Word.
Теоретический материал
Системы поиска информации создаются с учетом особенностей информационных ресурсов и типов данных. Это позволяет разрабатывать адекватные алгоритмы поиска и повышать их эффективность.
Классификация сетевых информационных ресурсов зависит от выбранного признака классификации.
-
По способу представления информации:
-
Web-страницы (технология WWW);
-
Gopher (другой гипертекстовый стандарт,
практически не развивающимся сегодня, т.к. поддерживает только текстовую форму представления информации);
-
базы данных;
-
файловые серверы (FTP – серверы);
-
телеконференции (делятся на модерируемые (управляемые - размещение статей производится специальным человеком - модератором, осуществляющим цензуру, и не модерируемые, размещение статей в которых производится автоматически по запросу любого пользователя Сети).
2. По национально-территориальному признаку:
-
по языковому признаку:
- основной язык в сети Интернет - английский,
- все основные языки мира также представлены в Сети,
- некоторые сайты поддерживают несколько языков
-
по географическому признаку
- принадлежность какой-либо организации, осуществляющей свою деятельность на определенной территории,
- направленность на аудиторию в пределах другого региона
-
По виду и характеру информации (content):
-
тематическая информация - наиболее ценный тип информации, относящейся к конкретной предметной области: техническая, технологическая, маркетинговая и др.;
-
научные публикации - статьи, рефераты, обзоры и пр. публикации научного характера;
-
рекламная информация
содержат информацию о фирме - профиль компании (company profile), о предлагаемых ею товарах или услугах, о занимающих ключевые посты людях; через сайт может осуществляться часть работы по поддержке клиентов, FAQ и т.п.;
-
справочная информация - справочные материалы, ссылки на Web-сайты компаний, нормативную базу и т.д.;
-
новости - информация легко доступна, представляет собой вид "сырой", необработанной информации, которая ценна не столько сама по себе, сколько в контексте прочих событий или в динамике развития, и часто нуждается в последующей обработке;
-
вторичная информация - систематизированная и предварительно обработанную информацию, обладает значительной ценностью: специализированные тематические сайты, обзоры, подборки рефератов, каталоги и др.
4. По принципу организации и использования средства поиска:
-
каталоги - справочники, директории - содержат списки адресов Интернет, сгруппированные по определенным признакам, бъединяются по тематике: наука, искусство, новости и т.д. Особенность - создание структуры, базы данных и их обновление осуществляется "вручную", коллективом редакторов и программистов, и процесс поиска требует непосредственного участия пользователя, самостоятельно переходящего по ссылкам.
-
поисковые машины - постоянно исследуют узлы Интернет, доступные данной системе поиска, со всеми их связями. Осуществляют - постоянное обновление информации - машина поиска регулярно возвращается через определенный срок к уже изученным узлам, чтобы обнаружить и зарегистрировать изменения. Вся прочитанная информация индексируется, т.е. создается специализированная база данных, в которой закодированы все исследованные системой страницы Интернет. При поступлении запроса от пользователя машина поиска рассматривает всю индексированную информацию и выдает список документов, соответствующих задаче поиска. Найденные документы ранжируются в зависимости от местоположения ключевых слов (в заголовке, в начале текста, в первых параграфах) и частоты их появления в тексте. Несмотря на схожий принцип работы, машины поиска различаются по языкам запроса, зонам поиска, глубине поиска внутри документа, методам ранжирования и приоритетов, поэтому применение разных поисковых машин дает различные результаты.
Для повышения релевантности поиска информации в Интернет применяют различны приемы для формирования поисковых запросов.
Найденный по запросу документ, содержащий нужную (искомую) информацию, называется релевантным (анг. relevant - "относящийся к делу"), в другом случае нерелевантным (шумовым)
Примеры параметров и операторов языка поисковых запросов приведены в табл.4.
Таблица 4
Параметры и операторы языка поисковых запросов
Лаб4 Зуев 2.201-2ВИ
Создайте копию этого файла и сохраните под именем: Лаб4 Фамилия студента № группы.
Вставьте в файл верхний колонтитул и добавьте в него информацию следующего содержания: «Лаб4 Фамилия студента № группы».
Ознакомьтесь с теоретическим материалом.
Выполните «задание», заполнив соответствующие таблицы и ответив на вопросы.
Отчет предоставить в Moodle в формате Word.
По способу представления информации:
Web-страницы (технология WWW);
Gopher (другой гипертекстовый стандарт,
практически не развивающимся сегодня, т.к. поддерживает только текстовую форму представления информации);
базы данных;
файловые серверы (FTP – серверы);
телеконференции (делятся на модерируемые (управляемые - размещение статей производится специальным человеком - модератором, осуществляющим цензуру, и не модерируемые, размещение статей в которых производится автоматически по запросу любого пользователя Сети).
по языковому признаку:
по географическому признаку
По виду и характеру информации (content):
тематическая информация - наиболее ценный тип информации, относящейся к конкретной предметной области: техническая, технологическая, маркетинговая и др.;
научные публикации - статьи, рефераты, обзоры и пр. публикации научного характера;
рекламная информация
содержат информацию о фирме - профиль компании (company profile), о предлагаемых ею товарах или услугах, о занимающих ключевые посты людях; через сайт может осуществляться часть работы по поддержке клиентов, FAQ и т.п.;
справочная информация - справочные материалы, ссылки на Web-сайты компаний, нормативную базу и т.д.;
новости - информация легко доступна, представляет собой вид "сырой", необработанной информации, которая ценна не столько сама по себе, сколько в контексте прочих событий или в динамике развития, и часто нуждается в последующей обработке;
вторичная информация - систематизированная и предварительно обработанную информацию, обладает значительной ценностью: специализированные тематические сайты, обзоры, подборки рефератов, каталоги и др.
каталоги - справочники, директории - содержат списки адресов Интернет, сгруппированные по определенным признакам, бъединяются по тематике: наука, искусство, новости и т.д. Особенность - создание структуры, базы данных и их обновление осуществляется "вручную", коллективом редакторов и программистов, и процесс поиска требует непосредственного участия пользователя, самостоятельно переходящего по ссылкам.
поисковые машины - постоянно исследуют узлы Интернет, доступные данной системе поиска, со всеми их связями. Осуществляют - постоянное обновление информации - машина поиска регулярно возвращается через определенный срок к уже изученным узлам, чтобы обнаружить и зарегистрировать изменения. Вся прочитанная информация индексируется, т.е. создается специализированная база данных, в которой закодированы все исследованные системой страницы Интернет. При поступлении запроса от пользователя машина поиска рассматривает всю индексированную информацию и выдает список документов, соответствующих задаче поиска. Найденные документы ранжируются в зависимости от местоположения ключевых слов (в заголовке, в начале текста, в первых параграфах) и частоты их появления в тексте. Несмотря на схожий принцип работы, машины поиска различаются по языкам запроса, зонам поиска, глубине поиска внутри документа, методам ранжирования и приоритетов, поэтому применение разных поисковых машин дает различные результаты.
+ | Слово обязательно должно присутствовать на странице |
- | Слово обязательно должно отсутствовать на странице |
; | Поиск фразы, состоящей из слов, разделенных запятой |
"" | Контекстный поиск |
* | Может располагаться в любой части слова и заменять цепочку любых символов |
AND (&) | Оба фрагмента должны находиться на странице |
OR(|) | Хотя бы один фрагмент должен находится на странице |
NOT(!) | Указанный фрагмент не должен находится на странице |
NEAR() | Заданные фрагменты должны находится на расстоянии не более 10 слов |
() | Объединение слов в выражение |
Задание
-
С помощью поисковой системы Yandex (www.yandex.ru) проведите поиск информации по теме «Приложения Интернет в бизнесе и экономике».
Для повышения эффективности поиска заранее составьте тезаурус (набор ключевых слов) по теме и используйте его в поисковых запросах.
Ключевыми словами могут служить, например, слова «Интернет», «экономика», «бизнес», коммерция», «реклама», «маркетинг», «прибыль», «деньги» и многое другое.
При составлении поисковых запросов проработайте разные варианты поиска, например:
- ключевые слова в различных комбинациях;
- изменение регистра;
- контекстный поиск (например, «Как заработать деньги в Интернет?»);
- поиск фразы (для этого фразу надо заключить в “ “ );
- специальный язык запросов, т.е. знаки «+» и «-«, *, &? &&, |, ( ), AND, OR, NOT;
2. Составить 5-7 поисковых запросов, по каждому из которых провести поиск с помощью поисковой системы Yandex. Посмотреть несколько документов (сайтов) из предложенного Yandex списка сайтов, сделать вывод об их релевантности и о качестве поиска в целом. Понятие «релевантность» в данном контексте трактуется как субъективная оценка пользователем соответствия полученного от поисковой системы ответа на запрос и содержанием самого запроса. В качестве ответа поисковой системы в данном случае рассматривается список сайтов, где содержится искомая информация. Сделать оценку релевантности ответа поисковой системы можно просмотрев несколько сайтов из предложенного списка. Если содержимое сайтов совпадает с вашими ожиданиями, т.е. содержит нужную информацию, то считается, что релевантность ответа поисковой системы высокая.
Результат работы представьте в виде таблицы Word. (Внимание: запросы в нижеследующей таблице 1 приведены исключительно в качестве примера и не должны копироваться!).
Таблица 1
Примеры запросов и результаты поиска (www.yandex.ru)
Поисковый запрос | Кол-во найденных документов | Комментарий о релевантности (высокая, средняя, низкая) |
Интернет экономика бизнес | 108923 | низкая |
Интернет, доход, прибыль, деньги | 211098 | низкая |
Способен ли Интернет приносить прибыль? | 7982 | средняя |
+Интернет &&/1 коммерция | 210 | высокая |
(Интернет | Интернет & бизнес) && доход | 462 | высокая |
По аналогичным поисковым запросам проведите поиск информации с помощью поисковых систем Google (www.google.com), Rambler (www.rambler.ru). Результаты поиска представить в виде аналогичных таблиц. Сравнить результаты. Сделать выводы. Результаты сохранить в виде документа MS Word.
Примеры запросов и результаты поиска (www.google.com)
Интернет экономика бизнес | 33 100 000 | Высокая |
Интернет, доход, прибыль, деньги | 5 580 000 | Средняя |
Способен ли Интернет приносить прибыль? | 390 000 | Средняя |
+Интернет &&/1 коммерция | 8 | Низкая |
(Интернет | Интернет & бизнес) && доход | 30 200 | Средняя |
| | |
Примеры запросов и результаты поиска (www.rambler.ru)
Интернет экономика бизнес | 7000000 | Высокая |
Интернет, доход, прибыль, деньги | 8000000 | Высокая |
Способен ли Интернет приносить прибыль? | 10000000 | Низкая |
+Интернет &&/1 коммерция | 3000000 | Средняя |
(Интернет | Интернет & бизнес) && доход | 6000000 | Низкая |
Вывод: Лучший поисковик Гугл, потому что у него более чёткий поиск по запросу
С помощью любой поисковой системы проведите поиск информации по теме «Экономические приложения Интернет» по соответствующим рубрикам. Результат работы представьте в виде таблицы Word (не менее 7 строк) (см. Таблица 2). При выполнении данного пункта проявите свои творческие способности!
Таблица 2
Результаты поиска и уровень релевантности
Название найденного документа и его URL-адрес | Комментарий о релевантности (высокая, средняя, низкая) |
https://habr.com/ru/post/295760/ | Средняя |
https://scienceforum.ru/ | Средняя |
https://studme.org/ | Высокая |
https://pf.hse.ru/582200445.html | Средняя |
https://raec.ru/ | Средняя |
https://yvision.kz/ | Низкая |
Сравните результаты. Сделайте выводы.
Вывод: В гугле большая вариативность подбора ресурсов чем у других поисковиков
-
Сравнительный анализ работы поисковых систем, Yandex, Rambler, Google.
Оцените широту охвата поисковых систем. Придумайте несколько слов из различных областей и с различной частотой употребления (очень частотные, менее частотные, редкие). Для каждой поисковой системы задайте поисковый запрос из одного слова (чтобы исключить влияние языков запроса) и зафиксируйте статистику результатов поиска в таблице 3 (не менее 7 строк).
Таблица 3
Оценка широты охвата поисковых систем
Слово | Количество найденных документов | ||
Yandex | Rambler | | |
СВО | 58 000 000 | 60 000 000 | 63 000 000 |
Футбол | 32 000 000 | 26 000 000 | 68 400 000 |
Образование | 45 000 000 | 19 000 000 | 334 000 000 |
Интеграция | 10 000 00 | 6 000 000 | 19 200 000 |
Бакалавриат | 2 500 000 | 1 000 000 | 12 900 000 |
Паросмия | 12700 | 5000 | 86 800 |
Гиперболизация | 14000 | 4000 | 66400 |
Сравните результаты. Сделайте выводы.
Вывод:Гугл лучший поисковик
Оцените качество сервиса поисковых систем: гибкость языка запросов, возможности ранжирования найденных документов, поиск похожих документов и др.
Рекомендации по поиску.
-
Проверяйте орфографию. -
Используйте синонимы, например, фотографии|фото|фотоснимки|снимки. -
Составляйте запрос более, чем по одному слову. -
Используйте знаки "+" и "-". Между словами и знаками "+" "-" не должно быть пробела. Знак "-" (не тире и не дефис) надо писать через пробел от предыдущего и слитно с последующим словом. -
Используйте контекстный поиск для поиска цитат. -
Используйте операцию «Найти похожие документы», если запрос задан в абстрактной форме и описывает интересующую область; -
содержание документа конкретизирует запрос в интересующем аспекте; -
остальные найденные документы менее соответствуют запросу.
С помощью одной из поисковых систем поисковых систем: www.google.com, www.yandex.ru, www.rambler.ru, найдите официальную информацию о состоянии внешнего долга Российской федерации за 2010 - 2021 гг. Подготовьте справку по данной теме.
59 702,0 экв. млн. долл. США
Отобразите с помощью мастера диаграмм Excel динамику внешнего долга Российской федерации по годам 2010-2021 и скопируйте диаграмму в свой отчет.
Рекомендации по поиску.
-
Варианты запросов по ключевым словам:
внешний долг России;
внешний долг России динамика;
внешний долг России 2010-2021;
-
Контекстный поиск:
«Структура государственного внешнего долга по состоянию на 01 января 2022 года»
Найдите с помощью поисковых систем www.google.com и www.yandex.ru адреса сайтов электронных изданий «Экономика и жизнь», «Эксперт Сибирь», «Налоговый вестник», «Экономическая газета». Сравните полученные результаты по релевантности. Результаты представить в таблице. Таблицу разработать самостоятельно.
Ресурс | Гугл | Яндекс |
Экономика и жизнь | Высокая | Высокая |
Эксперт Сибирь | Средняя | Средняя |
Налоговый вестник | Высокая | Высокая |
Экономическая газета | Высокая | Высокая |
По итогам выполнения лабораторной работы сформулировать вывод о преимуществах той или иной поисковой системы (www.yandex.ru, www.rambler.ru, www.google.com), обосновать его, используя соответствующие показатели (релевантность и др.).
Вывод: По моему мнению, на 2023 год, среди поисковых систем лидирует Гугл, т.к. эта поисковая система, лучше фильтрует результаты поисков, в сравнение с Рамблером и Яндексом.