Добавлен: 26.10.2023
Просмотров: 57
Скачиваний: 1
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
Для эффективного использования поисковых серверов, прежде всего необходим список ключевых слов, организованный с учетом семантических отношений между ними, то есть тезаурус.
Одним из подходов к составлению тезауруса может стать использование законов Ципфа.
Число, показывающее сколько раз встречается слово в тексте, называется частотой вхождения слова. Если расположить частоты по мере убывания и пронумеровать, то порядковый номер частоты называется рангом частоты. Вероятность обнаружения слова в тексте равно отношению частоты вхождения слова к числу слов в тексте. Ципф определил, что если умножить вероятность обнаружения слова в тексте на ранг частоты, то получившаяся величина приблизительно постоянна для всех текстов на одном языке [3]:
где f - частота вхождения слов,
r - ранг частоты,
n - число слов
Это значит, что график зависимости ранга от частоты представляет из себя равностороннюю гиперболу.
Исследование вышеуказанных зависимостей для различных текстов показали, что наиболее значимые слова текста лежат в средней части диаграммы, так как слова с максимальной частотой, как правило, являются предлогами, частицами, местоимениями, в английском языке — артиклями (так называемые «стоп-слова»), а редко встречающиеся слова в большинстве случаев не имеют решающего значения. Таким образом, данная особенность может помочь правильно выбрать ключевые слова для проведения поиска информации.
Процедура оптимального выбора ключевых слов, основанная на применении законов Ципфа, заключается в следующем: берут любой текст-источник, близкий к искомой теме, то есть «образец», и анализируют его, выделяя значимые слова. В качестве текста-источника может служить книга, статья, web-страница, любой другой документ. Анализ текста производится в следующем порядке [3]:
1. «стоп-слова» удаляются из текста;
2. вычисляется частота вхождения каждого слова и составляется список, в котором слова расположены в порядке убывания их частоты;
3. выбирается диапазон частот, лежащий в середине списка, и из него отбираются слова, наиболее полно соответствующие смыслу текста;
4. составляется запрос к поисковой машине в форме перечисления отобранных таким образом ключевых слов, связанных логическим оператором OR(ИЛИ) Запрос в таком виде позволяет обнаружить тексты, в которых встречается хотя бы одно из перечисленных слов.
Число документов, полученных в результате поиска по этому запросу, может быть огромно. Однако, благодаря ранжированию документов, то есть расположению их в порядке убывания частоты вхождения в документ слов запроса, применяемому в большинстве поисковых машин, на первых страницах найденных ресурсов практически все документы должны оказаться релевантными.
Отбор поисковых систем требует установить последовательность использования поисковых машин в соответствии с убыванием ожидаемой эффективности поиска с применением каждой машины.
Всего известно около нескольких сотен поисковых систем, различающихся по регионам охвата, принципам проведения поиска, объему индексной базы, скорости обновления информации, способности искать «нестандартную» информацию и т. д. Основными критериями выбора поисковых систем являются объем индексной базы сервера и степень развитости самой поисковой машины, то есть уровень сложности воспринимаемых ею запросов.
Составление и выполнение запросов к поисковым машинам - наиболее сложный и трудоемкий этап, связанный с обработкой значительного количества информации, большая часть которой обычно является шумовой. На основе тезауруса формируются запросы к выбранным поисковым серверам. После получения первоначальных результатов возможно уточнение запросов с целью отсечения очевидно нерелевантной информации. Затем производится отбор ресурсов, начиная с наиболее интересных, с точки зрения целей поиска, и данные с ресурсов, признанных релевантными, собираются для последующего анализа.
Языки запроса различных машин поиска в основном являются сочетанием следующих функций [3]:
осуществление поиска документов при помощи операторов булевой алгебры AND, OR, NOT. AND (И) - содержащих все термины, соединенные им, OR (ИЛИ) = искомый текст должен содержать хотя бы один из терминов, соединенных данным оператором; NOT (НЕ) - поиск документов, в тексте которых отсутствуют термины, следующие за данным оператором;
осуществление поиска документов при помощи операторов расстояния, ограничения порядка следования и расстояния между словами. NEAR - второй термин должен находиться на расстоянии от первого, не превышающем определенного числа слов; FOLLOWED BY - термины следуют в заданном порядке; ADJ - термины, соединенные оператором, являются смежными;
возможность усечения терминов - использование символа * вместо его окончания термина; позволяет включить в искомый список все слова, производные от его начальной части шаблона;
учет морфологии языка - машина автоматически учитывает все формы данного термина, возможные в языке, на котором ведется поиск;
возможность поиска по словосочетанию, фразе;
ограничение поиска элементом документа (слова запроса должны находиться именно в заголовке, первом абзаце, ссылках и т. д.);
ограничение по дате опубликования документа;
ограничение на количество совпадений терминов;
возможность поиска графических изображений;
чувствительность к строчным и прописным буквам.
Результат запроса, то есть выведенный системой список ссылок на найденные ресурсы, обрабатывается в два этапа. На первом этапе производится отсечение очевидно нерелевантных источников, попавших в выборку в силу несовершенства поисковой машины или недостаточной «интеллектуальности» запроса. Параллельно проводится семантический анализ, имеющий целью уточнение тезауруса для модификации последующих запросов. Дальнейшая обработка производится путем последовательного обращения на каждый из найденных ресурсов и анализа находящейся там информации.
Конечной стадией поиска является анализ ресурсов и сбор искомой информации. Первичный анализ ресурсов может основываться на аннотациях, если они есть, а при их отсутствии - на ознакомлении с информационным наполнением ресурса. Далее информация извлекается с отобранных источников и используется в соответствующих поиску целях.
Заключение
Понятие информации рассматривалось еще античными философами. До начала промышленной революции, определение сути информации оставалось прерогативой преимущественно философов. С развитием электроники, рассматривать вопросы теории информации стала новая на то время наука кибернетика.
Информация — сведения об объектах и явлениях окружающей среды, их параметрах, свойствах и состоянии, которые воспринимают информационные системы (живые организмы, управляющие машины и др.) в процессе жизнедеятельности и работы.
Применительно к компьютерной обработке данных под информацией понимают некоторую последовательность символических обозначений (букв, цифр, закодированных графических образов и звуков и т.п.), несущую смысловую нагрузку и представленную в понятном компьютеру виде. Каждый новый символ в такой последовательности символов увеличивает информационный объём сообщения.
Свойства информации:
достоверность; полнота; ценность; своевременность; | понятность; доступность; краткость; и др. |
Информация может существовать в самых разнообразных формах:
в виде текстов, рисунков, чертежей, фотографий;
в виде световых или звуковых сигналов;
в виде радиоволн;
в виде электрических и нервных импульсов;
в виде магнитных записей;
в виде жестов и мимики;
в виде запахов и вкусовых ощущений;
в виде хромосом, посредством которых передаются по наследству признаки и свойства организмов и т.д.
В качестве единицы информации условились принять один бит (англ. bit — binary, digit — двоичная цифра).
Бит в теории информации — количество информации, необходимое для различения двух равновероятных сообщений.
А в вычислительной технике битом называют наименьшую "порцию" памяти, необходимую для хранения одного из двух знаков "0" и "1", используемых для внутримашинного представления данных и команд.
Бит — слишком мелкая единица измерения. На практике чаще применяется более крупная единица — байт, равная восьми битам. Именно восемь битов требуется для того, чтобы закодировать любой из 256 символов алфавита клавиатуры компьютера (256=28).
Широко используются также ещё более крупные производные единицы информации:
1 Килобайт (Кбайт) = 1024 байт = 210 байт,
1 Мегабайт (Мбайт) = 1024 Кбайт = 220 байт,
1 Гигабайт (Гбайт) = 1024 Мбайт = 230 байт.
В последнее время в связи с увеличением объёмов обрабатываемой информации входят в употребление такие производные единицы, как:
1 Терабайт (Тбайт) = 1024 Гбайт = 240 байт,
1 Петабайт (Пбайт) = 1024 Тбайт = 250 байт.
Можно привести немало разнообразных свойств информации. Каждая научная дисциплина рассматривает те свойства, которые ей наиболее важны. С точки зрения информатики наиболее важными представляются следующие свойства: объективность, полнота, достоверность, адекватность, доступность и актуальность информации.
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
1.Информатика. Конспект лекций. - М.: ЭКСМО, 2016.
2.Информатика. Учебное пособие. А.Г. Гейн. - М.: Просвещение, 2017.
3. Босова Л.Л., Цветкова М.С. Информатика. - М.: Астрель, 2017.
4. Информатика и информационные технологии. Под ред. Ю.Д.Романовой. - М.: Эксмо, 2018.
5. Восприятие Информации Человеком. Человеческое Восприятие [Электронный ресурс] - Электрон. дан. - cop. 2015-2016.
6. Информатика. Учебник. Под ред. А.Н. Данчула. - М.: РАГС, 2018.
7. Шрайберг Я.Л., Гончаров М.В. Справочное руководство по основам информатики и вычислительной техники. - М.: Финансы и статистика, 2017.
8. Информатика: Учебник. Под ред. Н.В.Макаровой. - М.: Финансы и статистика, 2017.
9. Могилев А.В., Пак Н.И., Хеннер Е.К. практикум по информатике. Учебное пособие. - М.: Академия, 2016.
10. Морозевич А.Н. Основы информатики. - М.: Новое знание, 2016.
11. Рыжиков Ю.В. Информатика: лекции и практикум. - СПб.: КОРОНАпринт, 2018.
12. Савельев А.Я. Основ информатики. Учебник для ВУЗов. - М.: МГТУ им. Н.Э.Баумана, 2019.
13. Семакин И.Г., Хеннер Е.К. Информатика и ВТ. Учебник. - М.: Бином, 2016.
14. Угринович Н.Д. Информатика и информационные технологии. - М.: ЛБЗ, 2016.
15. Каймин В.А. Информатика: Учебник. - М.: ИНФРА-М, 2017.