Файл: Литература по теме Тема Информационные технологии пользователя Вопрос Информационные технологии электронного офиса.docx

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 25.10.2023

Просмотров: 892

Скачиваний: 8

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
Поэтому нужно использовать какую-либо технику сжатого их представления.

Вероятностные модели,в отличие от векторных, имеют более строгую математическую основу. Идеи таких моделей были предложены еще в 1960 г. Ключевая из них называется принципом вероятностного ранжирования (англ. Probabilistic Ranking Principle, PRP). Суть этого принципа состоит в том, что наивысшая общая эффективность поиска достигается в случае, если результирующие документы ранжируются по убыванию вероятности их релевантности запросу. Для каждого документа оценивается вероятность того, что он релевантен запросу, и по этим оценкам выполняется ранжирование документов.

Именно используемыми способами получения таких оценок и некоторыми дополнительными предположениями различаются конкретные вероятностные модели поиска. В частности, указанная оценка может быть получена в соответствии с теоремой Байеса, как некоторая функция от вероятностей вхождения термов данного документа в релевантные и нерелевантные документы. С помощью запроса определяется вероятность вхождения заданного терма в релевантные документы, а по полной коллекции документов может быть определена вероятность вхождения этого терма в нерелевантные документы.

Сети вывода– это еще один популярный класс моделей поиска. Сети вывода,как и вероятностные модели поиска, основаны на принципе вероятностного ранжирования результирующих документов поиска. Однако, в отличие от вероятностных моделей, в моделях сетей вывода рассматривается оценка невероятности релевантности документа запросу, а вероятности того, что он удовлетворяет информационным потребностям пользователя. Модели этого семейства описывают процесс поиска документов как процесс рассуждений в условиях неопределенности, в котором оценивается вероятность того, что выраженные с помощью одного или нескольких запросов информационные потребности пользователя удовлетворяются.

Основой моделей рассматриваемого класса является Байесовская сеть, включающая узлы нескольких видов. Узлы первого вида представляют конкретные документы коллекции, в которой осуществляется поиск, и соответствуют событию изучения этого документа для целей поиска. Узлы второго вида представляют понятия, в терминах которых описывается содержание документов. Узлы третьего вида – это узлы запросов. Они соответствуют тем понятиям, в терминах которых описываются информационные потребности пользователей. Единственный узел четвертого типа в сети соответствует информационным потребностям пользователя, которые системе неизвестны. Все узлы первого и второго вида в сети могут быть построены заранее для заданной коллекции. Что же касается узлов третьего вида, то эти узлы и их связи с узлами понятий и узлом информационных потребностей формируются для каждого конкретного запроса.


 

Эвристические подходы и эмпирика в моделях поиска.

В продвинутых моделях поиска существенную роль играют элементы эмпирики и эвристики. Эвристические подходы и формализующие их эмпирические математические зависимости используются как в функциях оценки релевантности документов, так и в построении представлений документов и запросов. Поэтому таким моделям поиска свойственна некоторая неустойчивость поведения. При использовании конкретной модели поиска наряду с высокими оценками качества поиска на одной коллекции документов можно получить отнюдь не столь высокие оценки на другой коллекции.

Правдоподобные общие оценки качества поиска для модели можно получать лишь усреднено на множестве разнообразных коллекций. Существенное значение имеют и оценки результатов поиска, полученные на больших коллекциях.

 

Вопрос 6. Критерии оценки документальных систем.

 

Поисковое предписание и поисковый образ документа отражают лишь основное смысловое содержание поступающих сообщений в сокращенном виде. Поэтому метод информационного поиска, основанный на сопоставлении поискового предписания с поисковым образом документа, не в состоянии полностью обеспечить отыскания всех документов, отвечающих информационному запросу. Это приводит к тому, что часть документов, отвечающих запросу, т.е. релевантных ему, остается не выданной потребителю. В то же время во множестве выданных ему документов присутствуют и такие, которые не отвечают запросу, т.е. не являются релевантными.

Таким образом, практически в любой документальной ИПС могут быть два типа ошибок:

1)       ошибки 1-го рода (или пропуски цели): невыдача потребителю фактически релевантных его запросу документов;

2)       ошибки 2-го рода (или ложная тревога, иначе шум): выдача потребителю нерелевантных документов, которые не отвечают поставленному запросу.

 

Наличие ошибок 1-го и 2-го рода в реальной системе обуславливает разбиение всего массива документов системы по отношению к запросу на 4 подмассива:

 

 

Выданные

Не выданные

Релевантные

а

c

Нерелевантные

b

d


 

a – количество выданных релевантных документов;

b – количество выданных нерелевантных документов;

c – количество не выданных релевантных документов;

d – количество не выданных нерелевантных документов.

 

Приведем основные показатели эффективности документальных ИПС. Такими показателями являются полнота и точность информационного поиска.

Коэффициент полноты p, характеризующий долю выданных релевантных документов во всем массиве релевантных документов:

 

p = a / (a + c).

 

Коэффициент точности n, характеризующий долю выданных релевантных документов во всем массиве выданных документов:

 

n = a / (a + b).

 

Часто для удобства эти показатели измеряют в процентах. На практике часто используют лишь коэффициенты полноты и точности.

Очевидно, что обе эти характеристики зависят как от свойств поисковой системы, так и от правильности построения конкретного запроса и от субъективного представления пользователя о том, что такое нужная ему информация. ИСП тем лучше, чем больше полнота и точность, т.е. находит все нужные документы и ни одного лишнего. Однако улучшение одного из этих параметров приводит к ухудшению другого.

В идеале полнота информационного поиска и точность информационного поиска должны приближаться к единице, хотя на практике их значения колеблются в пределах от 60 до 90 %.

Другими показателями, характеризующими качество отобранных документов, являются:

Коэффициент шума e, характеризующий долю выданных нерелевантных документов во всем массиве выданных документов:

 

e = b / (a + b) = 1 - n.

 

Коэффициент осадка q, характеризующий долю выданных нерелевантных документов во всем массиве нерелевантных документов:

 

q = b / (b + d).

 

Коэффициент специфичности k, характеризующих долю не выданных нерелевантных документов во всем массиве нерелевантных документов:

 

k = d / (b + d).

 

Наряду с этими показателями, основанными на сопряжении релевантности и выдачи, могут быть использованы следующие:

     быстродействие документальной ИПС – интервал времени между моментом формулировки запроса и получением ответа на него;

     пропускная способность– оценивается количеством вводимых документов и количеством ответов в единицу времени при заданных значениях коэффициента полноты и точности;

     производительность– оценивается количеством пользователей системы и частотой обращения с их стороны;


     надежность работы– оценивается вероятность того, что система будет выполнять свои функции при заданных условиях в течение требуемого времени;

     типы запросов, обслуживаемых системой.

 

Вопрос 7. Программные средства реализации документальных ИС.

 

Информационно-поисковые системы Интернета.

Для того чтобы искать информацию в глобальной сети, кратко остановимся на ИПС Интернета, предназначенных для поиска и выдачи пользователю необходимой информации. На сегодняшний день все крупные ИПС имеют как минимум два поисковых интерфейса:

1)       простой поиск (англ. simple search);

2)       расширенный поиск (англ. advanced search).

 

Основное различие между ними заключается в возможности составления запросов и поисковых предписаний различной степени сложности.

Оба интерфейса относятся к графическому типу и реализованы в виде Web-страниц. В качестве параметров поиска используются ключевые слова, с помощью которых создаются поисковые запросы (поисковые предписания). Поле для ввода ключевых слов и кнопка отправки запроса являются обязательными для любого типа интерфейса. Основными видами поиска являются: любое из слов, все слова, точно по фразе.

Для большинства поисковых систем можно комбинировать ключевые слова, используя логические операторы: AND, OR, NOT, NEAR. Это создает возможность конкретизировать запрос, получать более точную информацию. Каждая поисковая система имеет свой синтаксис запросов, с которым можно ознакомиться на ее сайте.

Яndex – самая популярная в настоящее время отечественная поисковая система (http://www.yandex.ru). Она является четвёртой среди поисковых систем мира по количеству обрабатываемых поисковых запросов. По этому показателю он отстаёт лишь от Google, Baidu и Yahoo! По состоянию на сентябрь 2018 г., согласно рейтингу Alexa.com, сайт yandex.ru по популярности занимает 21-е место в мире и 1-е в России. Яndex поддерживает собственный каталог Интернет-ресурсов, имеет возможность простого и расширенного поиска.

Google (www.google.comwww.google.ru) – крупнейшая в мире поисковая система интернета, принадлежащая корпорации Google Inc. Основана в 1998 г. Ларри Пейджем и Сергеем Брином. Первая по популярности система (77,05 %), обрабатывает 41 млрд 345 млн запросов в месяц (доля рынка 62,4%). Поддерживает поиск в документах форматов PDF, RTF, PostScript, Microsoft Word, Microsoft Excel, Microsoft PowerPoint и других.


Yahoo – это система появилась в сети одной из первых, и сегодня Yahoo (http://www.yahoo.com) сотрудничает со многими производителями средств информационного поиска, а на различных ее серверах используется различное программное обеспечение. ИПЯ Yahoo достаточно прост: все слова следует вводить через пробел, они соединяются связкой AND либо OR. Ранжирование производится по числу терминов запроса в документе. Yahoo относится к классу простых традиционных систем с ограниченными возможностями поиска.

В последние годы в связи с изменением общей структуры мирового информационного потока наметился ряд тенденций в развитии классических информационно-поисковых систем. К этим тенденциям можно отнести следующие:

     быстрое развитие связей как между отдельными информационными элементами, так и внутри самих элементов (гипертекстовые связи, межсетевые связи и т.п.);

     усложнение структуры информационных объектов (внедренная графика, мультимедиа, Java-приложения, OLE объекты);

     резкое нарастание объемов обрабатываемой документальной информации и ее динамическое изменение, например, реализация Oracle Text Server с количеством документов общего типа до нескольких миллиардов с объемом несколько терабайт с непрерывным изменением да 10 % документов;

     слияние различных информационных систем в гетерогенные сети с унифицированным пользовательским интерфейсом при базировании на технологии «клиент-сервер».

 

В России исторически сложились и развиваются два направления развития ИПС:

1.  Классические ИПС, ориентированные на обработку больших массивов текстовой и фактографической документальной информации. К этому типу относятся:

     проект «Разработка комплекса информационных услуг на основе банка данных отечественных и зарубежных публикаций по науке и технике»;

     полнотекстовая документальная информационная система «ODB-TEXT» и др.

 

2.  Прикладные ИПС, ориентированные на обработку экспериментальных данных в той или иной области знаний. Среди них:

     гипермедийная ИС общего пользования с автоматическим накоплением данных, поступающих с метеорологических спутников;

     экспертная система поддержки экспериментов в области физико-химической кинетики;

     компьютерная база геополей Урала;

     виртуальные энциклопедические и справочные издания и др.

 

Вопросы для самопроверки:

1.       Что называется «документальной информационной системой»?