Файл: Литература по теме Тема Информационные технологии пользователя Вопрос Информационные технологии электронного офиса.docx
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 25.10.2023
Просмотров: 889
Скачиваний: 8
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
отображается в некоторое поисковое пространство.
При вводе в ИПС нового объекта (реферата) его дескрипторы автоматически включаются в словарь дескрипторов. Каждому дескриптору присваивается номер, называемый индексом дескриптора.
Совокупность индексов, соответствующих полному набору дескрипторов реферата, составляет его поисковый образ.
Новый поисковый образ снабжается уникальным идентификатором и включается в массив поисковых образов. Тем же идентификатором помечается новый реферат, заносимый в массив рефератов.
Поиск в дескрипторной ИПС организуется следующим образом. Пользователь выражает свои информационные потребности средствами и языком поискового пространства, формируя поисковый образ запроса(ПОЗ) к базе документов. Запрос подвергается анализу, в рамках которого выделяются дескрипторы, входящие в словарь дескрипторов. Их совокупность образует поисковое предписание, соответствующее запросу. Оно сопоставляется с поисковыми образами, в результате чего определяется их релевантность. Ответом на запрос является множество рефератов, соответствующих отобранным в процессе поиска идентификаторам.
Схематично общий принцип устройства и функционирования документальных ИПС на основе индексирования представлен на рис. 9.
Рис. 9. Общий принцип функционирования документальных ИПС на основе индексирования
В целях ускорения поиска для каждого дескриптора в словаре дескрипторов указывается список идентификаторов рефератов, в которых он встречается. Такая информационная структура ИПС называется индексом.
Заметим, что с помощью дескрипторов можно лишь приблизительно отразить смысл документов. Таким образом, поисковая система может выдать документы, не относящие к данному поисковому запросу и не найти нужные.
Развитием поиска по дескрипторам являются информационно-поисковые системы с полнотекстовым поиском.
В системах, использующих данный вид поиска, индекс формируется на основе всех слов и словосочетаний, содержащихся в документах, за исключением служебных слов (союзов, предлогов и др.). При индексировании слова приводятся к базовой грамматической форме (именительный падеж единственного числа и др.).
В семантически-навигационных системах документы
, помещаемые в хранилище (в базу) документов, оснащаются специальными навигационными конструкциями, соответствующими смысловым связям (отсылкам) между различными документами или отдельными фрагментами одного документа. Такие конструкции реализуют некоторую семантическую (смысловую) сеть в базе документов. Способ и механизм выражения информационных потребностей в подобных системах заключаются в явной навигации пользователя по смысловым отсылкам между документами. В настоящее время такой подход реализуется в гипертекстовых ИПС.
Вопрос 4. Технология обработки запросов.
При вводе документа в систему осуществляется его индексирование и строится его представление, которое будет далее представлять этот документ в процессе функционирования системы и обработки запросов. Когда поступает пользовательский запрос, для него также строится соответствующее представление. Наконец, собственно поиск заключается в том, что каким-либо эффективным образом (не прямым перебором, а обычно с помощью рациональным образом организованного индекса) сопоставляется представление запроса с представлениями хранимых в системе документов по принятому в ней критерию близости. В некоторых случаях для этих целей вводится специальная метрика. Результаты обработки запроса представляются в виде множества найденных релевантных документов.
Хотя на практике используются различного рода представления документов и пользовательских запросов, указанные общие принципы поиска остаются неизменными.
Тезаурусы –специальные словари, которые играют важную роль в анализе и формировании формализованного представления текстовых документов. Это словари основных понятий языка, обозначаемых отдельными словами или словосочетаниями, с определенными семантическими отношениями между ними.
В настоящее время существует два способа создания тезаурусов: вручную и автоматически.
Тезаурус, созданный вручную, может быть универсальным, независимым от конкретной коллекции документов. Он может быть общеязыковым (например, тезаурус русского языка) или ориентированным на какую-либо предметную область. Лексика тезауруса может включать множество слов и/или фраз. В нем могут поддерживаться различные типы семантических связей между лексическими единицами: синонимы, антонимы, связи типа: «целое-часть», «род-вид», «используется для», «работает в» и т.д. Набор связей может быть зависимым или независимым от конкретной предметной области.
К сожалению, разработка тезауруса вручную является весьма дорогостоящим, кропотливым и трудоемким делом, требующим значительных временных затрат. Поэтому на практике часто используют автоматическое создание тезаурусов. Методы решения этой задачи начали исследоваться еще в 60-х гг. XX в.
Создание тезаурусов в автоматическом режимеосуществляется обычно на основе заданных коллекций текстовых документов. Поэтому такие тезаурусы предназначены для работы именно с этими коллекциями.
Для создания тезауруса используется статистическая обработка текстов документов, входящих в данные коллекции. Автоматически построенный тезаурус поддерживает обычно простейший вид связей между лексическими термами, который может быть выявлен статистически, – ассоциативные связи, характеризующие совместное вхождение сочетания этих термов в текст документа.
В системах, использующих тезаурус, можно, например, при поиске по ключевым словам расширять запрос, включая в него синонимы первоначально заданных пользователем ключевых слов и обеспечивая тем самым более полный поиск. Тезаурусы также часто используются для индексирования документов в ручном или автоматическом режиме.
Вопрос 5. Поисковый аппарат.
Существуют различные подходы к построению систем полнотекстового поиска. Это связано, главным образом, с разнообразием информационных потребностей пользователей, которое приводит к необходимости применения различных способов формулировки запросов, а также с различием возможных способов представления содержания текстовых документов в поисковых системах.
Определение модели поиска.
В литературе, посвященной текстовому поиску, одним из ключевых понятий, характеризующих технологию поиска в той или иной конкретной системе, является модельпоиска.
Под моделью поиска понимается сочетание:
способа представления документов;
способа представления поисковых запросов;
вида критерия релевантности документов.
Разнообразие функциональных возможностей различных систем текстового поиска связано именно с различием реализованных в них моделей поиска.
Простейшие модели поиска– это модели, в которых документ представляется в виде набора ассоциированных с ним внешних атрибутов. К числу таких моделей принадлежит модель дескрипторного поиска, а также модель поиска, основанная на «Дублинском ядре».
Модель дескрипторного поиска описана в предыдущих разделах.
Модель поиска, основанная на «Дублинском ядре», основана на хранении метаданных о документе.
Метаданные (англ. metadata) – это информация о документе, понимаемая ЭВМ, т.е. обладающая свойством внутренней интерпретируемости.
Экземпляр метаданных для информационного ресурса выступает в качестве описания данного информационного ресурса. По назначению выделяют четыре основных вида метаданных:
1) описательные – библиографические описания информационных ресурсов и описания их семантики в виде рефератов и аннотаций;
2) структурные – формат, объем и структура информационного ресурса;
3) административные – правообладатели, права на доступ и коррекцию информационного ресурса, сведения о пользователях, платежах и др.;
4) идентифицирующие – служат для однозначного представления описываемых объектов для внешнего мира и приложений.
Наиболее распространенной системой метаданных является «Дублинское ядро». «Дублинское ядро» включает два уровня:
1. Простое «Дублинское ядро».
2. «Дублинское ядро» с квалификаторами.
Состав элементов простого «Дублинского ядра» определен в стандарте ISO 15836:2003.[2] Первый уровень содержит 15 элементов данных, образующих три группы:
1) содержание (англ. Content);
2) интеллектуальная собственность (англ. Intellectual Property);
3) характеристики данного экземпляра информационного ресурса (англ. Instantiation).
На втором уровне к 15 элементам добавлены два дополнительных элемента:
1) целевая аудитория – категория пользователей (англ. Audience);
2) правообладатель (англ. Rights).
Кроме того, для повышения детальности и выразительности описаний на этом уровне вводятся и используются квалификаторы, уточняющие семантику элементов данных и способы представления их значений. Так, например, даты рекомендуется представлять в формате ISO 8601:2004.
Все элементы «Дублинского ядра» являются необязательными и могут повторяться. Порядок их следования в описании информационного ресурса значения не имеет.
Модели, основанные на классификаторах, представляют собой одну из разновидностей простейших моделей, в которых документ выглядит в виде совокупности ассоциированных с ним атрибутов.
В модели, основанной на классификаторах, документы представляются идентификаторами классов в иерархической структуре классификатора, к которым относится данный документ. Представление запроса в простейшем случае – также идентификатор какого-либо класса из заданного классификатора. Критерием релевантности документа является условие, что класс документа совпадает с классом в представлении запроса или является его подклассом.
В более сложном случае в модели поиска, основанной на классификаторах, допускается указание в запросе нескольких классов классификатора. При этом релевантными считаются документы, принадлежащие какому-либо из указанных в запросе классов. Такая модель поиска близка к рассматриваемой далее булевской модели.
Булевские модели – модель поиска,особенность которой заключается в том, что пользователь может формулировать запрос в виде булевского выражения с использованием операторов И, ИЛИ, НЕТ. Термы такого выражения могут быть различными в разных вариациях модели поиска. Это может быть, например, условие вхождения данного слова или словосочетания (с точностью до грамматических форм) в текст документа в булевской модели, ориентированной на контекстный поиск. В булевской модели, ориентированной на поиск по классификаторам, термами выражения могут быть условия принадлежности документа данному классу классификатора. В булевской модели поиска с использованием Дублинского ядра термом может быть равенство, описывающее тот факт, что некоторый элемент метаданных имя рассматриваемого документа имеет заданное в запросе значение. Критерием релевантности данного документа запросу в булевских моделях поиска является истинность булевского выражения, заданного в запросе.
Векторные модели – это более продвинутые модели поиска, различные вариации которых в настоящее время широко применяются на практике. Вероятно, самыми распространенными из них являются векторные модели поиска, называемые иногда также векторными пространствами.
В векторных моделях предполагается, что документы и запросы представляются векторами. В простейшем случае координаты вектора соответствуют термам текста – словам или словосочетаниям, принадлежащим словарю системы, который представляет общеязыковую лексику или лексику предметной области. Каждому терму из такого словаря сопоставляется свое измерение в векторном пространстве. Размерность векторов, представляющих документы и пользовательские запросы, в точности равна количеству измерений в этом пространстве.
Координате вектора присваивается некоторое ненулевое значение в том и только в том случае, когда соответствующий ей терм принадлежит данному документу или запросу. Поскольку размер словаря может быть очень большим, а документы или тексты запросов состоят из существенно меньшего количества содержащихся в нем термов, такие векторы оказываются очень разреженными
При вводе в ИПС нового объекта (реферата) его дескрипторы автоматически включаются в словарь дескрипторов. Каждому дескриптору присваивается номер, называемый индексом дескриптора.
Совокупность индексов, соответствующих полному набору дескрипторов реферата, составляет его поисковый образ.
Новый поисковый образ снабжается уникальным идентификатором и включается в массив поисковых образов. Тем же идентификатором помечается новый реферат, заносимый в массив рефератов.
Поиск в дескрипторной ИПС организуется следующим образом. Пользователь выражает свои информационные потребности средствами и языком поискового пространства, формируя поисковый образ запроса(ПОЗ) к базе документов. Запрос подвергается анализу, в рамках которого выделяются дескрипторы, входящие в словарь дескрипторов. Их совокупность образует поисковое предписание, соответствующее запросу. Оно сопоставляется с поисковыми образами, в результате чего определяется их релевантность. Ответом на запрос является множество рефератов, соответствующих отобранным в процессе поиска идентификаторам.
Схематично общий принцип устройства и функционирования документальных ИПС на основе индексирования представлен на рис. 9.
Рис. 9. Общий принцип функционирования документальных ИПС на основе индексирования
В целях ускорения поиска для каждого дескриптора в словаре дескрипторов указывается список идентификаторов рефератов, в которых он встречается. Такая информационная структура ИПС называется индексом.
Заметим, что с помощью дескрипторов можно лишь приблизительно отразить смысл документов. Таким образом, поисковая система может выдать документы, не относящие к данному поисковому запросу и не найти нужные.
Развитием поиска по дескрипторам являются информационно-поисковые системы с полнотекстовым поиском.
В системах, использующих данный вид поиска, индекс формируется на основе всех слов и словосочетаний, содержащихся в документах, за исключением служебных слов (союзов, предлогов и др.). При индексировании слова приводятся к базовой грамматической форме (именительный падеж единственного числа и др.).
В семантически-навигационных системах документы
, помещаемые в хранилище (в базу) документов, оснащаются специальными навигационными конструкциями, соответствующими смысловым связям (отсылкам) между различными документами или отдельными фрагментами одного документа. Такие конструкции реализуют некоторую семантическую (смысловую) сеть в базе документов. Способ и механизм выражения информационных потребностей в подобных системах заключаются в явной навигации пользователя по смысловым отсылкам между документами. В настоящее время такой подход реализуется в гипертекстовых ИПС.
Вопрос 4. Технология обработки запросов.
При вводе документа в систему осуществляется его индексирование и строится его представление, которое будет далее представлять этот документ в процессе функционирования системы и обработки запросов. Когда поступает пользовательский запрос, для него также строится соответствующее представление. Наконец, собственно поиск заключается в том, что каким-либо эффективным образом (не прямым перебором, а обычно с помощью рациональным образом организованного индекса) сопоставляется представление запроса с представлениями хранимых в системе документов по принятому в ней критерию близости. В некоторых случаях для этих целей вводится специальная метрика. Результаты обработки запроса представляются в виде множества найденных релевантных документов.
Хотя на практике используются различного рода представления документов и пользовательских запросов, указанные общие принципы поиска остаются неизменными.
Тезаурусы –специальные словари, которые играют важную роль в анализе и формировании формализованного представления текстовых документов. Это словари основных понятий языка, обозначаемых отдельными словами или словосочетаниями, с определенными семантическими отношениями между ними.
В настоящее время существует два способа создания тезаурусов: вручную и автоматически.
Тезаурус, созданный вручную, может быть универсальным, независимым от конкретной коллекции документов. Он может быть общеязыковым (например, тезаурус русского языка) или ориентированным на какую-либо предметную область. Лексика тезауруса может включать множество слов и/или фраз. В нем могут поддерживаться различные типы семантических связей между лексическими единицами: синонимы, антонимы, связи типа: «целое-часть», «род-вид», «используется для», «работает в» и т.д. Набор связей может быть зависимым или независимым от конкретной предметной области.
К сожалению, разработка тезауруса вручную является весьма дорогостоящим, кропотливым и трудоемким делом, требующим значительных временных затрат. Поэтому на практике часто используют автоматическое создание тезаурусов. Методы решения этой задачи начали исследоваться еще в 60-х гг. XX в.
Создание тезаурусов в автоматическом режимеосуществляется обычно на основе заданных коллекций текстовых документов. Поэтому такие тезаурусы предназначены для работы именно с этими коллекциями.
Для создания тезауруса используется статистическая обработка текстов документов, входящих в данные коллекции. Автоматически построенный тезаурус поддерживает обычно простейший вид связей между лексическими термами, который может быть выявлен статистически, – ассоциативные связи, характеризующие совместное вхождение сочетания этих термов в текст документа.
В системах, использующих тезаурус, можно, например, при поиске по ключевым словам расширять запрос, включая в него синонимы первоначально заданных пользователем ключевых слов и обеспечивая тем самым более полный поиск. Тезаурусы также часто используются для индексирования документов в ручном или автоматическом режиме.
Вопрос 5. Поисковый аппарат.
Существуют различные подходы к построению систем полнотекстового поиска. Это связано, главным образом, с разнообразием информационных потребностей пользователей, которое приводит к необходимости применения различных способов формулировки запросов, а также с различием возможных способов представления содержания текстовых документов в поисковых системах.
Определение модели поиска.
В литературе, посвященной текстовому поиску, одним из ключевых понятий, характеризующих технологию поиска в той или иной конкретной системе, является модельпоиска.
Под моделью поиска понимается сочетание:
способа представления документов;
способа представления поисковых запросов;
вида критерия релевантности документов.
Разнообразие функциональных возможностей различных систем текстового поиска связано именно с различием реализованных в них моделей поиска.
Простейшие модели поиска– это модели, в которых документ представляется в виде набора ассоциированных с ним внешних атрибутов. К числу таких моделей принадлежит модель дескрипторного поиска, а также модель поиска, основанная на «Дублинском ядре».
Модель дескрипторного поиска описана в предыдущих разделах.
Модель поиска, основанная на «Дублинском ядре», основана на хранении метаданных о документе.
Метаданные (англ. metadata) – это информация о документе, понимаемая ЭВМ, т.е. обладающая свойством внутренней интерпретируемости.
Экземпляр метаданных для информационного ресурса выступает в качестве описания данного информационного ресурса. По назначению выделяют четыре основных вида метаданных:
1) описательные – библиографические описания информационных ресурсов и описания их семантики в виде рефератов и аннотаций;
2) структурные – формат, объем и структура информационного ресурса;
3) административные – правообладатели, права на доступ и коррекцию информационного ресурса, сведения о пользователях, платежах и др.;
4) идентифицирующие – служат для однозначного представления описываемых объектов для внешнего мира и приложений.
Наиболее распространенной системой метаданных является «Дублинское ядро». «Дублинское ядро» включает два уровня:
1. Простое «Дублинское ядро».
2. «Дублинское ядро» с квалификаторами.
Состав элементов простого «Дублинского ядра» определен в стандарте ISO 15836:2003.[2] Первый уровень содержит 15 элементов данных, образующих три группы:
1) содержание (англ. Content);
2) интеллектуальная собственность (англ. Intellectual Property);
3) характеристики данного экземпляра информационного ресурса (англ. Instantiation).
На втором уровне к 15 элементам добавлены два дополнительных элемента:
1) целевая аудитория – категория пользователей (англ. Audience);
2) правообладатель (англ. Rights).
Кроме того, для повышения детальности и выразительности описаний на этом уровне вводятся и используются квалификаторы, уточняющие семантику элементов данных и способы представления их значений. Так, например, даты рекомендуется представлять в формате ISO 8601:2004.
Все элементы «Дублинского ядра» являются необязательными и могут повторяться. Порядок их следования в описании информационного ресурса значения не имеет.
Модели, основанные на классификаторах, представляют собой одну из разновидностей простейших моделей, в которых документ выглядит в виде совокупности ассоциированных с ним атрибутов.
В модели, основанной на классификаторах, документы представляются идентификаторами классов в иерархической структуре классификатора, к которым относится данный документ. Представление запроса в простейшем случае – также идентификатор какого-либо класса из заданного классификатора. Критерием релевантности документа является условие, что класс документа совпадает с классом в представлении запроса или является его подклассом.
В более сложном случае в модели поиска, основанной на классификаторах, допускается указание в запросе нескольких классов классификатора. При этом релевантными считаются документы, принадлежащие какому-либо из указанных в запросе классов. Такая модель поиска близка к рассматриваемой далее булевской модели.
Булевские модели – модель поиска,особенность которой заключается в том, что пользователь может формулировать запрос в виде булевского выражения с использованием операторов И, ИЛИ, НЕТ. Термы такого выражения могут быть различными в разных вариациях модели поиска. Это может быть, например, условие вхождения данного слова или словосочетания (с точностью до грамматических форм) в текст документа в булевской модели, ориентированной на контекстный поиск. В булевской модели, ориентированной на поиск по классификаторам, термами выражения могут быть условия принадлежности документа данному классу классификатора. В булевской модели поиска с использованием Дублинского ядра термом может быть равенство, описывающее тот факт, что некоторый элемент метаданных имя рассматриваемого документа имеет заданное в запросе значение. Критерием релевантности данного документа запросу в булевских моделях поиска является истинность булевского выражения, заданного в запросе.
Векторные модели – это более продвинутые модели поиска, различные вариации которых в настоящее время широко применяются на практике. Вероятно, самыми распространенными из них являются векторные модели поиска, называемые иногда также векторными пространствами.
В векторных моделях предполагается, что документы и запросы представляются векторами. В простейшем случае координаты вектора соответствуют термам текста – словам или словосочетаниям, принадлежащим словарю системы, который представляет общеязыковую лексику или лексику предметной области. Каждому терму из такого словаря сопоставляется свое измерение в векторном пространстве. Размерность векторов, представляющих документы и пользовательские запросы, в точности равна количеству измерений в этом пространстве.
Координате вектора присваивается некоторое ненулевое значение в том и только в том случае, когда соответствующий ей терм принадлежит данному документу или запросу. Поскольку размер словаря может быть очень большим, а документы или тексты запросов состоят из существенно меньшего количества содержащихся в нем термов, такие векторы оказываются очень разреженными