Файл: Литература по теме Тема Информационные технологии пользователя Вопрос Информационные технологии электронного офиса.docx
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 25.10.2023
Просмотров: 890
Скачиваний: 8
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
Тема 6. Документальные информационные системы
Цель и задачи: Рассмотреть понятие документа, основные свойства документальных информационных систем, особенности поиска информации, информационно-поисковый язык, поисковый аппарат, критерии оценки документальных систем, программные средства реализации документальных ИС.
Вопросы темы:
1. Основные понятия.
2. Информационно-поисковый язык.
3. Система индексирования.
4. Технология обработки запросов.
5. Поисковый аппарат.
6. Критерии оценки документальных систем.
7. Программные средства реализации документальных ИС.
Вопрос 1. Основные понятия.
Текст является универсальным средством представления, накопления и передачи знаний в человеческом обществе. Поэтому технологии работы с естественно-языковыми текстами (а также с текстами на ограниченном естественном языке) всегда считались важнейшими для информационных технологий.
Документальные ИС служат для работы с документами на естественном языке. Наиболее распространенный тип документальных информационных систем – это информационно-поисковые системы, предназначенные для накопления документов и подбора документов, удовлетворяющих заданным критериям.
Основным элементом данных в документальных информационных системах является неструктурированный на более мелкие элементы документ. В ранних системах документ рассматривался как атомарная (неделимая) единица. Для системы он выступал как «черный ящик». В более развитых системах содержание документа доступно для обработки и анализа. Таким образом, можно дать следующее определение документа:
Документ – это порция информации, обладающая законченным содержанием и какого-либо рода уникальным идентификатором.
Основной задачей документальных информационных систем является накопление и предоставление пользователю документов, содержание, тематика, реквизиты которых адекватны его информационным потребностям. Поэтому можно дать следующее определение документальной ИС: документальная ИС – это единое хранилище документов с инструментарием поиска и отбора необходимых документов.
Системы текстового поиска оперируют электронными документами, т.е. документами, хранимыми в памяти компьютеров и доступными для автоматизированной обработки. Компьютерная обработка и анализ текстовых документов возможны лишь в случае, если программно доступны отдельные элементы текстового документа. Поэтому совершенно недостаточно просканировать бумажный текстовый документ и хранить полученное его факсимиле в памяти компьютера в виде какого-либо графического файла. Необходимо иметь документ в оцифрованном виде, т.е. в таком формате, когда каждая буква (литера) представляющего его текста программно доступна.
Первые информационно-поисковые системы (ИПС) были предназначены для поиска книг в библиотеках и получили название библиографические. Позже их стали применять для поиска документов в больших хранилищах и стали называть документальными.
Основным объектом информационного фонда документальной информационно-поисковой системы является аннотация (реферат) и библиографическое описание документа. Аннотация (реферат) пишется на естественном языке и отражает основные характеристики документа. Из реферата выделяются ключевые слова и словосочетания, которые в последующем используются для поиска.
Ключевые слова и словосочетания по-другому называются дескрипторами.
Запрос к документальной ИПС формулируется в виде перечня дескрипторов, которые, по мнению пользователя, характеризуют искомый документ. Совокупность индексов, соответствующих полному набору дескрипторов реферата, составляет его поисковый образ.
Таким образом, признаки документа, отражающие его содержание в информационно-поисковой системе (ИПС), называют поисковым образом документа (ПОД), а признаки запроса в ИПС – поисковым предписанием (ПП).
Процедура перевода документа и запроса в форму представления, принятую в ИПС, называется индексированием.
При проведении информационного поиска в системе рассматривается не фактическая информационная потребность пользователя, а только информационный запрос, в ответ на который выдаются те или иные документы системы.
Для выражения этих отношений в теории документальных ИПС введены два фундаментальных понятия: пертинентность и релевантность.
Под пертинентностью понимается соответствие смыслового содержания документа информационной потребности потребителя. Документы, содержание которых удовлетворяет информационной потребности, называются пертинентными.
Релевантность представляет собой соответствие содержания документа информационному запросу в том виде, в каком он сформулирован, а документы, содержание которых отвечает запросу потребителя, носят название релевантных.
При сопоставлении поискового образа и поискового предписания используется тот или иной критерий смыслового соответствия (релевантности).
В состав типовой документальной ИПС входят четыре подсистемы:
1. Подсистема ввода и регистрации.
2. Подсистема обработки.
3. Подсистема хранения.
4. Подсистема поиска.
Основные задачи подсистемы ввода и регистрации документов зависят от представления текстовых документов, поступающих на вход системы. Они могут быть представлены как в бумажном, так и в электронном виде. Поэтому эта подсистема решает такие задачи, как:
создание электронных копий бумажных документов (например, сканирование с последующим распознаванием текста или ввод с клавиатуры);
обеспечение подключения к каналам доставки электронных документов;
распознавание, а при необходимости и преобразование, формата электронных документов;
присвоение электронным документам уникальных идентификаторов (регистрация), а также ведение таблицы синхронизации имен (при необходимости сохранения прежних имен).
Все поступающие документы без внесения в них каких-либо изменений направляются в подсистему хранения для сохранения в базе данных документов. База документов может представлять собой простую совокупность файлов, распределенную по каталогам жесткого диска. Однако такой тип представления базы документов характеризуется двумя недостатками:
1) неэффективностью использования дискового пространства;
2) низкой скоростью доступа при большом количестве файлов.
Поэтому для хранения документов применяют средства сжатия и быстрого поиска информации. В этом случае подсистема хранения представляет собой совокупность стандартных или специализированных средств архивации, управления данными, обеспечивающих возможность доступа к данным по предъявляемому идентификатору.
На следующем этапе документы поступают на вход подсистемы обработки. Задачей этой подсистемы является формирование для каждого документа поискового образа документа (ПОД), в который заносится информация, необходимая для последующего поиска документа. ПОД сохраняется в индексе.
При поступлении на вход системы запроса индекс преобразуется в поисковое предписание и передается в подсистему поиска, задачей которой является отыскание в индексе ПОД, удовлетворяющих ПП с точки зрения критерия смыслового соответствия. Критерий смыслового соответствия (КСС) – это набор правил, по которым данная документальная ИПС определяет степень смысловой близости между поисковым образом документа (ПОД) и поисковым предписанием (ПП). Идентификаторы релевантных документов подаются с выхода подсистемы поиска на вход подсистемы хранения, которая осуществляет выдачу пользователю самих релевантных документов.
Вопрос 2. Информационно-поисковый язык.
Автоматизация процесса информационного поиска потребовала создания информационно-поисковых языков.
Информационно-поисковый язык (ИПЯ) – это специально созданный искусственный язык, предназначенный для выражения содержания документов и запросов или описания фактов с целью их последующего поиска. ИПЯ создается на базе естественного языка, однако отличается от него компактностью, наличием четких грамматических правил и отсутствием семантической неоднозначности.
Каждый информационно-поисковый язык состоит из:
лексики (словарного состава);
базисных (аналитических) отношений;
грамматики;
системы обозначений (алфавита);
системы ведения (изменения и дополнения);
правил образования и интерпретации.
Алфавит ИПЯ – это система знаков, используемых для записи слов и выражений ИПЯ.
Лексика, или словарный состав ИПЯ, – совокупность слов, словосочетаний и выражений, используемых для построения текстов ИПЯ.
Грамматика ИПЯ – совокупность средств и способов построения, изменения и сочетания лексических единиц. Грамматика включает морфологию и синтаксис.
Морфология – совокупность средств и способов построения и изменения слов.
Синтаксис– совокупность средств и способов соединения слов в выражения и фразы.
Естественный язык (ЕЯ) обладает высокой многозначностью. Это создает богатство его форм и содержания. В ИПЯ недопустима многозначность.
Основными требованиями, предъявляемыми к ИПЯ:
однозначность: каждая запись на ИПЯ должна иметь только один смысл, одно толкование, а любое понятие, смысл должны получить единообразную запись средствами ИПЯ;
достаточная семантическая сила: способность отражать с необходимой полнотой и точностью смысловое содержание документов и запросов определенной предметной области;
открытость: обеспечение возможности корректировки языка.
Поэтому необходимо учитывать отношения синонимии и омонимии слов ЕЯ, используемых в ИПЯ.
Омонимия –это совпадение слов по написанию или звучанию и несовпадение по смыслу.
Полисемия слова состоит в том, что одно и то же слово выражает пучок родственных понятий. Например, знак «соль» обозначает вещество, а также понятие смысла. Оба значения близки по смыслу.
Синонимия – это совпадение слов по значению и несовпадение по написанию.
Наиболее часто в качестве основания деления при классификации ИПЯ используют способ организации понятий.
Поспособу организации понятий ИПЯ различают:
предкоординируемые (классификационные);
посткоординируемые (дескрипторные).
Предкоординация– предварительное (до использования при индексировании) построение сложных классов путем логического умножения (координации) простых классов.
Словарный состав задается в виде фиксированного списка слов, словосочетаний и фраз. При индексировании документов или запросов можно пользоваться только словами, словосочетаниями и фразами, содержащимися в фиксированном списке. Введение в язык новых лексических единиц строго ограничено и возможно лишь до индексирования документов, т.е. при создании языка.
Словарный состав предкоординируемых языков напоминает двуязычный разговорник, в котором заранее зафиксированы наиболее употребительные фразы. При помощи предкоординируемого языка происходит отнесение документа к классу, обозначенному лексическими единицами этого языка, т.е. классификация документа.
Посткоординируемые(дескрипторные языки) основаны на методе координатного индексирования.
Координатное индексирование – индексирование, при котором основное смысловое содержание текста (документа) или информационного запроса представляется в виде сочетания ключевых слов или дескрипторов. В посткоординируемых ИПЯ лексические единицы объединяются в поисковом образе лишь во время индексирования документа. Словарь дескрипторного ИПЯ состоит из специальным образом выбранных отдельных слов или словосочетаний ЕЯ:ключевых слов и дескрипторов.
Вопрос 3. Система индексирования.
В зависимости от особенностей реализации хранилища документов и механизмов поиска документальные информационно-поисковые системы можно разделить на две группы:
1) системы на основе индексирования;
2) семантически-навигационные системы.
В системах на основе индексированияисходные документы помещаются в базу без какого-либо дополнительного преобразования, но при этом смысловое содержание каждого документа – аннотация (реферат) –
Цель и задачи: Рассмотреть понятие документа, основные свойства документальных информационных систем, особенности поиска информации, информационно-поисковый язык, поисковый аппарат, критерии оценки документальных систем, программные средства реализации документальных ИС.
Вопросы темы:
1. Основные понятия.
2. Информационно-поисковый язык.
3. Система индексирования.
4. Технология обработки запросов.
5. Поисковый аппарат.
6. Критерии оценки документальных систем.
7. Программные средства реализации документальных ИС.
Вопрос 1. Основные понятия.
Текст является универсальным средством представления, накопления и передачи знаний в человеческом обществе. Поэтому технологии работы с естественно-языковыми текстами (а также с текстами на ограниченном естественном языке) всегда считались важнейшими для информационных технологий.
Документальные ИС служат для работы с документами на естественном языке. Наиболее распространенный тип документальных информационных систем – это информационно-поисковые системы, предназначенные для накопления документов и подбора документов, удовлетворяющих заданным критериям.
Основным элементом данных в документальных информационных системах является неструктурированный на более мелкие элементы документ. В ранних системах документ рассматривался как атомарная (неделимая) единица. Для системы он выступал как «черный ящик». В более развитых системах содержание документа доступно для обработки и анализа. Таким образом, можно дать следующее определение документа:
Документ – это порция информации, обладающая законченным содержанием и какого-либо рода уникальным идентификатором.
Основной задачей документальных информационных систем является накопление и предоставление пользователю документов, содержание, тематика, реквизиты которых адекватны его информационным потребностям. Поэтому можно дать следующее определение документальной ИС: документальная ИС – это единое хранилище документов с инструментарием поиска и отбора необходимых документов.
Системы текстового поиска оперируют электронными документами, т.е. документами, хранимыми в памяти компьютеров и доступными для автоматизированной обработки. Компьютерная обработка и анализ текстовых документов возможны лишь в случае, если программно доступны отдельные элементы текстового документа. Поэтому совершенно недостаточно просканировать бумажный текстовый документ и хранить полученное его факсимиле в памяти компьютера в виде какого-либо графического файла. Необходимо иметь документ в оцифрованном виде, т.е. в таком формате, когда каждая буква (литера) представляющего его текста программно доступна.
Первые информационно-поисковые системы (ИПС) были предназначены для поиска книг в библиотеках и получили название библиографические. Позже их стали применять для поиска документов в больших хранилищах и стали называть документальными.
Основным объектом информационного фонда документальной информационно-поисковой системы является аннотация (реферат) и библиографическое описание документа. Аннотация (реферат) пишется на естественном языке и отражает основные характеристики документа. Из реферата выделяются ключевые слова и словосочетания, которые в последующем используются для поиска.
Ключевые слова и словосочетания по-другому называются дескрипторами.
Запрос к документальной ИПС формулируется в виде перечня дескрипторов, которые, по мнению пользователя, характеризуют искомый документ. Совокупность индексов, соответствующих полному набору дескрипторов реферата, составляет его поисковый образ.
Таким образом, признаки документа, отражающие его содержание в информационно-поисковой системе (ИПС), называют поисковым образом документа (ПОД), а признаки запроса в ИПС – поисковым предписанием (ПП).
Процедура перевода документа и запроса в форму представления, принятую в ИПС, называется индексированием.
При проведении информационного поиска в системе рассматривается не фактическая информационная потребность пользователя, а только информационный запрос, в ответ на который выдаются те или иные документы системы.
Для выражения этих отношений в теории документальных ИПС введены два фундаментальных понятия: пертинентность и релевантность.
Под пертинентностью понимается соответствие смыслового содержания документа информационной потребности потребителя. Документы, содержание которых удовлетворяет информационной потребности, называются пертинентными.
Релевантность представляет собой соответствие содержания документа информационному запросу в том виде, в каком он сформулирован, а документы, содержание которых отвечает запросу потребителя, носят название релевантных.
При сопоставлении поискового образа и поискового предписания используется тот или иной критерий смыслового соответствия (релевантности).
В состав типовой документальной ИПС входят четыре подсистемы:
1. Подсистема ввода и регистрации.
2. Подсистема обработки.
3. Подсистема хранения.
4. Подсистема поиска.
Основные задачи подсистемы ввода и регистрации документов зависят от представления текстовых документов, поступающих на вход системы. Они могут быть представлены как в бумажном, так и в электронном виде. Поэтому эта подсистема решает такие задачи, как:
создание электронных копий бумажных документов (например, сканирование с последующим распознаванием текста или ввод с клавиатуры);
обеспечение подключения к каналам доставки электронных документов;
распознавание, а при необходимости и преобразование, формата электронных документов;
присвоение электронным документам уникальных идентификаторов (регистрация), а также ведение таблицы синхронизации имен (при необходимости сохранения прежних имен).
Все поступающие документы без внесения в них каких-либо изменений направляются в подсистему хранения для сохранения в базе данных документов. База документов может представлять собой простую совокупность файлов, распределенную по каталогам жесткого диска. Однако такой тип представления базы документов характеризуется двумя недостатками:
1) неэффективностью использования дискового пространства;
2) низкой скоростью доступа при большом количестве файлов.
Поэтому для хранения документов применяют средства сжатия и быстрого поиска информации. В этом случае подсистема хранения представляет собой совокупность стандартных или специализированных средств архивации, управления данными, обеспечивающих возможность доступа к данным по предъявляемому идентификатору.
На следующем этапе документы поступают на вход подсистемы обработки. Задачей этой подсистемы является формирование для каждого документа поискового образа документа (ПОД), в который заносится информация, необходимая для последующего поиска документа. ПОД сохраняется в индексе.
При поступлении на вход системы запроса индекс преобразуется в поисковое предписание и передается в подсистему поиска, задачей которой является отыскание в индексе ПОД, удовлетворяющих ПП с точки зрения критерия смыслового соответствия. Критерий смыслового соответствия (КСС) – это набор правил, по которым данная документальная ИПС определяет степень смысловой близости между поисковым образом документа (ПОД) и поисковым предписанием (ПП). Идентификаторы релевантных документов подаются с выхода подсистемы поиска на вход подсистемы хранения, которая осуществляет выдачу пользователю самих релевантных документов.
Вопрос 2. Информационно-поисковый язык.
Автоматизация процесса информационного поиска потребовала создания информационно-поисковых языков.
Информационно-поисковый язык (ИПЯ) – это специально созданный искусственный язык, предназначенный для выражения содержания документов и запросов или описания фактов с целью их последующего поиска. ИПЯ создается на базе естественного языка, однако отличается от него компактностью, наличием четких грамматических правил и отсутствием семантической неоднозначности.
Каждый информационно-поисковый язык состоит из:
лексики (словарного состава);
базисных (аналитических) отношений;
грамматики;
системы обозначений (алфавита);
системы ведения (изменения и дополнения);
правил образования и интерпретации.
Алфавит ИПЯ – это система знаков, используемых для записи слов и выражений ИПЯ.
Лексика, или словарный состав ИПЯ, – совокупность слов, словосочетаний и выражений, используемых для построения текстов ИПЯ.
Грамматика ИПЯ – совокупность средств и способов построения, изменения и сочетания лексических единиц. Грамматика включает морфологию и синтаксис.
Морфология – совокупность средств и способов построения и изменения слов.
Синтаксис– совокупность средств и способов соединения слов в выражения и фразы.
Естественный язык (ЕЯ) обладает высокой многозначностью. Это создает богатство его форм и содержания. В ИПЯ недопустима многозначность.
Основными требованиями, предъявляемыми к ИПЯ:
однозначность: каждая запись на ИПЯ должна иметь только один смысл, одно толкование, а любое понятие, смысл должны получить единообразную запись средствами ИПЯ;
достаточная семантическая сила: способность отражать с необходимой полнотой и точностью смысловое содержание документов и запросов определенной предметной области;
открытость: обеспечение возможности корректировки языка.
Поэтому необходимо учитывать отношения синонимии и омонимии слов ЕЯ, используемых в ИПЯ.
Омонимия –это совпадение слов по написанию или звучанию и несовпадение по смыслу.
Полисемия слова состоит в том, что одно и то же слово выражает пучок родственных понятий. Например, знак «соль» обозначает вещество, а также понятие смысла. Оба значения близки по смыслу.
Синонимия – это совпадение слов по значению и несовпадение по написанию.
Наиболее часто в качестве основания деления при классификации ИПЯ используют способ организации понятий.
Поспособу организации понятий ИПЯ различают:
предкоординируемые (классификационные);
посткоординируемые (дескрипторные).
Предкоординация– предварительное (до использования при индексировании) построение сложных классов путем логического умножения (координации) простых классов.
Словарный состав задается в виде фиксированного списка слов, словосочетаний и фраз. При индексировании документов или запросов можно пользоваться только словами, словосочетаниями и фразами, содержащимися в фиксированном списке. Введение в язык новых лексических единиц строго ограничено и возможно лишь до индексирования документов, т.е. при создании языка.
Словарный состав предкоординируемых языков напоминает двуязычный разговорник, в котором заранее зафиксированы наиболее употребительные фразы. При помощи предкоординируемого языка происходит отнесение документа к классу, обозначенному лексическими единицами этого языка, т.е. классификация документа.
Посткоординируемые(дескрипторные языки) основаны на методе координатного индексирования.
Координатное индексирование – индексирование, при котором основное смысловое содержание текста (документа) или информационного запроса представляется в виде сочетания ключевых слов или дескрипторов. В посткоординируемых ИПЯ лексические единицы объединяются в поисковом образе лишь во время индексирования документа. Словарь дескрипторного ИПЯ состоит из специальным образом выбранных отдельных слов или словосочетаний ЕЯ:ключевых слов и дескрипторов.
Вопрос 3. Система индексирования.
В зависимости от особенностей реализации хранилища документов и механизмов поиска документальные информационно-поисковые системы можно разделить на две группы:
1) системы на основе индексирования;
2) семантически-навигационные системы.
В системах на основе индексированияисходные документы помещаются в базу без какого-либо дополнительного преобразования, но при этом смысловое содержание каждого документа – аннотация (реферат) –