Файл: Информация и информационные системы. Основные понятия и классификации.docx

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 12.12.2023

Просмотров: 121

Скачиваний: 1

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
, по назначению, цели.

Способы реализации видов и форм обслуживания зависят от вида, назначения и способа реализации конкретной ИПС. В современных условиях распространены режимы обслуживания в форме он-лайнового доступа к базам данных автоматизированных ИПС и предоставления информации на СD.

Для эффективного информационного обслуживания и навигации необходимо выявить информационные потребности. Поэтому изучение запросов потребителей информации является первоочередной задачей научно – информационной деятельности.  Задача эта довольно сложная, т.к. потребители как правило, не умеют четко формулировать свои потребности, и они уточняются по мере работы с получаемой информацией. 

Прежде всего, каждому документу, вводимому в поисковый массив, ставится в соответствие поисковый образ документа (ПОД), который представляет собой  характеристику, отражающую основное смысловое содержание документа. Простейшим ПОД может являться заглавие документа, переписанное в форме перечня входящих слов.  Устанавливаются правила включения в ПОД существительных в единственном числе и именительном падеже, глаголов – в неопределенной форме или в виде отглагольных существительных и т.п. правил, общих для формирования ПОД и ПОЗ – поискового образа запроса. 

Для реализации процедуры описания  документов и запросов с помощью ПОД и ПОЗ разрабатывают информационно – поисковые языки (ИПЯ). Для сопоставления ПОД и ПОЗ разрабатывают и применяют различные критерии поиска или критерии смыслового соответствия (КСС).

Точность поиска определяется точностью отображения документов и запросов с помощью их поисковых образов и степенью совпадения ПОД и ПОЗ.  Поэтому возможна неполнота выдачи документов, либо, наоборот, «поисковый шум», которые представляют собой своеобразную плату за облегчение процедуры информационного поиска. 

Документальные И

            2.5 Виды и классификация ИПЯ


 

  1. Иерархические классификации, которые обеспечивают возможность расширения «вниз», т.е. уточнения описания документа, но они отличаются жесткостью, их трудно изменять.

  2. Язык предметных заголовков – как и иерархическая классификация использует фиксированное число предметных классов (часто располагаемых по алфавиту), но для его терминов  обычно не используется определенный код. Язык позволяет любому документу приписывать более чем один термин, почти не имеет структуры и средств для выражения взаимоотношений между терминами.  Этот язык можно считать языком иерархической классификации, но с ослабленной структурой, что облегчает его разработку, но затрудняет изучение и применение (например, в журналах – рубрики, классификаторы специальностей в высшем образовании и т.д.).

Эти языки иногда называют предкоординированными системами, т.к. семантические комбинации терминов не определены в словарном запасе ИПЯ, а составляются его разработчиками.  Такие языки неизбежно имеют пробелы, в них трудно отражать новые предметные области. Поэтому для более совершенного описания содержания документа стало применяться координатное индексирование или индексирование ключевыми словами:

  1. система ключевых слов с фиксированным словарем (для узкоспециализированных

ИПС с унифицированной терминологией);

  1. система ключевых слов со свободным словарем (позволяет выбрать для описания документа любые слова, за исключением  союзов и предлогов,  руководствуясь их ролью в отображении содержания документа);

  2. языки с синтаксисом (грамматикой);

  3. языки фасетного индексирования (пример: уточненное описание товара, включая фасон, цвет, цену и др. характеристики товара). Различные роли, которые играют дескрипторы, называются фасетами. Дескриптор – ключевое слово.

  4. язык фраз использует индексирующие фразы, но нет возможности расширения ПОД.

  5. язык пермутационного индексирования. Пермутационный указатель включает контекст каждого слова во фразе и называется указателем ключевых слов. Язык является трудоемким.

  6. естественный язык. Наиболее точно отражает семантику текста, но возникают проблемы с синонимами, омонимами и т.д. Трудоемок, часто неэффективен.


Т.о. существуют ИПЯ, использующие ключевые слова, дескрипторные ИПЯ без грамматики и с грамматикой, ИПЯ с тезаурусом и т.д.

При выборе ИПЯ оценивается их эффективность: семантическая сила, многозначность, компактность и стоимость. Оценка ИПЯ – это составная часть проблемы оценки  эффективности ИС, которые мы будем изучать позже. 

 

            2.6 Система индексирования


 

Процедуру перевода с естественного языка на ИПЯ называют индексированием. 

Результатом  такого перевода является ПОД (при вводе документов в ИПС)  или ПОЗ (при индексировании запросов пользователя).

Процедура индексирования связана с большими затратами труда и при неалгоритмическом характере весьма трудоемка и ограничивает семантические возможности ИПЯ. Поэтому большое внимание уделяется возможности автоматизации этого процесса. 

Проблема индексирования связана с семантическим анализом текстов документов. Сложность ее связана с тем, что индексирование документов, вводимых в поисковые массивы, и запросов пользователя разнесены во времени. 

Для алгоритмизации и автоматизации индексирования необходимо решить проблему выбора для включения в ПОД или Поз наиболее значимых ключевых слов, дескрипторов, фраз.

Типы систем индексирования:

  1. системы свободного индексирования. Из индексируемого документа выписываются в ПОД слова или словосочетания, которые отражают содержание индексируемого документа.  Элементами ПОД могут быть слова, отсутствующие в этих элементах, но отражающие более точно смысл его текста с точки зрения целей создания ИПС.  Выписанные элементы упорядочиваются в алфавитном порядке.  Такой упорядоченный набор слов (словосочетаний) представляет собой ПОД при этом типе индексирования.  Аналогично из текста запроса формируется ПОЗ.  ((Такой процесс индексирования является неалгоритмичным, т.е. неавтоматизируемым)).

  2. Метод полусвободного индексирования. Из документа выписывают слова и словосочетания вначале так же, как и при свободном индексировании. Но выписанные элементы сравнивают затем с фиксированным словарем, не найденные в нем – устраняют, а оставшиеся, упорядочиваемые в алфавитном порядке, представляют собой ПОД или ПОЗ. 

  3. Метод, основанный на статистическом подходе. Выбор слов (выражений) исходного текста, подлежащих включению в ПОД, производится на основе статистического анализа текста, при котором его слова рассматриваются как знаки, не имеющих семантических значений. При этом предлагаются различные статистические критерии, основанные на сопоставлении относительной частоты употребления слова в документе и относительной частоты употребления слова в представительском  массиве документов (т.е. в статистической выборке).  Этот способ индексирования может быть алгоритмизирован и автоматизирован. 

  4. Системы индексирования, контролируемые заданным словарем (тезаурусом). Каждое слово текста сравнивается с точностью до основы со словарем, совпавшие слова записываются в ПОД.


Тема 3.  ИНФОРМАЦИОННО-ПРАВОВЫЕ СИСТЕМЫ, ИХ СОСТАВ И СТРУКТУРА

3.3 Понятие информационно-правовой системы

Информационно-правовая система представляет собой систему, функционирование которой во времени заключается в сборе, хранении, обработке и распространении правовой информации о деятельности какого-то объекта реального мира.

Информационно-правовая  система включает следующие элементы:

  1. структура – множество элементов системы и взаимосвязей между ними; 

  2. входы и выходы – материальные потоки или потоки сообщений, поступающие в систему или выводимые ею. Каждый входной поток характеризуется набором параметров; 

  3. закон проведения системы – функция, связывающая изменения входа и выхода системы;

  4. цель и ограничения. Процесс функционирования системы описывается рядом переменных.Часть этих переменных (или одна переменная) должна поддерживаться в экстремальном значении (цель).

При решении любых задач с использованием ЭВМ требуется наличие ряда компонентов: 

  • исходной и нормативно-справочной информации; 

  • метода (алгоритма) решения задачи, записанного в виде программы, которая может быть выполнена на ЭВМ;

  • самой ЭВМ как исполнителя алгоритмов; 

  • пользователей, т. е. лиц, которые используют результаты решения задачи в своей профессиональной деятельности.

Для функционирования ИПС необходимы компоненты, аналогичные названным выше, но с более сложной организацией, вызванной многообразием действий, которые должна производить ИПС. 

Компоненты информационной системы – это база данных, концептуальная схема и информационный процессор, образующие вместе систему хранения и манипулирования данными. 

Среди известных свойств информационных систем рассмотрим следующие – относительность, делимость и целостность. 

Свойство относительности устанавливает, что состав элементов, взаимосвязей, входов, выходов, целей и ограничений зависит от целей исследователя. Реальный мир богаче системы. Поэтому от исследователя и его целей зависит, какие стороны реального мира и с какой полнотой будет охватывать система. При выделении системы некоторые элементы, взаимосвязи, входы и выходы не включаются в нее из-за слабого влияния на остающиеся элементы, из-за
наличия самостоятельных целей, плохо согласующихся с целью всей системы, и т. д. Они образуют внешнюю среду для рассматриваемой системы. 

Делимость означает, что систему можно представить состоящей из относительно самостоятельных частей – подсистем, каждая из которых может рассматриваться как система. Возможность выделения подсистем (декомпозиция системы) упрощает ее анализ, так как число взаимосвязей между подсистемами и внутри подсистем обычно меньше, чем число связей непосредственно между всеми элементами системы. Выделение подсистем проводит исследователь, и оно условно. 

Свойство целостности указывает на согласованность цели функционирования всей системы с целями функционирования ее подсистем и элементов. 

Надо также иметь в виду, что система, как правило, имеет больше свойств, чем составляющие ее элементы. Так, предприятие обладает юридической самостоятельностью, а его подразделения – нет. 

Информационная система создается для конкретного объекта действительности и должна в определенной мере копировать взаимосвязи элементов объекта. Например, задачи обработки данных обеспечивают обычно рутинную обработку и хранение экономической информации с целью выдачи (регулярной или по запросам) сводной информации, которая может потребоваться для управления объектом; автоматизация конторских работ предполагает наличие в ИПС системы ведения картотек, системы обработки текстовой информации, системы машинной графики, системы электронной почты и связи. Поисковые задачи имеют свою специфику, и информационный поиск представляет собой интегральную задачу, которая рассматривается независимо от экономики или иных сфер использования найденной информации. 

Существуют следующие принципы построения и функционирования ИПС: 

1)     соответствие. ИПС должна обеспечивать функционирование объекта с заданной эффективностью. Критерий эффективности должен быть количественным; 

2)     экономичность. Затраты на обработку информации в ИПС должны быть меньше экономического выигрыша на объекте при использовании этой информации; 

3)     регламентность. Большая часть информации в ИПС поступает и обрабатывается по расписанию, со строгой периодичностью; 

4)     самоконтроль. Непрерывная работа ИПС по обнаружению и исправлению ошибок в данных и процессах их обработки;