ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 29.11.2023
Просмотров: 121
Скачиваний: 2
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
Системный анализ и принятие решений Макаров Л.М.
59 чи информации с помощью компьютерных систем. Применяемые в информатике формальные преобразования информации ориентированы на извлечение семантической основы. Именно по- этому формальные модельные исследования сигналов и текстов основываются на известных статистических законах.
Процесс применения методов математики и информатики заключается в построении ма- тематической и информационной моделей исследуемой предметной области, проведении ком- пьютерной обработки этих моделей и последующей содержательной интерпретации получен- ных результатов. Использование этого подхода начинается с формирования содержательной модели, формулируемой в вербальной форме или в смешанном вербально-визуальном пред- ставлении. Обращение к такой модели происходит всегда, когда возникает необходимость по- лучить или извлечь некоторую информацию из текстового массива. Часто создание содержа- тельной модели предшествует операции поиска, например, средствами традиционных поиско- вых систем Интернет. Рассмотрим основные составляющие процесса перехода от содержатель- ной к информационной модели (рис. 4.1).
Выделим набор терминов - запись, правила, алфавит, который отождествляет семанти- ческую конструкцию (СК). Кроме этого в выделенной конструкции укажем пару терминов - правила и алфавит, которые характеризуют язык записи. Под СК будем понимать некоторую запись, выполненную на каком-либо физическом носителе, реализованную в рамках некоторых правил, являющуюся упорядоченной последовательностью элементов избранного алфавита. В результате работы с СК происходит либо редуцирование исходного текстового массива, либо исполняется процедура бустинга.
Рис. 4.1. Схема математического и информационного моделирования
Рис. 4.2. Схема информационного моделирования
Системный анализ и принятие решений Макаров Л.М.
60
Понятие бустинга сформировалось в области компьютерных технологий ориентирован- ных на добычу знаний и связано с генерацией моделей обработки данных. В рамках таких мо- делей постулируется возможность организации добычи данных в соответствии с запросом.
Термин «предсказывающая добыча данных» обычно применяется для обозначения проектов добычи данных, цель которых состоит в определении статистической модели или модели нейронных сетей или набора таких моделей, которые могут быть использованы для предсказа- ния некоторых интересующих откликов – реплик модели.
Обсуждение возможности воспроизведения моделей обработки данных, в частности, для задач извлечения знаний, начнем с перечисления некоторых характеристических параметров базы знаний. Эти параметры представим в следующей последовательности:
•
Структурированность. Знания должны быть классифицированы.
•
Удобство доступа и усвоения. Для человека - это способность быстро понять и запом- нить или, наоборот, вспомнить в прошлом известные факты. Для компьютерной базы знаний - средства доступа, средства организации поиска, наличие аннотаций и индексов документов.
•
Лаконичность. Лаконичность позволяет быстро осваивать и перерабатывать знания и повышает «коэффициент полезного использования».
•
Непротиворечивость. «Хорошие» данные/знания не должны противоречить друг другу, что очевидно или по крайней мере желательно. Однако для многих областей сбора знаний это изначально не так - на вход хранилища знаний может поступать разноречивая информация. За- дача собирателя знаний обнаружить противоречия и разрешить их на этапе сбора знаний либо присвоить разным элементам данных различную оценку достоверности.
•
Оценка достоверности. Безусловно, усваивая или используя знания, хочется знать, насколько они достоверны. Хорошее хранилище знаний должно иметь такую оценку для своих элементов.
•
Процедуры обработки. Знания нужны для того, чтобы их использовать - строить новые знания. Для этого должны существовать процедуры обработки знаний. Способность делать вы- воды означает для машины наличие процедур обработки и вывода и подготовленность струк- тур данных для такой обработки.
Отличия процедур извлечения знаний человека и машины в настоящее время определя- ется не только большим числом используемых правил продукции в процессе обобщения и ло- гического вывода, более эффективной реализацией этих процедур, но также и в наличии у че- ловека функций самообучения, то есть автоматического формирования новых правил логиче- ского вывода.
Системный анализ и принятие решений Макаров Л.М.
61
Поиск - это простейший способ доступа к текстовым данным, и все же это ближе к про- цедуре подбора информации, чем к процедуре извлечения знаний. Типичная поисковая машина умеет найти по запросу из нескольких слов все документы, в которые данные слова входят и предъявить их пользователю.
Этой простой возможности при росте объемов текстовых баз становится совершенно не- достаточно, и в последнее время поисковые машины начинают оснащаться средствами извле- чения знаний. В первую очередь новшества появляются в поисковых машинахИнтернет, а за- тем постепенно проникают в средства поиска, входящие в корпоративные системы документо- оборота. Рассмотрим некоторые из этих новшеств.
Итеративный поиск: функция «найти похожие». Данная возможность позволяет посте- пенно уточнить запрос: указать на один или несколько найденных документов и попросить найти документы, повествующие «о том же». Выполняется такой поиск путем превращения до- кумента в поисковый запрос (естественно, с определенной степенью «сжатия», так как запрос слишком большим быть не может). В Internet данная функция заявлена, например, поисковыми машинами AltaVista, HotBot, из российских - «Яндексом» (www.yandex.ru) и «Рамблером»
(www.rambler.ru).
Существует процедура поиска по выборке. Если по первому запросу поисковая машина нашла слишком много документов, то второй запрос с заданием дополнительных терминов можно провести только по ним, и тем самым уточнить поиск. Эта функция очень проста в ис- полнении и реализована в большинстве популярных машин Интернет, включая российские
«Яндекс» и «Рамблер».
Запрос на естественном языке – очень распространенная процедура. В отличие от фор- мальных языков запросов с логическими операторами, запрос на естественном языке позволяет пользователю просто задать поисковой машине вопрос в свободной форме. Эта процедура реа- лизуется во всех поисковых системах.
Тезаурусы (словари) служат для так называемого расширения запроса и включают сино- нимы, антонимы, родственные слова, «вышестоящие» и «нижестоящие» категории и понятия.
Хотя использование тезауруса позволяет сделать поиск по-настоящему смысловым, пока боль- шинство поисковых машин тезауруса не имеют. По всей видимости, организация такого поиска требует создания сложных алгоритмов и развитого тезауруса.
Все выше перечисленные функции основаны на статистике и морфологическом анализе текста. Реализация принципиально новых функциональных возможностей поисковых систем и повышение их интеллектуальности требует использования полного лингвистического анализа текстов. Первые шаги в этом направлении сделаны в системе AskNet,где реализован полный лингвистический анализ русских и англоязычных текстов.
Системный анализ и принятие решений Макаров Л.М.
62
1 2 3 4 5 6 7 8
4.3 Статистические основы обработки тестового документа
Полагаем, что задан текст, представленный набором слов, составленных определенным способом из ограниченного набора букв. Выберем любое слово и посчитаем, сколько раз оно встречается в тексте. Эта величина называется частотой вхождения слова в исследуемый текст.
Очевидно, что можно оценить количественно частоту обнаружения каждого слова в тексте. Не- которые слова будут иметь одинаковую частоту, а другие, напротив будут иметь различные значения частот. Эти наблюдения показывают возможность использования статистических ме- тодов анализа текста. Создадим группы слов с равными значениями частот. Расположим часто- ты по мере их убывания и пронумеруем. Порядковый номер частоты определим в качестве ран- га частоты. Так, например, наиболее часто встречающиеся слова будут иметь ранг 1, а следую- щие за ними слова индексируются рангами: 2, 3 и т.д. Следуя этим представлениям, положим, что вероятность обнаружения слова в тексте определяется отношением частоты вхождения слова в текст к общему количеству слов. где f i
– частота вхождения слова в текст, N – количество слов в тексте.
Можно отметить, что если умножить вероятность обнаружения слова в тексте на ранг частоты, то получившаяся величина (С) приблизительно постоянна для всего многообразия текстов одного и того же естественного языка. где R – ранг частоты
Исследования большого количества текстов, которое принято называть корпусом, пока- зывают, что частота и количество слов, входящих в текст с этой частотой, тоже связаны между собой. Если построить график, отложив по одной оси (оси Х) частоту вхождения слова, а по другой (оси Y) - количество слов соответствующих данной частоте, то получившаяся кривая
N
f
P
i
=
N
R
i f
C =
Системный анализ и принятие решений Макаров Л.М.
63 будет сохранять свои параметры для всех без исключения текстов. Установленная закономер- ность, обнаружена Д. Зипфом, позволяет создавать серию статистических оценок, связанных с семантическим содержанием документов. Исследования большого количества текстов показы- вают, что наиболее значимые слова лежат в определенной части диаграммы (рис. 4.3).
Рисунок 4.3 Семантика текстового документа
Это и понятно, поскольку такие слова задают основное смысловое поле текста. Слова, которые выделяются слишком часто, в основном оказываются предлогами и местоимениями.
Такие слова следует исключать из анализа. Используя представления, введенные при анализе сигналов, можно сказать, что такие элементы текста являются шумом. Пользуясь этим принци- пом, можно указать на слова индексируемые малыми значениями частот встречаемости в тек- сте, которые также могут быть исключены из рассмотрения.
Чтобы избавиться от лишних слов и в тоже время поднять рейтинг значимых слов, вво- дят инверсную частоту термина. Значение этого параметра тем меньше, чем чаще слово встре- чается в документах базы данных. Вычисляют его по формуле:
)
log(
F
i
N
N
=
Системный анализ и принятие решений Макаров Л.М.
64 где N – количество слов в корпусе документов, N
i
- количество встречаемости в тексте уста- новленного термина. В этом случае каждому термину можно присвоить весовой коэффициент w
i j
, отражающий его значимость: где w i j
– весовой коэффициент значимости термина i в тексте j; f i
j
– частота встречаемости термина в тексте; F
i
– инверсная частота термина.
Современные способы индексирования документов не ограничиваются анализом пере- численных параметров текста. Поисковая машина может строить весовые коэффициенты с уче- том местоположения термина внутри документа, взаимного расположения терминов, частей речи, морфологических особенностей и целого ряда других параметров.
В качестве терминов могут выступать не только отдельные слова, но и словосочетания.
Без этих законов сегодня не обходится ни одна система автоматического поиска информации в сети Интернет. Организация вычислительных процедур по отысканию необходимого информа- ционного ресурса осуществляется посредством статистических методов, учитывающих смыс- ловой характер документов.
4.4 Формирование коллекции текстовых документов
Анализ массива текстовых документов, проводимых человеком с целью создания груп- пы семантических схожих материалов, можно с уверенностью отнести к задаче эвристического поиска однородных групп. В такой задаче можно выделить отдельные процедуры, реализация которых требует проведения сравнения понятий терминов, а самом общем случае, сопоставле- ния слов из различных текстов.
Деятельность человека при работе с текстовыми документами, группами текстовых до- кументов, представленных в коллекции, трудно формализуется. Опыт и знания эксперта, без- условно, являются важными в решении этой задачи, но высокий уровень эвристик порождает для разных экспертов большой набор оценок.
Изначально полагаем, что текст состоит из слов, слова из букв. Количество различных букв в каждом языке ограничено и буквы, составляющие исходный алфавит, можно задать опе-
i
j
i
j
i
F
f
w =
Системный анализ и принятие решений Макаров Л.М.
65 рацией перечисления. Важными характеристиками текста являются повторяемость букв, пар букв (биграмм) и вообще m-грамм, сочетаемость букв друг с другом. Такое представление о тексте, как исходном материале анализа, позволяет в самом общем случае, фиксировать как от- дельные m – граммы букв, так и слов. Для достаточно больших текстовых массивов эти пред- ставления позволяют создавать статистические модели подобия. Рассмотрим типичную задачу формирования корпуса документов.
Полагаем наличие процедуры, посредством которой реализуется подсчет числа вхожде- ний каждой n m
возможных m-грамм в достаточно длинных открытых текстах T=t
1
,t
2
,…,t l
, со- ставленных из букв алфавита {a
1
, a
2
, ..., a n
}. При этом просматриваются подряд идущие m- граммы текста:
Если
)
(
2 1
im
i
i
a
a
a
– число появлений m-граммы a i1
a i2
...a im в тексте T, а L – общее число подсчитанных m-грамм, то при достаточно больших значениях параметра L име- ем:
Это означает, что частоты для избранной m-граммы мало отличаются друг от друга. В силу этого, относительную частоту считают приближением вероятности P (a i1
a i2
...a im
) появле- ния данной m-граммы в случайно выбранном месте текста. Указанная закономерность хорошо известна, например, для типичных букв русского алфавита. Имеется мнемоническое правило запоминания десяти наиболее частых букв русского алфавита. Эти буквы составляют слово
СЕНОВАЛИТР. Можно также предложить аналогичный способ запоминания частых букв ан- глийского языка, например с помощью слова TETRIS-HONDA.
Устойчивыми являются также частотные характеристики m – грамм текстов, представ- ленных из разных областей знаний. Неравномерность m –грамм, в том числе и таких которые представлены словами, тесно связана с характерной особенностью открытого текста – наличи- ем в нем большого числа повторений отдельных фрагментов текста: корней, окончаний, суф- фиксов, слов и фраз. Систематически вопрос о зависимости букв алфавита в открытом тексте от предыдущих букв исследовался А. А. Марковым (1856 – 1922). Он доказал, что появления букв в открытом тексте нельзя считать независимыми друг от друга. Современные исследования
l
t
m
l
m
l
m
m
t
t
t
t
t
t
t
2 1
1 3
2 2
1
,........,
,
t
+
−
+
−
+
const
L
a
a
a
im
i
i
=
)
(
2 1