ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 07.11.2023
Просмотров: 493
Скачиваний: 23
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
6.3. Установление значений синтаксем в безглагольных предложениях 281
(или наоборот) рассматриваемой синтаксемы, то после примене- ния операции вычисления сходства, положение признака стано- вится не важным.
Пусть PPS — множество предлогов русского языка, PPS = {в, над,
под, ...} (всего 102 предлога). CAS — множество падежей русско- го языка, CAS = {именительный, родительный, дательный, вини- тельный, творительный, предложный}. CAS* — множество непустых подмножеств множества CAS
1
). Множество категориально-семанти- ческих классов KSC содержит следующие элементы: KSC = {лич- ное, предметное, признаковое, пространственное, темпоративное, пара- метр_измерения, единица_измерения}. Множество PST = {до, после,
не важно} — множество позиций, множество POS = {числительное,
прилагательное в сравнительной степени} — множество частей речи.
Как для множеств элементарных признаков, так и для составных вычислялось сходство.
Остановимся более подробно на этой процедуре для составных признаков. Составной признак состоит из нескольких признаков, но рассматривается как один признак. В составной признак могут вхо- дить другие составные признаки. Например, морфологическая форма синтаксемы — это неделимая тройка hпредлог, падеж, категориальный классi, каждая компонента которой сама по себе не самостоятель- на и в отдельности не имеет смысла. Кроме того, каждый признак,
описывающий окружение синтаксемы, имеет метку, указывающую на позицию соответствующего элемента предложения относительно рас- сматриваемой синтаксемы.
Для однотипных составных признаков операцию вычисления сход- ства разумно определить как поэлементное применение операции вы- числения сходства для компонентов составных признаков, но с некото- рыми условиями, например: если число признаков в сходстве двух со-
ставных признаков одного типа меньше числа признаков составля-
ющего каждый из них, то сходство считается пустым признаком.
Такая операция вычисления сходства подчеркивает идею составного признака, компоненты которого не значимы в отдельности. Некоторый признак составного признака может сам оказаться составным призна- ком, и тогда операция вычисления сходства выполняется рекурсивно для всех его составляющих.
Множество синтаксем SYN представляет собой тройки hpps, cas*,
ksci, где pps ∈ PPS, cas* ∈ CAS*, ksc ∈ KSC. Множество синтаксем в позиции SYNPST представляет собой пары hsyn, psti, где syn ∈ SYN,
1
) Лингвистический анализатор не всегда точно разрешает падежную неод- нозначность, поэтому приходится учитывать все выдаваемые им для слова падежи.
282
Гл. 6. Приобретение знаний и анализ текстов
pst ∈ PST. Множество частей речи в позиции POSPST состоит из пар hpos, psti, где pos ∈ POS, pst ∈ PST. Зададим операции вычисления сходства:
1. ∀syn’ ∈ SYN, ∀syn” ∈ SYN, syn
′
∩
A
syn
′′
=
=
hpps
′
∩
A
pps
′′
, cas
∗′
∩
A
cas
∗′′
, ksc
′
∩
A
ksc
′′
i, если
(pps
′
∩
A
pps
′′
6= a
∅
) ∧ (cas
∗
′
′
∩
A
cas
∗′′
6= a
∅
) ∧ (ksc
′
∩
A
ksc
′′
6= a
∅
);
a
∅
, иначе;
(6.1)
2. ∀synpst
′
∈ SYNPST, ∀synpst
′′
∈ SYNPST, synpst
′
∩
A
synpst
′′
=
=
(
hsyn
′
∩
A
syn
′′
, pst
′
∩
A
pst
′′
i, если syn
′
∩
A
syn
′′
6= a
∅
;
a
∅
, иначе;
(6.2)
3. ∀pospst
′
∈ POSPST, ∀pospst
′′
∈ POSPST, pospst
′
∩
A
pospst
′′
=
=
(
hpos
′
∩
A
pos
′′
, pst
′
∩
A
pst
′′
i, если pos
′
∩
A
pos
′′
6= a
∅
;
a
∅
, иначе.
(6.3)
Синтаксема с контекстом характеризуется, прежде всего, своими мор- фологическими признаками, а также окружающими ее элементами предложения — другими синтаксемами и словами определенных частей речи. Значение синтаксемы в контексте зависит от собственных мор- фологических признаков и от характеристик окружающих элементов,
но сам по себе контекст не влияет на значение синтаксемы.
Сходство «синтаксем в контексте» определяется на основе следую- щих принципов:
• при нахождении сходства двух «синтаксем в контексте» в первую очередь находим сходство признаков, описывающих морфологи- ческие характеристики самой синтаксемы;
• если сходство морфологических форм у синтаксем пусто, то сход- ство контекстов не ищется и возвращается пустой объект;
• если сходство признаков, описывающих синтаксемы, не пусто, то возвращается сходство синтаксем и контекстов.
Синтаксема описывается одним составным признаком типа «синтак- сема». Контекст синтаксемы описывается признаками типа «синтаксема в позиции» и «часть речи в позиции».
Сходство двух синтаксем с контекстом вычисляется как поэле- ментное выполнение операции вычисления сходства для однотипных признаков и является в некотором смысле пересечением множеств признаков объектов. Результатом операции вычисления сходства двух синтаксем в контексте является характеристика сходства синтаксем
6.3. Установление значений синтаксем в безглагольных предложениях 283
в контексте, т. е. множество признаков, каждый их которых выводится из признаков каждой из синтаксем. Сходство множества синтаксем в контексте определяется как поэлементное выполнение операции вы- числения сходства для всех элементов множества.
6.3.2. Обнаружение правил установления значений синтаксем.
Обнаружение правил установления значений синтаксем на множестве примеров заключается в поиске посылок, для чего выполняется опера- ция вычисления сходства синтаксем в контексте, находятся максималь- ные характеристики сходства множества синтаксем в контексте из двух и более элементов. Результатом операции вычисления сходства син- таксем является множество фрагментов, каждый из которых является наиболее общей частью для максимального подмножества примеров,
и не вложен ни в какой другой фрагмент, полученный в результате выполнения данной операции сходства на данном множестве объектов.
Общая схема алгоритма обнаружения правил основывается на алгоритме нахождения минимальных пересечений множества объек- тов [135]:
Шаг А. Предварительно все синтаксемы разбиваются на множества синтаксем, имеющих одинаковые значения. Далее для каждой синтак- семы определяются ее морфологически признаки и устанавливаются признаки контекста. Строятся объекты «синтаксема в контексте». Да- лее каждое множество объектов-синтаксем в контексте обрабатывается по следующему алгоритму:
Шаг А.1. Выбирается первый не пустой объект, он считается теку- щим.
Шаг А.2. Берется другой объект и находится характеристика сходства его с текущим объектом. Если характеристика сходства — пустой объект, то происходит переход к другому объекту, если характе- ристика сходства не пуста, применяется операция сходства для нее и следующего объекта и так далее, пока не просмотрено все множество объектов.
Шаг А.3. Запоминается найденная характеристика сходства и объекты первоначального множества, в которые она вложена. Из объек- тов, в которые вложена характеристика сходства, вычитаются признаки, формирующие эту характеристику сходства. Процедура повторяется с шага 1, пока находятся непустые характеристики сходства.
Шаг А.4. Для каждой полученной характеристики сходства выполня- ется операция сходства для объектов из первоначального множе- ства, в которые вложена данная характеристика сходства. Если полученный результат совпадает с данной характеристикой сход- ства, то данная характеристика сходства добавляется в правило
284
Гл. 6. Приобретение знаний и анализ текстов
в качестве посылки. Следствием этого правила является значение синтаксем текущего множества.
Шаг Б. После того, как обработаны все множества объектов-син- таксем в контексте с одинаковыми значениями, для каждого полученного правила проверяется, не вложена ли его посылка в какую-либо посылку правил для установления другого значе- ния. Если вложенности нет, то правило помещается в конечное множество правил, если вложенность есть, то правило помещает- ся в множество конфликтных правил.
Шаг А.4 необходим для исключения локальных сходств объектов с удаленными на шаге А.3 признаками, так как иногда они могут образовывать лишь частичное сходство.
Например, пусть имеется следующее множество объектов: a =
= {1, 2, 3}, b = {1, 3, 4}, c = {1, 5, 6}. В первом цикле алгоритма будет найдена характеристика сходства s = {1}. После удаления призна- ков, образующих характеристику сходства, получится новое множество объектов: a
′
= {2, 3}, b
′
= {3, 4}, c
′
= {5, 6}. На втором цикле алгорит- ма на шаге А2 будет найдена новая характеристика сходства s
′
= {3},
образованная объектами a
′
и b
′
. Но на шаге А.4 при вычислении характеристик сходства первоначальных объектов результатом будет характеристика сходства s∗ = {1, 3}, поэтому s
′
не войдет в конечное множество гипотез согласно условию шага А.4, так как s∗ 6= s
′
Приведем в качестве примеров некоторые из правил, полученных таким образом для синтаксем родительного падежа:
Правило 1. Если встречается синтаксема в падеже hродительныйi с предлогом hдляi, имеющая категориальный класс hличноеi, а до нее встречается синтаксема в падеже hименительныйi, имеющая категориальный класс hпредметноеi, то полагается, что первая синтаксема имеет значение hдестинативi.
Правило 2. Если встречается синтаксема в падеже hродительныйi с
предлогом hиз,
изоi,
имеющая категориальный класс hлокативноеi, а рядом с ней встречается синтаксема в падеже hименительныйi, имеющая категориальный класс hличноеi, то полагается, что первая синтаксема имеет значение hаблативi.
Для задач реляционно-ситуационного анализа используется около
600 таких правил, полученных в работе [133].
6.4. Установление отношений на множестве синтаксем
Значение предложения определяется не только множеством син- таксем предложения и их значений, но отношениями на множестве синтаксем. Это же важно и для понимания предложения. Поэтому,
6.4. Установление отношений на множестве синтаксем
285
наряду с идеями коммуникативной грамматики, далее будет эксплуа- тироваться следующая гипотеза:
значение предложения определяется совокупностью значений вхо-
дящих в него синтаксем и семейством отношений на них.
Таким образом, основная задача реляционно-ситуационного анали- за заключается в выявлении значений синтаксем и семантических свя- зей между ними. Главное место здесь занимают глаголы, имеющие, как правило, центральное положение в семантической структуре предло- жения и оказывающие решающее влияние на именные словосочетания предложения.
После того, как установлены значения синтаксем, входящих в вы- сказывание, определяются отношения, которым принадлежат те или иные пары значений; далее пары синтаксем помещаются в то отно- шение, тип которого задается парой их значений, т. е. выполняется замыкание — пополнение отношений новыми элементами — парами синтаксем.
Приведем список некоторых типов отношений на множествах зна- чений синтаксем и их неформальные определения:
1. ABL — аблативное отношение, в котором один компонент обозна- чает исходную точку движения, направление второго компонента
(Президент пошел с трибуны в зал).
2. ABS — абстинативное отношение, в котором один компонент обозначает ситуацию или реже предмет, вызывающий определен- ное (чаще негативное) эмоциональное или модальное отноше- ние лица, названного другим компонентом (Депутаты боятся
лишения своих полномочий).
3. ADR — адресатное отношение, один компонент которого называ- ет лицо или реже предмет, к которому обращено информативное,
донативное или эмотивное действие лица, названного другим компонентом (Пушкин посвятил стихотворение «Я помню чуд-
ное мгновенье» А. П. Керн).
4. CAUS — каузальное отношение, один компонент которого обо- значает причину проявления другого компонента спустя какое-то время (Казнокрадство приводит к обнищанию населения).
5. COM — комитативное отношение, один компонент которого обо- значает сопровождающее другой компонент действие, сопутству- ющий предмет, сопровождающее лицо (Президент встретился
с коллегой в своей загородной резиденции).
6. COR — коррелятивное отношение, один компонент которого вы- ражает возможность наблюдения другого компонента или соот- ветствия предмета другому предмету, назначению (Возместить
потери в соответствии с законодательством).
286
Гл. 6. Приобретение знаний и анализ текстов
7. DES — дестинативное отношение, один компонент которого обо- значает назначение для другого компонента (обратить доходы
на повышение производства).
8. DIS — дистрибутивное отношение, выражающая дистрибутивные отношения между компонентами (распределить все документы
по папкам).
9. DIR — директивное отношение, в котором один компонент обо- значает путь, направление второго компонента (В. В. Путин по-
ехал в США).
10. DLB — делиберативное отношение, один компонент которого выражает содержание речемыслительного, социального действия или восприятия лица, названного другим компонентом (Мы до-
говорились о встрече).
11. DST — деструктивное отношение, один компонент которого при- водит к разрушению, нарушает целостность, прежнее состо- яние другого компонента (Американская авиация разбомбила
Багдад).
12. EQ — эквивалентное отношение, выражающее отношение экви- валентности первого и второго компонентов в некотором аспекте
(Путин являлся президентом России).
13. FAB — фабрикативное отношение, один компонент которого на- зывает материал, из которого сделан, изготовлен другой компо- нент (зубы из золота).
14. GEN — генеративное отношение, один компонент которого обо- значает лицо или предмет, принадлежащий некоторого совокуп- ности, категории, обозначаемой вторым компонентом (Бельгия
относится к промышленно развитым странам).
15. INS — инструментальное отношение, один компонент которого обозначает орудие действия, обозначаемого другим компонентом
(диктовать письмо по телефону).
16. LIM — лимитативное отношение, один компонент которого обозначает сферу применения, назначения другого компонента
(Президент действует в пределах своих полномочий).
17. LOC — локативное отношение, один компонент которого назы- вает местонахождение другого компонента (В Париже с успехом прошли гастроли Большого театра).
18. LIQ — ликвидативное отношение, один компонент которого лик- видирует, запрещает, отменяет второй компонент (Парламент
денонсировал подписанный 2 года назад договор).
19. MED — медиативное отношение, один компонент которого имеет значение способа, средства действия другого (Президенты двух
стран регулярно общаются по телефону).
6.4. Установление отношений на множестве синтаксем
287 20. NEG — негативное отношение, один компонент которого отрица- ет, исключает возможность проявления другого компонента (Мэр
запретил проведение митинга протеста).
21. OBJ — объектное отношение, один компонент которого называет объект действия субъекта, названного другим компонентом (Он
наконец-то построил дом в деревне).
22. PAR — партитивное отношение, один компонент которого обо- значает часть (части) целого, названного другим компонентом
(разбить вазу на кусочки; солдата ранило в руку).
23. POS — посессивное отношение, один компонент которого вы- ражает отношение владения другим компонентом (Абрамовичу
принадлежит ф/клуб «Челси»).
24. POT — потенсивное отношение, в которого один компонент приводит к увеличению возможности появления другого спустя некоторое время (Начавшееся наводнение грозит затоплением
прибрежных районов).
25. QLТ — квалитативное отношение, в котором один компонент вы- ражает свойство, качество второго компонента (Парламентарии
с нетерпением ожидают прихода премьер-министра).
26. QNT — квантитативное отношение, один компонент которо- го называет количественный показатель изменения или соот- ношения признаков другого компонента (поднять зарплату
на 20 процентов).
27. SIT — ситуативное отношение, в котором один компонент обозна- чает ситуацию, определяющую ситуацию или область действия другого компонента (На съезде партийцы утвердили список
кандидатов в Думу).
28. SUR — сурсивное отношение, один компонент которого указы- вает на источник информации, содержащейся во втором ком- поненте (Президент узнал о случившемся от главы своей
администрации).
29. TRA — транзитивное отношение, в которого один компонент обозначает маршрут, трассу движения другого (Старик идет
по дороге).
30. TRG — трансгрессивное отношение, в которого один компонент обозначает результат превращения второго (Старинная грамота
рассыпалась в пыль от одного только прикосновения).
31. TMP — темпоральное отношение, в котором один компонент выражает временную локализацию признака, названного другим компонентом (Утром был туман).
Описанный здесь метод анализа текста использован в ряде при- кладных систем, в частности, в системах семантического поиска [136].