ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 07.11.2023
Просмотров: 501
Скачиваний: 23
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
ПРИОБРЕТЕНИЕ ЗНАНИЙ И АНАЛИЗ ТЕКСТОВ
Введение
Извлечение из текста знаний предполагает выявление в тексте не только лингвистических, но и, в самом широком смысле этого слова,
логических отношений на языковых объектах. Выявлением таких отно- шений занимаются различные методы семантического анализа текста.
Таким образом, основой методов извлечения знаний из текста являются методы семантического анализа.
Достижения отечественной лингвистики в области семантики хоро- шо известны. Роль глобальной модели языка стала выполнять модель
«Смысл–Текст» И. А. Мельчука, А. К. Жолковского и Ю. Д. Апресяна
[127, 128]. Развитие работ в этом направлении дает полное основание говорить о существовании самостоятельного направления в семантике,
известного как Московская семантическая школа [129]. В западной,
главным образом, американской лингвистике семантика неразрывно связана с генеративной грамматикой и, в основном, изучает значения сложных категорий типа предложения. В этих исследованиях важную роль приобретает синтаксис, так как единицами интерпретации служат именно синтаксические категории. Иначе говоря, имеется ввиду, что значение сложного выражения представляется совокупностью значений его составных частей [128].
В лингвистике слову «семантика» соответствуют два близких, но различных понятия [122]. В первом случае под семантикой понимается значение — информация, связываемая со словом конвенционально (на- пример, в толковом словаре), во втором — совокупность ассоциаций и коннотаций, связываемых со словом в сознаниях коммуникантов. Хотя каждая из этих двух ипостасей с равным правом претендует на то,
чтобы быть предметом семантики, здесь мы зафиксируем понимание семантики в первом смысле.
Тогда основная цель излагаемых в параграфах 6.3 и 6.4 методов автоматического семантического анализа — переход от значений от- дельных, по возможности, минимальных синтаксических единиц к зна- чениям (или семантическим образам) высказываний, при этом значение высказывания, как мы увидим ниже, может быть не простой совокуп-
ностью значений его составных частей, а устроено более сложным образом.
256
Гл. 6. Приобретение знаний и анализ текстов
Опишем весьма кратко работы, оказавшие наиболее значительное влияние на развитие лингвистической семантики.
Работы Кембриджского лингвистического кружка. Первая по- пытка разработать язык представления семантики языка была предпри- нята, по-видимому, Кембриджским лингвистическим кружком. Участ- никами кружка был разработан язык-посредник, задачей котороо явля- лось отождествление семантической информации, независимо от языка ее выражения. Язык-посредник включал классификаторы имен элемен- тарных смыслов и правила построения из них формул. Классификаторы объединялись в шаблоны, каждый из которых представлял класс эле- ментарных ситуаций. Текст разбивался на фрагменты, каждый их ко- торых записывался формулой языка-посредника, затем во фрагментах выполнялся поиск шаблонов. В завершение этого процесса выполня- ется выбор наиболее предпочтительной последовательности шаблонов,
иначе говоря, снятие многозначности. Семантическое тождество тек- стов проверялось совпадением соответствующих им шаблонов.
Недостатком предложенного языка-посредника являлась общность ситуаций, описываемых шаблонами, его лексическая и семантическая бедность.
Трансформационная грамматика Хомского. Трансформационная грамматика Хомского [123] представляет собой механизм, порождаю- щий все грамматически правильные предложения языка. Целью такой грамматики является способность отличать грамматически правильные предложения от грамматически неправильных, причем под граммати- ческой правильностью не имелась ввиду «осмысленность» или «значи- мость» в каком бы то ни было семантическом понимании.
Трансформационная грамматика состоит из трех частей.
1. Уровень непосредственно составляющих представляет собой последовательность правил X → Y , каждое из которых означает «вме- сто X подставить Y », например:
Sentence
→ NP + VP,
NP
→ T + N,
VP
→ Verb + NP,
T
→ the,
N
→ man, ball и т. д.,
Verb
→ hit, took и т. д.
2. Трансформационный уровень состоит из следующих правил:
T
1
: Если S
1
и S
2
— грамматически правильные предложения и
S
1
отличается от S
2
только тем, что Y появляется в S
2
там, где X
появляется в S
1
, причем X и Y — суть составляющие одного типа, то
S
∗
— результат подстановки X и Y в S
1
вместо X — есть предложение.
Введение
257
T
2
: Если S — грамматически правильное предложение вида
N P
1
− Aux − V − N P
2
,
то цепочка вида
N P
2
− Aux + be + en − V − by − N P
1
является также грамматически правильным предложением.
T
3
:
(I) C → S в контексте NP
sing
,
C → ∅ в контексте N P
pl
,
C → past,
C → ing.
(II) Пусть Af есть любой из аффиксов past, S, ∅, en, ing. Обозначим через v любой из элементов M , V , have, be (т. е. любой неаффикс в группе Verb). Тогда
Af + v → v + Af #,
где символ # означает границу слова.
(III) Подставить # вместо + во всех случаях, за исключением контек- ста v — Af. Вставить # в начале и в конце цепочки.
3. Морфофонемный уровень устанавливает фонемную структуру морфем и состоит из правил следующего вида:
(I) walk → [w∂k],
(II) take + past → [tuk],
(III) past → [d],
(IV) take → [teyk] и т. д.
Построение предложения начинается с Sentence. Применяются пра- вила уровня непосредственных составляющих, строится терминальная цепочка, которая представляет собой последовательность морфем, рас- положенных не обязательно в правильном порядке. Затем применяется последовательность трансформаций, которые могут добавить морфемы и изменить их порядок. Затем применяются морфофонемные правила,
обращающие цепочку слов в последовательность фонем.
Дальнейшее развитие теории трансформационной грамматики при- вело к учету дополнительной семантической информации о словах, что позволило, в частности, решать следующие дополнительные задачи:
• запись с помощью семантических компонентов значения порож- даемых предложений;
• обнаружение семантических аномалий;
• установление отношения равнозначности между предложениями.
9 Г. С. Осипов
258
Гл. 6. Приобретение знаний и анализ текстов
Главным недостатком трансформационной грамматики является то,
что по своей природе она порождающая, т. е. подходит больше для синтеза предложений и текстов и менее применима при решении об- ратной задачи — автоматического семантического анализа текстов на естественных языках.
Формальная семантика Монтегю. Формальная семантика явля- ется результатом синтеза математической логики и лингвистики. Ее главный основатель, Ричард Монтегю [124], исходил из предположе- ния, что формальные и естественные языки существенным образом не различаются с теоретической точки зрения, поэтому он предпринял попытку разработки формального логического языка, который, по его мнению, может рассматриваться как фрагмент обычного английского языка.
За основу формальной семантики Монтегю взято исчисление пре- дикатов, расширенное интенсиональной логикой, включающей:
• лямбда-исчисление;
• расширенную структуру типов;
• типы функций, играющие важную роль в интенсиональной логике;
• структуры возможных миров и моментов времени.
Синтаксис интенсиональной логики. Синтаксическими категори- ями выражений интенсиональной логики служат типы.
Базовые типы.
• e (сущности);
• t (истинностные значения).
Функциональные типы. Если a, b — типы, то ha, bi — тоже тип
(тип функций из множества элементов типа a в множество элементов типа b.
Интенсиональные типы. Если a — тип, то hs, ai — тоже тип
(тип функций из множества возможных миров в множество элементов типа a).
Непосредственно сам синтаксис интенсиональной логики представ- ляет собой правила задания множества M e a
«осмысленных выражений типа a»:
1: Всякая константа типа a принадлежит M e a
2: Всякая переменная типа a принадлежит M e a
3: Если α ∈ M e a
и u — переменная типа b, то λu[α] ∈ M e
4: Если α ∈ M e
и β ∈ M e a
, то α(β) ∈ M e b
5: Если α, β ∈ M e a
, то (α = β) ∈ M e t
6: Если ϕ, ψ ∈ M e t
и u — переменная некоторого типа, то
¬ϕ, (ϕ & ψ), (ϕ ∨ ψ), (ϕ → ψ), (ϕ ↔ ψ), ∃uϕ, ∀uϕ, ϕ ∈ M e t
(ϕ означает «необходимо, что ϕ»).
Введение
259 7: Если α ∈ M e a
, то [
∧
α] ∈ M e
8: Если α ∈ M e
, то [
∨
α] ∈ M e a
Семантика интенсиональной логики. Модель интенсиональной логики представляет собой тройку hD, W , Ii, где D — множество сущностей, W — множество возможных миров, I — интерпретация.
Выражения типа a получают значения в множестве D
a
. Такие множе- ства задаются рекурсивно следующим образом:
D
e
= D;
D
t
= {0, 1};
D
= {f |f : D
a
=→ D
b
} (т. e. множество всех функций f из D
a в D
b
);
D
= {f |f : W → D
a
} (т. e. множество всех функций f из W в D
a
).
Интерпретация конструкций интенсиональной логики использует
(как в исчислении предикатов) множество G оценок g — функций из множества переменных всех типов в соответствующие множества значений.
Имеют место следующие семантические правила:
1: Если α — константа, то kαk
M,w,g
= I(α)(w).
2: Если α — переменная, то kαk
M,w,g
= g(α).
3: Если α ∈ M e a
и u — переменная типа b, то kλu[α]k
M,w,g обозна- чает функцию f типа b → a такую, что для любого элемента d типа b, f(d) = kϕk
M,w,g[d/u]
4: Если α∈M e
и β ∈M e a
, то kα(β)k
M,w,g
=kαk
M,w,g
(kβk
M,w,g
).
5: Если α, β ∈ M e a
, то k(α = β)k
M,w,g
= 1 тогда и только тогда,
когда kαk
M,w,g
= kβk
M,w,g
6: Если ϕ, ψ ∈ M e t
и u — переменная некоторого типа, то k¬ϕk
M,w,g
= 1 тогда и только тогда, когда kϕk
M,w,g
= 0.
k(ϕ & ψ)k
M,w,g
= 1 тогда и только тогда, когда kϕk
M,w,g
= 1 и kψk
M,w,g
= 1.
k(ϕ ∨ ψ)k
M,w,g
= 1 тогда и только тогда, когда kϕk
M,w,g
= 1 или kψk
M,w,g
= 1.
k(ϕ → ψ)k
M,w,g
= 1 тогда и только тогда, когда kϕk
M,w,g
= 0 или kψk
M,w,g
= 1.
k(ϕ ↔ ψ)k
M,w,g
= 1 тогда и только тогда, когда kϕk
M,w,g
=
= kψk
M,w,g
(∀u) : k∀uϕk
M,w,g
= 1, если для каждого d ∈ D имеет место kϕk
M,w,g[d/u]
= 1.
(∃u) : k∃uϕk
M,w,g
= 1, если существует элемент d ∈ D такой, что kϕk
M,w,g[d/u]
= 1.
7: Если α ∈ M e a
, то k[
∧
α]k
M,w,g обозначает функцию h типа hs, ai такую, что для любого w
′
из W имеет место h(w
′
) = kαk
M,w
′
,g
8: Если α ∈ M e
, то k[
∨
α]k
M,w,g
= kαk
M,w,g
(w).
9*
260
Гл. 6. Приобретение знаний и анализ текстов
Семантические падежи Филлмора. Ч. Филмор в 1966 г. [125, 126]
предложил предикатно–аргументный синтаксис, описывающий универ- сальные глубинные структуры языка и правила перевода глубинных структур в поверхностные, которые реализуются в каждом языке по- своему.
Ключевое место в подходе Филлмора занимает понятие падежа,
который выражает роль аргумента в предикате. Роль — элемент глу- бинной структуры, а падеж служит средством ее выражения.
Согласно Филлмору «смыслы падежей образуют набор универсаль- ных, возможно врожденных, понятий, идентифицирующих некоторые типы суждений, которые человек способен делать о событиях, происхо- дящих вокруг него,— суждений о вещах такого рода, как «кто сделал нечто», «с кем нечто случились», «что подверглось некоему измене- нию» ». В число падежей, представлявшихся необходимыми, входили:
• Агентив (A) — падеж обычно одушевленного инициатора дей- ствия, идентифицируемого с глаголом.
• Инструменталис (I) — падеж неодушевленной силы или пред- мета, который включен в действие или состояние, называемое глаголом, в качестве его причины.
• Датив (D) — падеж одушевленного существа, которое затраги- вается состоянием или действием, называемым глаголом.
• Фактитив (F ) — падеж предмета или существа, которое возни- кает в результате действия или состояния, называемого глаголом,
или которое понимается как часть значения глагола.
• Локатив (L) — падеж, которым характеризуется местоположение или пространственная ориентация действия или состояния, назы- ваемого глаголом.
• Объектив (O) — семантически наиболее нейтральный падеж,
падеж чего-либо, что может быть обозначено существительным,
роль которого в действии или состоянии, которое идентифи- цируется глаголом, определяется семантической интерпретацией самого глагола. Естественно, этот падеж бывает только у назва- ний вещей, которые затрагиваются состоянием или действием,
идентифицируемым глаголом. Объектив не надо путать ни с по- нятием прямого дополнения, ни с именем поверхностного падежа,
являющимся просто синонимом для аккузатива.
Между ролями и падежами нет взаимнооднозначного соответствия,
поэтому:
а) один падеж может выражать несколько ролей;
б) одна и та же роль может выражаться несколькими падежами.
Филлмор вводит понятие падежного фрейма, функция которого состоит в том, чтобы «перекинуть мостик между описаниями ситуаций и глубинными синтаксическими представлениями». Падежный фрейм
Введение
261
приписывает семантико-синтаксические роли конкретным участникам реальной или воображаемой ситуации, отображаемой предложением.
Подбор глагола для выражения ситуации зависит от конкретного набора падежей, падежного фрейма, представленного в данном предло- жении.
Например, глаголу «бежать» может соответствовать фрейм [A], гла- голу sad «(быть) грустным» — фрейм [D], глаголам типа remove «уби- вать» и open «открывать» — фрейм [O + A], глаголам типа murder «уби- вать» и terrorize «терроризировать» (т. е. глаголам, требующим «оду- шевленного субъекта» и «одушевленного объекта») — фрейм [D + A],
глаголам типа give «давать» — фрейм [O + D + A] и т. д.
Многие глаголы могут выступать в более чем одном определенном падежном окружении, например, глагол open «открывать» может вы- ступать и в контексте [O], как в предложении 1; и в контексте [O + A],
как в предложении 2; и в контексте [O + I], как в предложении 3;
и, наконец, в контексте [O + I + A], как в предложении 4:
(1) The door opened. Дверь открылась.
(2) John opened the door. Джон открыл дверь.
(3) The wind opened the door. Ветер открыл дверь.
(4) John opened the door with a chisel. Джон открыл дверь стамеской.
Сокращенные формулировки, называемые признаками, должны за- давать в словарных статьях глаголов множество падежных фреймов,
в которые может быть вставлен данный глагол. По мысли Филлмо- ра, словарь является одним из главных средств задания глубинных ролевых структур и правил перевода их в поверхностные структуры.
В связи с этим он предлагает существенно расширить объем информа- ции, помещаемой в словарь для глаголов и изменить форму ее подачи.
Ниже с некоторыми упрощениями приведен пример разработанной
Филлмором словарной статьи:
Blame 1. «осуждать»: — Речь (т. е. blame — не глагол речи)
аргументы: X, Y , Z
падежи (роли): Источник и Пациенс, Адресат, Объект
Предлоги: by, on, for (by — предлог X в пассивной конструкции; on — предлог Y в конструкции blame something on somebody; for — предлог Z
в конструкции blame somebody for something)
Предложенные Филлмором падежные фреймы достаточно просто формализуют семантику описываемых предложением ситуаций, что позволяет легко реализовать сравнение рамок двух предложений в хо- де семантического поиска. Основной задачей в ходе семантического анализа текста является определение падежных фреймов, соответству- ющих предложениям, и здесь остается открытым вопрос о достаточно
262
Гл. 6. Приобретение знаний и анализ текстов
точном методе установления ролей в ходе автоматического анализа текста (см. выше о неоднозначном соответствии падежей и ролей),
тем более, что в разных языках категория падежа реализуется по- своему. Даже если будет создан полный и подробный словарь гла- голов, описывающий их предикатно-аргументные структуры, остается ряд нетривиальных задач, таких как, например, разрешение падежной многозначности в русском языке и прочих.
Семантические исследования Филлмора оказали большое влияние на развитие методов компьютерного семантического анализа текстов на естественных языках.
Модель «Смысл-Текст». Важной вехой в исследовании семантики естественного языка явилась модель «Смысл-Текст». Основанием этой теории служат излагаемые ниже положения [127, 128].
1. Синонимия языковых выражений возникает не только за счет лексических синонимов в собственном смысле слова, но и за счет многих других средств языка. Лексически различные единицы могут быть
1) синтаксическими вариантами выражения одного и того же значе- ния, например, Выдвигая проект, Англия поставила условие =
Когда Англия выдвигала проект, она поставила условие = При
выдвижении проекта Англия поставила условие;
2) лексически обусловленными вариантами выражения одного и того же значения, например, оказывать {влияние}, но производить
{впечатление};
3) словами, по-разному ориентирующими описываемую ситуацию относительно ее участников, например A имеет B = B принад-
лежит
A, A несмотря на B = B, однако A;
4) некоторыми типами производных, в том числе супплетивных,
например, A принадлежит B = A — владелец B = B — соб-
ственность
A.
Для того чтобы точно описать существо и меру всех семантических сходств и тождеств лексически различных слов, был предложен спе- циальный язык — язык семантических множителей. Под множителями понимались элементарные смыслы, различные комбинации которых со- ответствуют сложным лексическим значениям слов естественного язы- ка (взять = «сделать так, чтобы иметь самому», дать — «сделать так,
чтобы имел другой», получить = «быть объектом действия «дать»»,
сохранить = «не перестать иметь» и т. д.). Перечисленные средства позволяют изображать в явном виде (сведением к одной и той же семантической записи) синонимичность внешне очень различных пред- ложений естественного языка. Язык множителей позволял по-новому определить понятие значения, под которым понимается семантиче-
Введение
263
ский инвариант множества преобразуемых друг в друга предложений,
и давал основание думать, что путем последовательного разложения сложных значений на более элементарные компоненты можно получить ограниченное число более или менее универсальных значений, годных для описания семантики любых естественных языков.
Введение
Извлечение из текста знаний предполагает выявление в тексте не только лингвистических, но и, в самом широком смысле этого слова,
логических отношений на языковых объектах. Выявлением таких отно- шений занимаются различные методы семантического анализа текста.
Таким образом, основой методов извлечения знаний из текста являются методы семантического анализа.
Достижения отечественной лингвистики в области семантики хоро- шо известны. Роль глобальной модели языка стала выполнять модель
«Смысл–Текст» И. А. Мельчука, А. К. Жолковского и Ю. Д. Апресяна
[127, 128]. Развитие работ в этом направлении дает полное основание говорить о существовании самостоятельного направления в семантике,
известного как Московская семантическая школа [129]. В западной,
главным образом, американской лингвистике семантика неразрывно связана с генеративной грамматикой и, в основном, изучает значения сложных категорий типа предложения. В этих исследованиях важную роль приобретает синтаксис, так как единицами интерпретации служат именно синтаксические категории. Иначе говоря, имеется ввиду, что значение сложного выражения представляется совокупностью значений его составных частей [128].
В лингвистике слову «семантика» соответствуют два близких, но различных понятия [122]. В первом случае под семантикой понимается значение — информация, связываемая со словом конвенционально (на- пример, в толковом словаре), во втором — совокупность ассоциаций и коннотаций, связываемых со словом в сознаниях коммуникантов. Хотя каждая из этих двух ипостасей с равным правом претендует на то,
чтобы быть предметом семантики, здесь мы зафиксируем понимание семантики в первом смысле.
Тогда основная цель излагаемых в параграфах 6.3 и 6.4 методов автоматического семантического анализа — переход от значений от- дельных, по возможности, минимальных синтаксических единиц к зна- чениям (или семантическим образам) высказываний, при этом значение высказывания, как мы увидим ниже, может быть не простой совокуп-
ностью значений его составных частей, а устроено более сложным образом.
256
Гл. 6. Приобретение знаний и анализ текстов
Опишем весьма кратко работы, оказавшие наиболее значительное влияние на развитие лингвистической семантики.
Работы Кембриджского лингвистического кружка. Первая по- пытка разработать язык представления семантики языка была предпри- нята, по-видимому, Кембриджским лингвистическим кружком. Участ- никами кружка был разработан язык-посредник, задачей котороо явля- лось отождествление семантической информации, независимо от языка ее выражения. Язык-посредник включал классификаторы имен элемен- тарных смыслов и правила построения из них формул. Классификаторы объединялись в шаблоны, каждый из которых представлял класс эле- ментарных ситуаций. Текст разбивался на фрагменты, каждый их ко- торых записывался формулой языка-посредника, затем во фрагментах выполнялся поиск шаблонов. В завершение этого процесса выполня- ется выбор наиболее предпочтительной последовательности шаблонов,
иначе говоря, снятие многозначности. Семантическое тождество тек- стов проверялось совпадением соответствующих им шаблонов.
Недостатком предложенного языка-посредника являлась общность ситуаций, описываемых шаблонами, его лексическая и семантическая бедность.
Трансформационная грамматика Хомского. Трансформационная грамматика Хомского [123] представляет собой механизм, порождаю- щий все грамматически правильные предложения языка. Целью такой грамматики является способность отличать грамматически правильные предложения от грамматически неправильных, причем под граммати- ческой правильностью не имелась ввиду «осмысленность» или «значи- мость» в каком бы то ни было семантическом понимании.
Трансформационная грамматика состоит из трех частей.
1. Уровень непосредственно составляющих представляет собой последовательность правил X → Y , каждое из которых означает «вме- сто X подставить Y », например:
Sentence
→ NP + VP,
NP
→ T + N,
VP
→ Verb + NP,
T
→ the,
N
→ man, ball и т. д.,
Verb
→ hit, took и т. д.
2. Трансформационный уровень состоит из следующих правил:
T
1
: Если S
1
и S
2
— грамматически правильные предложения и
S
1
отличается от S
2
только тем, что Y появляется в S
2
там, где X
появляется в S
1
, причем X и Y — суть составляющие одного типа, то
S
∗
— результат подстановки X и Y в S
1
вместо X — есть предложение.
Введение
257
T
2
: Если S — грамматически правильное предложение вида
N P
1
− Aux − V − N P
2
,
то цепочка вида
N P
2
− Aux + be + en − V − by − N P
1
является также грамматически правильным предложением.
T
3
:
(I) C → S в контексте NP
sing
,
C → ∅ в контексте N P
pl
,
C → past,
C → ing.
(II) Пусть Af есть любой из аффиксов past, S, ∅, en, ing. Обозначим через v любой из элементов M , V , have, be (т. е. любой неаффикс в группе Verb). Тогда
Af + v → v + Af #,
где символ # означает границу слова.
(III) Подставить # вместо + во всех случаях, за исключением контек- ста v — Af. Вставить # в начале и в конце цепочки.
3. Морфофонемный уровень устанавливает фонемную структуру морфем и состоит из правил следующего вида:
(I) walk → [w∂k],
(II) take + past → [tuk],
(III) past → [d],
(IV) take → [teyk] и т. д.
Построение предложения начинается с Sentence. Применяются пра- вила уровня непосредственных составляющих, строится терминальная цепочка, которая представляет собой последовательность морфем, рас- положенных не обязательно в правильном порядке. Затем применяется последовательность трансформаций, которые могут добавить морфемы и изменить их порядок. Затем применяются морфофонемные правила,
обращающие цепочку слов в последовательность фонем.
Дальнейшее развитие теории трансформационной грамматики при- вело к учету дополнительной семантической информации о словах, что позволило, в частности, решать следующие дополнительные задачи:
• запись с помощью семантических компонентов значения порож- даемых предложений;
• обнаружение семантических аномалий;
• установление отношения равнозначности между предложениями.
9 Г. С. Осипов
258
Гл. 6. Приобретение знаний и анализ текстов
Главным недостатком трансформационной грамматики является то,
что по своей природе она порождающая, т. е. подходит больше для синтеза предложений и текстов и менее применима при решении об- ратной задачи — автоматического семантического анализа текстов на естественных языках.
Формальная семантика Монтегю. Формальная семантика явля- ется результатом синтеза математической логики и лингвистики. Ее главный основатель, Ричард Монтегю [124], исходил из предположе- ния, что формальные и естественные языки существенным образом не различаются с теоретической точки зрения, поэтому он предпринял попытку разработки формального логического языка, который, по его мнению, может рассматриваться как фрагмент обычного английского языка.
За основу формальной семантики Монтегю взято исчисление пре- дикатов, расширенное интенсиональной логикой, включающей:
• лямбда-исчисление;
• расширенную структуру типов;
• типы функций, играющие важную роль в интенсиональной логике;
• структуры возможных миров и моментов времени.
Синтаксис интенсиональной логики. Синтаксическими категори- ями выражений интенсиональной логики служат типы.
Базовые типы.
• e (сущности);
• t (истинностные значения).
Функциональные типы. Если a, b — типы, то ha, bi — тоже тип
(тип функций из множества элементов типа a в множество элементов типа b.
Интенсиональные типы. Если a — тип, то hs, ai — тоже тип
(тип функций из множества возможных миров в множество элементов типа a).
Непосредственно сам синтаксис интенсиональной логики представ- ляет собой правила задания множества M e a
«осмысленных выражений типа a»:
1: Всякая константа типа a принадлежит M e a
2: Всякая переменная типа a принадлежит M e a
3: Если α ∈ M e a
и u — переменная типа b, то λu[α] ∈ M e
4: Если α ∈ M e
и β ∈ M e a
, то α(β) ∈ M e b
5: Если α, β ∈ M e a
, то (α = β) ∈ M e t
6: Если ϕ, ψ ∈ M e t
и u — переменная некоторого типа, то
¬ϕ, (ϕ & ψ), (ϕ ∨ ψ), (ϕ → ψ), (ϕ ↔ ψ), ∃uϕ, ∀uϕ, ϕ ∈ M e t
(ϕ означает «необходимо, что ϕ»).
Введение
259 7: Если α ∈ M e a
, то [
∧
α] ∈ M e
8: Если α ∈ M e
, то [
∨
α] ∈ M e a
Семантика интенсиональной логики. Модель интенсиональной логики представляет собой тройку hD, W , Ii, где D — множество сущностей, W — множество возможных миров, I — интерпретация.
Выражения типа a получают значения в множестве D
a
. Такие множе- ства задаются рекурсивно следующим образом:
D
e
= D;
D
t
= {0, 1};
D
= {f |f : D
a
=→ D
b
} (т. e. множество всех функций f из D
a в D
b
);
D
= {f |f : W → D
a
} (т. e. множество всех функций f из W в D
a
).
Интерпретация конструкций интенсиональной логики использует
(как в исчислении предикатов) множество G оценок g — функций из множества переменных всех типов в соответствующие множества значений.
Имеют место следующие семантические правила:
1: Если α — константа, то kαk
M,w,g
= I(α)(w).
2: Если α — переменная, то kαk
M,w,g
= g(α).
3: Если α ∈ M e a
и u — переменная типа b, то kλu[α]k
M,w,g обозна- чает функцию f типа b → a такую, что для любого элемента d типа b, f(d) = kϕk
M,w,g[d/u]
4: Если α∈M e
и β ∈M e a
, то kα(β)k
M,w,g
=kαk
M,w,g
(kβk
M,w,g
).
5: Если α, β ∈ M e a
, то k(α = β)k
M,w,g
= 1 тогда и только тогда,
когда kαk
M,w,g
= kβk
M,w,g
6: Если ϕ, ψ ∈ M e t
и u — переменная некоторого типа, то k¬ϕk
M,w,g
= 1 тогда и только тогда, когда kϕk
M,w,g
= 0.
k(ϕ & ψ)k
M,w,g
= 1 тогда и только тогда, когда kϕk
M,w,g
= 1 и kψk
M,w,g
= 1.
k(ϕ ∨ ψ)k
M,w,g
= 1 тогда и только тогда, когда kϕk
M,w,g
= 1 или kψk
M,w,g
= 1.
k(ϕ → ψ)k
M,w,g
= 1 тогда и только тогда, когда kϕk
M,w,g
= 0 или kψk
M,w,g
= 1.
k(ϕ ↔ ψ)k
M,w,g
= 1 тогда и только тогда, когда kϕk
M,w,g
=
= kψk
M,w,g
(∀u) : k∀uϕk
M,w,g
= 1, если для каждого d ∈ D имеет место kϕk
M,w,g[d/u]
= 1.
(∃u) : k∃uϕk
M,w,g
= 1, если существует элемент d ∈ D такой, что kϕk
M,w,g[d/u]
= 1.
7: Если α ∈ M e a
, то k[
∧
α]k
M,w,g обозначает функцию h типа hs, ai такую, что для любого w
′
из W имеет место h(w
′
) = kαk
M,w
′
,g
8: Если α ∈ M e
, то k[
∨
α]k
M,w,g
= kαk
M,w,g
(w).
9*
260
Гл. 6. Приобретение знаний и анализ текстов
Семантические падежи Филлмора. Ч. Филмор в 1966 г. [125, 126]
предложил предикатно–аргументный синтаксис, описывающий универ- сальные глубинные структуры языка и правила перевода глубинных структур в поверхностные, которые реализуются в каждом языке по- своему.
Ключевое место в подходе Филлмора занимает понятие падежа,
который выражает роль аргумента в предикате. Роль — элемент глу- бинной структуры, а падеж служит средством ее выражения.
Согласно Филлмору «смыслы падежей образуют набор универсаль- ных, возможно врожденных, понятий, идентифицирующих некоторые типы суждений, которые человек способен делать о событиях, происхо- дящих вокруг него,— суждений о вещах такого рода, как «кто сделал нечто», «с кем нечто случились», «что подверглось некоему измене- нию» ». В число падежей, представлявшихся необходимыми, входили:
• Агентив (A) — падеж обычно одушевленного инициатора дей- ствия, идентифицируемого с глаголом.
• Инструменталис (I) — падеж неодушевленной силы или пред- мета, который включен в действие или состояние, называемое глаголом, в качестве его причины.
• Датив (D) — падеж одушевленного существа, которое затраги- вается состоянием или действием, называемым глаголом.
• Фактитив (F ) — падеж предмета или существа, которое возни- кает в результате действия или состояния, называемого глаголом,
или которое понимается как часть значения глагола.
• Локатив (L) — падеж, которым характеризуется местоположение или пространственная ориентация действия или состояния, назы- ваемого глаголом.
• Объектив (O) — семантически наиболее нейтральный падеж,
падеж чего-либо, что может быть обозначено существительным,
роль которого в действии или состоянии, которое идентифи- цируется глаголом, определяется семантической интерпретацией самого глагола. Естественно, этот падеж бывает только у назва- ний вещей, которые затрагиваются состоянием или действием,
идентифицируемым глаголом. Объектив не надо путать ни с по- нятием прямого дополнения, ни с именем поверхностного падежа,
являющимся просто синонимом для аккузатива.
Между ролями и падежами нет взаимнооднозначного соответствия,
поэтому:
а) один падеж может выражать несколько ролей;
б) одна и та же роль может выражаться несколькими падежами.
Филлмор вводит понятие падежного фрейма, функция которого состоит в том, чтобы «перекинуть мостик между описаниями ситуаций и глубинными синтаксическими представлениями». Падежный фрейм
Введение
261
приписывает семантико-синтаксические роли конкретным участникам реальной или воображаемой ситуации, отображаемой предложением.
Подбор глагола для выражения ситуации зависит от конкретного набора падежей, падежного фрейма, представленного в данном предло- жении.
Например, глаголу «бежать» может соответствовать фрейм [A], гла- голу sad «(быть) грустным» — фрейм [D], глаголам типа remove «уби- вать» и open «открывать» — фрейм [O + A], глаголам типа murder «уби- вать» и terrorize «терроризировать» (т. е. глаголам, требующим «оду- шевленного субъекта» и «одушевленного объекта») — фрейм [D + A],
глаголам типа give «давать» — фрейм [O + D + A] и т. д.
Многие глаголы могут выступать в более чем одном определенном падежном окружении, например, глагол open «открывать» может вы- ступать и в контексте [O], как в предложении 1; и в контексте [O + A],
как в предложении 2; и в контексте [O + I], как в предложении 3;
и, наконец, в контексте [O + I + A], как в предложении 4:
(1) The door opened. Дверь открылась.
(2) John opened the door. Джон открыл дверь.
(3) The wind opened the door. Ветер открыл дверь.
(4) John opened the door with a chisel. Джон открыл дверь стамеской.
Сокращенные формулировки, называемые признаками, должны за- давать в словарных статьях глаголов множество падежных фреймов,
в которые может быть вставлен данный глагол. По мысли Филлмо- ра, словарь является одним из главных средств задания глубинных ролевых структур и правил перевода их в поверхностные структуры.
В связи с этим он предлагает существенно расширить объем информа- ции, помещаемой в словарь для глаголов и изменить форму ее подачи.
Ниже с некоторыми упрощениями приведен пример разработанной
Филлмором словарной статьи:
Blame 1. «осуждать»: — Речь (т. е. blame — не глагол речи)
аргументы: X, Y , Z
падежи (роли): Источник и Пациенс, Адресат, Объект
Предлоги: by, on, for (by — предлог X в пассивной конструкции; on — предлог Y в конструкции blame something on somebody; for — предлог Z
в конструкции blame somebody for something)
Предложенные Филлмором падежные фреймы достаточно просто формализуют семантику описываемых предложением ситуаций, что позволяет легко реализовать сравнение рамок двух предложений в хо- де семантического поиска. Основной задачей в ходе семантического анализа текста является определение падежных фреймов, соответству- ющих предложениям, и здесь остается открытым вопрос о достаточно
262
Гл. 6. Приобретение знаний и анализ текстов
точном методе установления ролей в ходе автоматического анализа текста (см. выше о неоднозначном соответствии падежей и ролей),
тем более, что в разных языках категория падежа реализуется по- своему. Даже если будет создан полный и подробный словарь гла- голов, описывающий их предикатно-аргументные структуры, остается ряд нетривиальных задач, таких как, например, разрешение падежной многозначности в русском языке и прочих.
Семантические исследования Филлмора оказали большое влияние на развитие методов компьютерного семантического анализа текстов на естественных языках.
Модель «Смысл-Текст». Важной вехой в исследовании семантики естественного языка явилась модель «Смысл-Текст». Основанием этой теории служат излагаемые ниже положения [127, 128].
1. Синонимия языковых выражений возникает не только за счет лексических синонимов в собственном смысле слова, но и за счет многих других средств языка. Лексически различные единицы могут быть
1) синтаксическими вариантами выражения одного и того же значе- ния, например, Выдвигая проект, Англия поставила условие =
Когда Англия выдвигала проект, она поставила условие = При
выдвижении проекта Англия поставила условие;
2) лексически обусловленными вариантами выражения одного и того же значения, например, оказывать {влияние}, но производить
{впечатление};
3) словами, по-разному ориентирующими описываемую ситуацию относительно ее участников, например A имеет B = B принад-
лежит
A, A несмотря на B = B, однако A;
4) некоторыми типами производных, в том числе супплетивных,
например, A принадлежит B = A — владелец B = B — соб-
ственность
A.
Для того чтобы точно описать существо и меру всех семантических сходств и тождеств лексически различных слов, был предложен спе- циальный язык — язык семантических множителей. Под множителями понимались элементарные смыслы, различные комбинации которых со- ответствуют сложным лексическим значениям слов естественного язы- ка (взять = «сделать так, чтобы иметь самому», дать — «сделать так,
чтобы имел другой», получить = «быть объектом действия «дать»»,
сохранить = «не перестать иметь» и т. д.). Перечисленные средства позволяют изображать в явном виде (сведением к одной и той же семантической записи) синонимичность внешне очень различных пред- ложений естественного языка. Язык множителей позволял по-новому определить понятие значения, под которым понимается семантиче-
Введение
263
ский инвариант множества преобразуемых друг в друга предложений,
и давал основание думать, что путем последовательного разложения сложных значений на более элементарные компоненты можно получить ограниченное число более или менее универсальных значений, годных для описания семантики любых естественных языков.
1 ... 25 26 27 28 29 30 31 32 33