Файл: Искусственный интеллект в технологиях машинного перевода.docx

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 08.11.2023

Просмотров: 89

Скачиваний: 3

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Семантико-синтаксический перевод на основе правил


Первые эксперименты по МП, подтвердившие принципиальную возможность его осуществ- ления, были проведены в 1954 г. в Джорджтаунском университете (г. Вашингтон, США). Вскоре после этого в промышленно развитых странах мира были начаты исследования и разработки, на- правленные на развитие технологий МП. Возникающие при этом проблемы оказались значительно сложнее, чем это представляли себе пионеры МП конца пятидесятых – начала шестидесятых годов прошлого века.

Первоначальный энтузиазм осуществления МП путем прямого пословного перевода (Direct Machine Translation) быстро сменился разочарованием. Тем не менее исследования в области МП продолжались. Достижением периода 1970–1980-х годов стал МП «на основе правил» (Rule-based Machine Translation, RBMT), которые были сформулированы в результате фундаментальных ис- следований ЕЯ. Одним из итогов таких исследований стала формальная модель языка, предло-
1 Эллиптические конструкции – это неполные придаточные предложения, которые, как правило, состоят из союза и прилагательного или существительного предлогом или без предлога).

женная И.А. Мельчуком и названная им «Смысл-Текст» [Мельчук, 1999]. Эта модель представляет собой описание естественного языка, понимаемого как устройство («система правил»), обеспечи- вающее человеку переход от смысла к тексту (воспроизведение, т.е. «говорение», или построе- ние текста) и от текста к смыслу («понимание», или интерпретация текста).

Теоретическая концепция Мельчука постулирует многоуровневую модель языка, в которой построение текста на основе заданного смысла происходит не непосредственно, а с помощью се- рии переходов от одного уровня представления к другому. При этом выделяются несколько уров- ней описания языка: фонологический, поверхностно-морфологический,
глубинно-морфологи- ческий, поверхностно-синтаксический, глубинно-синтаксический уровни и семантический. Каждый уровень характеризуется набором собственных лексических единиц и правил их пред- ставления, а также набором лингвистических правил перехода от одного уровня представления к соседним в соответствии с принципами [Мельчук, 1999].

  1. Принцип полноты – обеспечение возможно более полного охвата структур описываемого языка. Это возможно при условии, что тестовые предложения будут отбираться не случайно, а на основе тщательной выборки разнообразного текстового материала. Полнота может быть обеспе- чена, если исходные тесты хорошо представляют генеральную совокупность.

  2. Принцип экономичности – создание рационального количества правил во избежание не- нужной детализации, повторов и избыточности описания.

  3. Принцип непротиворечивости – четкое разграничение подобных и разных структур. Пра- вила грамматики не должны противоречить друг другу. Логичное следование одного из другого, непересечение одних правил с другими позволяет избежать ошибок.

  4. Удобство и легкость записи правил – при минимальности условных символов грамматика должна нести максимум информации. Алгоритмы должны также быть достаточно гибкими для облегчения введения в грамматику новых правил для анализа / синтеза неучтенных структур.

  5. Оптимизация алгоритмической обработки текста в соответствии с правилами грамматики, которые должны обеспечивать наибольшую скорость анализа и синтеза структуры предложения.

Многоуровневая модель языка послужила основой для ряда систем МП [Кулагина, 1979; Марчук, 1983; Пиотровский, 2002]. Возможность получения грамматически правильного послов- ного перевода в них достигалась в основном процедурными и декларативными средствами на ос- нове учета синтаксических и семантических признаков слов, включенных в состав двуязычных

словарей. В составе этих систем присутствовали процедуры морфологического, синтаксического, семантического анализа и синтеза текстов, а также процедура трансфера – соотнесения слов ис- ходного текста и их переводных соответствий на целевом языке.

Надо отдать должное пионерам МП и их ближайшим последователям. Они немало сделали в области теории и практики МП. Но многие важнейшие проблемы не были решены. Например, вы- бор переводных эквивалентов для слов и словосочетаний исходного текста. При решении этой проблемы стремились, прежде всего, получить грамматически правильный пословный перевод. Вопросы полисемии1 слов разрешались в основном процедурными средствами на основе учета их синтаксических и семантических признаков. Поэтому системы МП первых трех десятилетий их развития можно охарактеризовать как системы семантико-синтаксического преимущественно по- словного перевода. Хотя словосочетания здесь использовались, но в меньшей степени.

На наш взгляд, семантико-синтаксический пословный и преимущественно пословный МП текстов не имеет перспективы. В ЕЯ смысл предложений и словосочетаний, как правило, не сво- дится или не полностью сводится к смыслу составляющих их слов, и при переводе он не может быть «вычислен» на основе синтаксических и семантических признаков этих слов. Поэтому эта концепция была заменена на концепцию семантико-синтаксического преимущественно фразеоло- гического перевода. Такой подход в большей мере соответствует природе ЕЯ, и благодаря ему специалисты существенно продвинулись в повышении качества перевода. Но эти улучшения были получены путем колоссальных трудозатрат при составлении правил и ручного создания двуязыч- ных словарей. Тем не менее задача достижения уровня МП, незначительно уступающего ручному переводу переводчика средней квалификации, была далека от завершения, и перспектив ее успеш- ного решения с помощью этого подхода не предвиделось.

В качестве свидетельства неблагополучного состояния исследований и разработок в области МП этого периода можно рассматривать заявление руководителя японской государственной про- граммы профессора Макото Нагао из университета Киото о тупиковом развитии систем RBMT,
сделанное им в одном из своих докладов в 1982 г. В 1984 г. он предложил новую концепцию МП [Nagao, 1984]. Согласно этой концепции, автоматический перевод текста должен осуществляться по аналогии с текстами, ранее переведенными вручную. Подход Макото Нагао дал толчок новому направлению, получившему название статистический МП Statistical Machine Translation (SMT).


Статистический машинный перевод


Впервые система на основе этой концепции была реализована на рубеже 1990-х годов в ис- следовательском центре IBM. Словари и лингвистические правила в данном случае были полно- стью заменены большими корпусами параллельных текстов (билингв). На их базе строилась так называемая модель перехода (transition model), в которой вычислялась вероятность того, что целе-



1 Полисеми́я (от греч. Πολυσημεία – «многозначность») – многозначность, многовариантность, т.е. наличие у слова (единицы языка, термина) двух и более значений, исторически обусловленных или взаимосвязанных по смыслу и происхождению.

вое слово или фраза будет правильным переводом соответствующего слова или фразы. Дополне- нием к модели перехода являлась модель выравнивания слов (word alignment model), устанавли- вающая взаимное соответствие между словами предложения или фразы исходного и целевого языков. Алгоритмы перевода обучались с использованием кортежей исходного предложения и со- ответствующих ему целевых предложений. Предполагалось, что такой перевод будет более каче- ственным, поскольку данные в виде параллельных предложений богаче, чем двуязычные словари слов или словосочетаний [Денисова, 2018].

Хотя первые версии системы SMT компании IBM выполняли перевод на основе слов, но за- тем разработчики стали экспериментировать с SMT на основе фраз. Этот подход к переводу по- зволил реализовать ряд моделей отношений: «один-к-многим», «многие-к-многим» и «многие-к- одному». Основной целью SMT на основе фраз является построение модели фразового перевода (phrase translation model), которая содержит распределение вероятностей различных целевых фраз-