Файл: Искусственный интеллект в технологиях машинного перевода.docx
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 08.11.2023
Просмотров: 89
Скачиваний: 3
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
Семантико-синтаксический перевод на основе правил
Первые эксперименты по МП, подтвердившие принципиальную возможность его осуществ- ления, были проведены в 1954 г. в Джорджтаунском университете (г. Вашингтон, США). Вскоре после этого в промышленно развитых странах мира были начаты исследования и разработки, на- правленные на развитие технологий МП. Возникающие при этом проблемы оказались значительно сложнее, чем это представляли себе пионеры МП конца пятидесятых – начала шестидесятых годов прошлого века.
Первоначальный энтузиазм осуществления МП путем прямого пословного перевода (Direct Machine Translation) быстро сменился разочарованием. Тем не менее исследования в области МП продолжались. Достижением периода 1970–1980-х годов стал МП «на основе правил» (Rule-based Machine Translation, RBMT), которые были сформулированы в результате фундаментальных ис- следований ЕЯ. Одним из итогов таких исследований стала формальная модель языка, предло-
1 Эллиптические конструкции – это неполные придаточные предложения, которые, как правило, состоят из союза и прилагательного или существительного (с предлогом или без предлога).
женная И.А. Мельчуком и названная им «Смысл-Текст» [Мельчук, 1999]. Эта модель представляет собой описание естественного языка, понимаемого как устройство («система правил»), обеспечи- вающее человеку переход от смысла к тексту (воспроизведение, т.е. «говорение», или построе- ние текста) и от текста к смыслу («понимание», или интерпретация текста).
Теоретическая концепция Мельчука постулирует многоуровневую модель языка, в которой построение текста на основе заданного смысла происходит не непосредственно, а с помощью се- рии переходов от одного уровня представления к другому. При этом выделяются несколько уров- ней описания языка: фонологический, поверхностно-морфологический,
глубинно-морфологи- ческий, поверхностно-синтаксический, глубинно-синтаксический уровни и семантический. Каждый уровень характеризуется набором собственных лексических единиц и правил их пред- ставления, а также набором лингвистических правил перехода от одного уровня представления к соседним в соответствии с принципами [Мельчук, 1999].
-
Принцип полноты – обеспечение возможно более полного охвата структур описываемого языка. Это возможно при условии, что тестовые предложения будут отбираться не случайно, а на основе тщательной выборки разнообразного текстового материала. Полнота может быть обеспе- чена, если исходные тесты хорошо представляют генеральную совокупность. -
Принцип экономичности – создание рационального количества правил во избежание не- нужной детализации, повторов и избыточности описания. -
Принцип непротиворечивости – четкое разграничение подобных и разных структур. Пра- вила грамматики не должны противоречить друг другу. Логичное следование одного из другого, непересечение одних правил с другими позволяет избежать ошибок. -
Удобство и легкость записи правил – при минимальности условных символов грамматика должна нести максимум информации. Алгоритмы должны также быть достаточно гибкими для облегчения введения в грамматику новых правил для анализа / синтеза неучтенных структур. -
Оптимизация алгоритмической обработки текста в соответствии с правилами грамматики, которые должны обеспечивать наибольшую скорость анализа и синтеза структуры предложения.
Многоуровневая модель языка послужила основой для ряда систем МП [Кулагина, 1979; Марчук, 1983; Пиотровский, 2002]. Возможность получения грамматически правильного послов- ного перевода в них достигалась в основном процедурными и декларативными средствами на ос- нове учета синтаксических и семантических признаков слов, включенных в состав двуязычных
словарей. В составе этих систем присутствовали процедуры морфологического, синтаксического, семантического анализа и синтеза текстов, а также процедура трансфера – соотнесения слов ис- ходного текста и их переводных соответствий на целевом языке.
Надо отдать должное пионерам МП и их ближайшим последователям. Они немало сделали в области теории и практики МП. Но многие важнейшие проблемы не были решены. Например, вы- бор переводных эквивалентов для слов и словосочетаний исходного текста. При решении этой проблемы стремились, прежде всего, получить грамматически правильный пословный перевод. Вопросы полисемии1 слов разрешались в основном процедурными средствами на основе учета их синтаксических и семантических признаков. Поэтому системы МП первых трех десятилетий их развития можно охарактеризовать как системы семантико-синтаксического преимущественно по- словного перевода. Хотя словосочетания здесь использовались, но в меньшей степени.
На наш взгляд, семантико-синтаксический пословный и преимущественно пословный МП текстов не имеет перспективы. В ЕЯ смысл предложений и словосочетаний, как правило, не сво- дится или не полностью сводится к смыслу составляющих их слов, и при переводе он не может быть «вычислен» на основе синтаксических и семантических признаков этих слов. Поэтому эта концепция была заменена на концепцию семантико-синтаксического преимущественно фразеоло- гического перевода. Такой подход в большей мере соответствует природе ЕЯ, и благодаря ему специалисты существенно продвинулись в повышении качества перевода. Но эти улучшения были получены путем колоссальных трудозатрат при составлении правил и ручного создания двуязыч- ных словарей. Тем не менее задача достижения уровня МП, незначительно уступающего ручному переводу переводчика средней квалификации, была далека от завершения, и перспектив ее успеш- ного решения с помощью этого подхода не предвиделось.
В качестве свидетельства неблагополучного состояния исследований и разработок в области МП этого периода можно рассматривать заявление руководителя японской государственной про- граммы профессора Макото Нагао из университета Киото о тупиковом развитии систем RBMT,
сделанное им в одном из своих докладов в 1982 г. В 1984 г. он предложил новую концепцию МП [Nagao, 1984]. Согласно этой концепции, автоматический перевод текста должен осуществляться по аналогии с текстами, ранее переведенными вручную. Подход Макото Нагао дал толчок новому направлению, получившему название статистический МП – Statistical Machine Translation (SMT).
Статистический машинный перевод
Впервые система на основе этой концепции была реализована на рубеже 1990-х годов в ис- следовательском центре IBM. Словари и лингвистические правила в данном случае были полно- стью заменены большими корпусами параллельных текстов (билингв). На их базе строилась так называемая модель перехода (transition model), в которой вычислялась вероятность того, что целе-
1 Полисеми́я (от греч. Πολυσημεία – «многозначность») – многозначность, многовариантность, т.е. наличие у слова (единицы языка, термина) двух и более значений, исторически обусловленных или взаимосвязанных по смыслу и происхождению.
вое слово или фраза будет правильным переводом соответствующего слова или фразы. Дополне- нием к модели перехода являлась модель выравнивания слов (word alignment model), устанавли- вающая взаимное соответствие между словами предложения или фразы исходного и целевого языков. Алгоритмы перевода обучались с использованием кортежей исходного предложения и со- ответствующих ему целевых предложений. Предполагалось, что такой перевод будет более каче- ственным, поскольку данные в виде параллельных предложений богаче, чем двуязычные словари слов или словосочетаний [Денисова, 2018].
Хотя первые версии системы SMT компании IBM выполняли перевод на основе слов, но за- тем разработчики стали экспериментировать с SMT на основе фраз. Этот подход к переводу по- зволил реализовать ряд моделей отношений: «один-к-многим», «многие-к-многим» и «многие-к- одному». Основной целью SMT на основе фраз является построение модели фразового перевода (phrase translation model), которая содержит распределение вероятностей различных целевых фраз-