Файл: Искусственный интеллект в технологиях машинного перевода.docx
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 08.11.2023
Просмотров: 96
Скачиваний: 3
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
, базирующаяся на системе флек- тивных классов русского языка при реализации процедур морфологического анализа [Каким быть машинному пере- воду …, 2002; Средства машинной грамматики русского языка …, 2018].
Второй не менее важной единицей смысла является предложение. Основной чертой предло- жения выступает предикативность – т.е. свойство утверждать наличие у объектов определенных признаков и их отношений. Свойством предикативности обладают также высказывания на форма- лизованных языках. Это позволяет сделать вывод, что в основе предложений на ЕЯ и формализо- ванных логических высказываний лежит предикатно-актантная структура, компоненты которой представляют понятия-предикаты (признаки и отношения) и понятия-актанты, выступающие в ро- ли описываемых объектов. Предикатно-актантные структуры являются теми смысловыми инвари- антами, которые позволяют осуществлять перевод текстов с одного ЕЯ на другие. Одновременно они обеспечивают возможность решения основной задачи МП – передачу смыслового содержания исходного текста на целевой язык.
Выдающейся заслугой Г.Г. Белоногова является то, что он разработал модель FMT, обосно- вал и предложил базовый состав ее процедурных и программных средств, а также сформулировал принципы функционирования. В соответствии с этими принципами система FMT должна вклю- чать понятийную базу, содержащую переводные эквиваленты часто встречающихся терминологи- ческих словосочетаний, а также фрагментов фраз, служебных конструкций и отдельных слов. В процессе перевода текстов система использует хранящиеся в этой базе переводные эквиваленты в следующем порядке: а) сначала для очередного предложения исходного текста делается попытка перевести его как целостную фразеологическую единицу; б) в случае неудачи – переводятся вхо- дящие в его состав наиболее длинные синтаксические конструкции, а при их отсутствии – более короткие словосочетания; в) наконец, осуществляется пословный перевод тех фрагментов пред-
ложения, которые не удалось перевести первыми тремя способами. Фрагменты выходного текста, полученные всеми рассмотренными способами, должны грамматически согласовываться друг с другом (с помощью процедур морфологического и синтаксического синтеза) [Хорошилов, 2006; Хорошилов, Кан, Хорошилов, 2019].
Архитектура системы FMT, ориентированная на реализацию вышеуказанных принципов, со- стоит из трех модулей: модуль анализа исходного текста, модуль трансфера и модуль генерации переведенного текста. Это позволяет осуществлять сквозную обработку всего текста в оптималь- ном режиме [Хорошилов, Кан, Хорошилов, 2019]. В свою очередь, сквозная обработка текстов (а не отдельных предложений, как в SMT и NTM) предоставляет возможность смыслового связыва- ния системы понятий и их отношений в единое целое в пределах всего текста.
Реализация подхода FMT, также как и подхода NMT, базируется на предварительно обучен- ных языковых моделях. Отличием является только то, что NMT основываются на упрощенной мо- дели языка и на его поверхностном представлении (см. [Мельчук, 1999]). Между тем в основе ЕЯ лежит, прежде всего, понятийная система, не всегда полностью отражающаяся на его поверхност- ном уровне.
Развитие системы FMT происходило в том числе путем реализации трансформационной дву- язычной модели и создания четырехслойного комплекса двуязычных словарей по широкому спек- тру тематических областей [Технологии создания новых направлений перевода …, 2017]. Отличи- тельной особенностью словарей FMT является простая структура словарных статей. Входом служат любые фрагменты исходных текстов (но не более 16 слов), а понятия и их переводные эк- виваленты на целевом языке могут быть представлены в любой грамматической форме. Единст- венное требование заключается в том, что не должна быть разрушена грамматическая согласован- ность слов внутри этих конструкций.
Разработанные технологии FMT с начала 2000-х использовались в ряде высокотехнологич- ных отраслей, учебных и научно-исследовательских
организациях России.
Когда речь заходит о технологиях МП, то в первую очередь возникает вопрос о качестве пе- ревода. Ряд используемых метрик качества (например, BLEU1), несмотря на то что базируется на вероятностных и статистических методах вычислений, при ближайшем рассмотрении оказывается ориентированным на те же технологии, на которых построены анализируемые системы [Хобсон, Ханнес, Коул, 2020; Ганегедара, 2019]. А схожесть или отличие от лексики эталонного перевода лексики выполненных переводов не может служить критерием качества последних. На практике основными критериями качества перевода остаются те, которые устанавливает заказчик (в техни- ческом задании и т.д.) [Технологии создания новых направлений перевода …, 2017].
В настоящее время агрегаторы новостных информационных сообщений в полной мере ис- пользуют технические возможности автоматических переводчиков. Например, авиационное про- исшествие может описываться следующей фразой: «Сам самолет был поврежден без ремонта и его списали и демонтировали там, где он приземлился». При чтении этой «корявой» фразы сразу ста- новится понятно, что она, скорее всего, получена путем МП. Человек тем не менее все же поймет, что означает словосочетание «поврежден без ремонта». С научно-техническим переводом даже относительно простых предложений ситуация гораздо сложнее.
В статье [Блеск и нищета …, 2020] приводятся следующие варианты перевода предложения
«Less fuel is consumed in the use of V shape loading», выполненные инструментами различных сер- висов:
1 Сопоставляет число n-грамм (n последовательных слов) МП с n-граммами эталонного ручного перевода. Раз- работана сотрудниками компании IBM в начале 2000-х годов.
V-образнойзагрузки».
Все три варианта – гладкие, грамматически верные, – но абсолютно бессмысленные. Синтак- сической конструкции «V shape loading» в узкой предметной области исходного предложения со- ответствовало словосочетание «загрузка(самосвала)сдвижениемколесногопогрузчикапоV-образнойтраектории».
Данный пример иллюстрирует явление пресуппозии, без учета которой перевод становится бессмысленным. Особенно слабо улавливают современные технологии МП профессиональную специфику. Но даже в этом случае нельзя согласиться с категоричным заявлением автора той же публикации: «МП по любой технологии никогда не сможет правильно переводить специализиро- ванные тексты, это принципиальная невозможность – такая же, как невозможность постройки вечного двигателя». На самом деле для различных задач МП необходимо использовать тот набор инструментов, который способен их решить. Как следует из рассмотрения подходов SMT и NMT, в этих системах таких инструментов нет. В то же время методика FMT был изначально ориенти- рована на перевод подобных текстов.
Подводя итоги анализа существующих способов МП, можно констатировать, что в рамках современных технологий SMT и NMT достаточно хорошо решаются задачи автоматизированного перевода текстов, лексический состав которых доступен в большом количестве исходных и пере- водных вариантов. К ним можно отнести новостные, гуманитарные и общетехнические тексты.
Второй не менее важной единицей смысла является предложение. Основной чертой предло- жения выступает предикативность – т.е. свойство утверждать наличие у объектов определенных признаков и их отношений. Свойством предикативности обладают также высказывания на форма- лизованных языках. Это позволяет сделать вывод, что в основе предложений на ЕЯ и формализо- ванных логических высказываний лежит предикатно-актантная структура, компоненты которой представляют понятия-предикаты (признаки и отношения) и понятия-актанты, выступающие в ро- ли описываемых объектов. Предикатно-актантные структуры являются теми смысловыми инвари- антами, которые позволяют осуществлять перевод текстов с одного ЕЯ на другие. Одновременно они обеспечивают возможность решения основной задачи МП – передачу смыслового содержания исходного текста на целевой язык.
Выдающейся заслугой Г.Г. Белоногова является то, что он разработал модель FMT, обосно- вал и предложил базовый состав ее процедурных и программных средств, а также сформулировал принципы функционирования. В соответствии с этими принципами система FMT должна вклю- чать понятийную базу, содержащую переводные эквиваленты часто встречающихся терминологи- ческих словосочетаний, а также фрагментов фраз, служебных конструкций и отдельных слов. В процессе перевода текстов система использует хранящиеся в этой базе переводные эквиваленты в следующем порядке: а) сначала для очередного предложения исходного текста делается попытка перевести его как целостную фразеологическую единицу; б) в случае неудачи – переводятся вхо- дящие в его состав наиболее длинные синтаксические конструкции, а при их отсутствии – более короткие словосочетания; в) наконец, осуществляется пословный перевод тех фрагментов пред-
ложения, которые не удалось перевести первыми тремя способами. Фрагменты выходного текста, полученные всеми рассмотренными способами, должны грамматически согласовываться друг с другом (с помощью процедур морфологического и синтаксического синтеза) [Хорошилов, 2006; Хорошилов, Кан, Хорошилов, 2019].
Архитектура системы FMT, ориентированная на реализацию вышеуказанных принципов, со- стоит из трех модулей: модуль анализа исходного текста, модуль трансфера и модуль генерации переведенного текста. Это позволяет осуществлять сквозную обработку всего текста в оптималь- ном режиме [Хорошилов, Кан, Хорошилов, 2019]. В свою очередь, сквозная обработка текстов (а не отдельных предложений, как в SMT и NTM) предоставляет возможность смыслового связыва- ния системы понятий и их отношений в единое целое в пределах всего текста.
Реализация подхода FMT, также как и подхода NMT, базируется на предварительно обучен- ных языковых моделях. Отличием является только то, что NMT основываются на упрощенной мо- дели языка и на его поверхностном представлении (см. [Мельчук, 1999]). Между тем в основе ЕЯ лежит, прежде всего, понятийная система, не всегда полностью отражающаяся на его поверхност- ном уровне.
Развитие системы FMT происходило в том числе путем реализации трансформационной дву- язычной модели и создания четырехслойного комплекса двуязычных словарей по широкому спек- тру тематических областей [Технологии создания новых направлений перевода …, 2017]. Отличи- тельной особенностью словарей FMT является простая структура словарных статей. Входом служат любые фрагменты исходных текстов (но не более 16 слов), а понятия и их переводные эк- виваленты на целевом языке могут быть представлены в любой грамматической форме. Единст- венное требование заключается в том, что не должна быть разрушена грамматическая согласован- ность слов внутри этих конструкций.
Разработанные технологии FMT с начала 2000-х использовались в ряде высокотехнологич- ных отраслей, учебных и научно-исследовательских
организациях России.
Опыт практического использование технологий МП
Когда речь заходит о технологиях МП, то в первую очередь возникает вопрос о качестве пе- ревода. Ряд используемых метрик качества (например, BLEU1), несмотря на то что базируется на вероятностных и статистических методах вычислений, при ближайшем рассмотрении оказывается ориентированным на те же технологии, на которых построены анализируемые системы [Хобсон, Ханнес, Коул, 2020; Ганегедара, 2019]. А схожесть или отличие от лексики эталонного перевода лексики выполненных переводов не может служить критерием качества последних. На практике основными критериями качества перевода остаются те, которые устанавливает заказчик (в техни- ческом задании и т.д.) [Технологии создания новых направлений перевода …, 2017].
В настоящее время агрегаторы новостных информационных сообщений в полной мере ис- пользуют технические возможности автоматических переводчиков. Например, авиационное про- исшествие может описываться следующей фразой: «Сам самолет был поврежден без ремонта и его списали и демонтировали там, где он приземлился». При чтении этой «корявой» фразы сразу ста- новится понятно, что она, скорее всего, получена путем МП. Человек тем не менее все же поймет, что означает словосочетание «поврежден без ремонта». С научно-техническим переводом даже относительно простых предложений ситуация гораздо сложнее.
В статье [Блеск и нищета …, 2020] приводятся следующие варианты перевода предложения
«Less fuel is consumed in the use of V shape loading», выполненные инструментами различных сер- висов:
-
вариант № 1 (DeepL): «при использовании нагрузки V-образной формы расходуется меньшетоплива»; -
вариант № 2 (GT): «меньшетопливарасходуетсяприиспользованииV-образнойзагрузки»;
1 Сопоставляет число n-грамм (n последовательных слов) МП с n-граммами эталонного ручного перевода. Раз- работана сотрудниками компании IBM в начале 2000-х годов.
-
вариант № 3 («Яндекс-переводчик»): «меньшетопливапотребляетсяприиспользовании
V-образнойзагрузки».
Все три варианта – гладкие, грамматически верные, – но абсолютно бессмысленные. Синтак- сической конструкции «V shape loading» в узкой предметной области исходного предложения со- ответствовало словосочетание «загрузка(самосвала)сдвижениемколесногопогрузчикапоV-образнойтраектории».
Данный пример иллюстрирует явление пресуппозии, без учета которой перевод становится бессмысленным. Особенно слабо улавливают современные технологии МП профессиональную специфику. Но даже в этом случае нельзя согласиться с категоричным заявлением автора той же публикации: «МП по любой технологии никогда не сможет правильно переводить специализиро- ванные тексты, это принципиальная невозможность – такая же, как невозможность постройки вечного двигателя». На самом деле для различных задач МП необходимо использовать тот набор инструментов, который способен их решить. Как следует из рассмотрения подходов SMT и NMT, в этих системах таких инструментов нет. В то же время методика FMT был изначально ориенти- рована на перевод подобных текстов.
Подводя итоги анализа существующих способов МП, можно констатировать, что в рамках современных технологий SMT и NMT достаточно хорошо решаются задачи автоматизированного перевода текстов, лексический состав которых доступен в большом количестве исходных и пере- водных вариантов. К ним можно отнести новостные, гуманитарные и общетехнические тексты.