Файл: Искусственный интеллект в технологиях машинного перевода.docx
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 08.11.2023
Просмотров: 97
Скачиваний: 3
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
кандидатов исходной фразы. Отсутствие словарей компенсируется ведением огромных баз парал- лельных предложений на двух языках. В случае отсутствия прямого соответствия между грамма- тическим строем исходного и целевого языков фразовая модель перехода дополняется операциями перестановки слов [Денисова, 2018].
Одним из существенных недостатков SMT является значительная ресурсозатратность про- цесса декодирования (поиска наиболее вероятной целевой фразы для данной исходной). Это свя- зано с вычислительной обработкой большого массива выявленных фраз в различных комбинатор- ных сочетаниях слов и огромного числа соответствующих им целевых фраз. Для сокращения числа рассматриваемых комбинаций в модель перехода включались синтаксические модели пред- ставления исходного предложения. Последние обеспечивали возможность перестановки синтак- сических конструкций предложения и вставки слов в состав конструкций целевого языка.
С 2006 г. языковую модель SMT начали использовать онлайн-переводчики таких компаний, как Google, «Яндекс», Bing и др. Несмотря на то что этот подход обеспечил возможность более качественных МП, он все же не лишен серьезных недостатков. Основным из них является непол- ная грамматическая согласованность перевода, обусловленная тем, что не используются лингвис- тические механизмы такого согласования. Кроме того, переводные соответствия, полученные ста- тистическим методом, «выдергивались» из разных текстов, не связанных общей темой. Поэтому в рамках SMT не всегда удается обеспечить смысловую связанность1 текста.
1 Под смысловой связанностью текста или его фрагмента понимается совокупность наименований или понятий, расположенных в тексте в определенном порядке и отражающих основное смысловое содержание текста (его фраг- мента).
Достижения в области нейробиологии и NLP1 в конце прошлого столетия привели к разви- тию теории сознания, в которой моделирование мыслительных или поведенческих процессов осуществляется с использованием нейросетей (коннекционизма). В рамках этой концепции воз- никло предположение, что МП также может быть реализован на основе нейросетевых моделей. Основная идея нейронного МП (Neural Machine Translation, NMT) заключается в том, что он мо- жет быть осуществлен на основе предварительного (глубокого) обучения сети (программы, моде- ли) на большом корпусе параллельных предложений (на исходном и целевом языках) путем их по- следовательной обработки конечным набором логических правил. Сам процесс NMT заключается в обучении модели на параллельных текстах, проверке обученной модели и выполнении на этой основе переводов текстов на целевой язык [Google’s multilingual neural …, 2017].
Первые попытки реализации NMT в компании Google в 2004 г. выявили целый ряд недостат- ков. Одним из них была низкая скорость обучения программы, так как большое число выявленных признаков требовали много времени на формирование целевой информации. Кроме того, NMT оказался неэффективным при работе с редкими словами, а в отдельных случаях не удавалось пе- ревести все слова входного предложения.
Дальнейшее совершенствование Google’s NMT (GNMT) было направлено на повышение бы- стродействия и качества переводимых текстов. Например, для эффективного использования всей информации, полученной на предыдущих этапах, были задействованы рекурсивные нейросети (RNS) с долгой краткосрочной памятью (long short-term memory, LSTM) [Hochreiter, Schmidhuber, 1997; Gers, Schmidhuber, Cummins, 2000]. Чтобы уменьшить время вывода, использовались вычис- ления с низкой точностью (low-precision arithmetic), а в целях дополнительного ускорения – спе- циальное оборудование (Google’s Tensor Processing Unit – тензорный процессор Google). Перевод
редких слов осуществлялся путем их представления на входе и выходе в форме набора составных элементов (частей слова – wordpieces) [Schuster, Nakajima, 2016]. Для решения проблемы неполно- го перевода применялся метод лучевого поиска (beam search) и был реализован штраф за пропуск слов [Ганегедара, 2019]. Привлекались также другие разнообразные механизмы и приемы, способ- ствующие значительному улучшению результатов NMT.
Разработчики стремятся к созданию моделей с большей глубиной нейросети (большим чис- лом слоев), так как они характеризуются более высокой точностью по сравнению с другими моде- лями машинного обучения. Дополнение их, например, современными методами инициализации
1 Нейролингвистическое программирование (от англ. Neuro-linguistic programming) – подход к межличностному общению, развитию личности и психотерапии.
Завьера (Xavier) обеспечивает более короткий период обучения [Gradient flow in recurrent nets …, 2001].
В настоящее время GNMT является одним из самых востребованных в мире автоматических переводчиков. Ежедневно сервис обрабатывает около 143 млрд слов более чем на 100 языках [Блеск и нищета …, 2020]. Компания Google перешла на GNMT вместо ранее используемой SMT [Ганегедара, 2019]. «Майкрософт» использует похожую технологию для перевода речи (в том числе в «Майкрософт-переводчике» и «Skype-переводчике»). Гарвардской группой по обработке естественного языка была выпущена OpenNMT – система нейронного МП с открытым исходным кодом. «Яндекс-переводчик» базируется на гибридной модели, использующей технологии SMT и NMT. Выбор лучшего перевода из полученных результатов обеспечивает технология CatBoost, в основе которой также лежит машинное
обучение [Машинный перевод, 2021].
Впервые в СССР идею создания переводчика, обеспечивающего высококачественный авто- матический перевод текстов, высказал Г.Г. Белоногов1 (1975). Свое предложение он сформулиро- вал в виде концепции фразеологического МП (FMT) [Каким быть машинному переводу …, 2002]. В краткой форме ее основные положения представляют следующее.
По мнению Г.Г. Белоногова, для реализации адекватного МП необходимо учитывать объек- тивные законы функционирования языка и мышления, богатый опыт межнационального общения, а также опыт переводческой деятельности, накопленный человечеством. Этот опыт свидетельст- вует о том, что в процессе перевода текстов в качестве основных единиц смысла выступают, пре- жде всего, фразеологические словосочетания, выражающие определенные понятия. Поэтому сис- темы МП должны переводить не слова и их последовательности, а мысленные образы в форме слов и словосочетаний.
Кроме того, в языке объективно существует иерархия смысловых единиц. Причем смысловое содержание вышестоящих единиц не всегда сводимо к смыслу составляющих их нижестоящих единиц. Наиболее устойчивыми единицами смысла являются фразеологические понятия. Они также служат теми базовыми «строительными блоками», которые формируют смысловые едини- цы более высоких уровней – предложения, сверхфразовые единства и тексты [Белоногов, Хоро- шилов, Хорошилов, 2005].
1 Белоногов Г.Г. (1925–2018) – один из основоположников отечественной информатики, признанный как в Рос- сии, так и за рубежом, известный специалист в области компьютерной лингвистики и автоматической обработки тек- стов. Работал в 27 ЦНИИ МО (1961–1980), затем в ВИНИТИ РАН (1980–2001) и лингвистической фирме МетаФраз (2003–2005). В частности, им была разработана уникальная машинная грамматика
Одним из существенных недостатков SMT является значительная ресурсозатратность про- цесса декодирования (поиска наиболее вероятной целевой фразы для данной исходной). Это свя- зано с вычислительной обработкой большого массива выявленных фраз в различных комбинатор- ных сочетаниях слов и огромного числа соответствующих им целевых фраз. Для сокращения числа рассматриваемых комбинаций в модель перехода включались синтаксические модели пред- ставления исходного предложения. Последние обеспечивали возможность перестановки синтак- сических конструкций предложения и вставки слов в состав конструкций целевого языка.
С 2006 г. языковую модель SMT начали использовать онлайн-переводчики таких компаний, как Google, «Яндекс», Bing и др. Несмотря на то что этот подход обеспечил возможность более качественных МП, он все же не лишен серьезных недостатков. Основным из них является непол- ная грамматическая согласованность перевода, обусловленная тем, что не используются лингвис- тические механизмы такого согласования. Кроме того, переводные соответствия, полученные ста- тистическим методом, «выдергивались» из разных текстов, не связанных общей темой. Поэтому в рамках SMT не всегда удается обеспечить смысловую связанность1 текста.
1 Под смысловой связанностью текста или его фрагмента понимается совокупность наименований или понятий, расположенных в тексте в определенном порядке и отражающих основное смысловое содержание текста (его фраг- мента).
Нейросетевой машинный перевод
Достижения в области нейробиологии и NLP1 в конце прошлого столетия привели к разви- тию теории сознания, в которой моделирование мыслительных или поведенческих процессов осуществляется с использованием нейросетей (коннекционизма). В рамках этой концепции воз- никло предположение, что МП также может быть реализован на основе нейросетевых моделей. Основная идея нейронного МП (Neural Machine Translation, NMT) заключается в том, что он мо- жет быть осуществлен на основе предварительного (глубокого) обучения сети (программы, моде- ли) на большом корпусе параллельных предложений (на исходном и целевом языках) путем их по- следовательной обработки конечным набором логических правил. Сам процесс NMT заключается в обучении модели на параллельных текстах, проверке обученной модели и выполнении на этой основе переводов текстов на целевой язык [Google’s multilingual neural …, 2017].
Первые попытки реализации NMT в компании Google в 2004 г. выявили целый ряд недостат- ков. Одним из них была низкая скорость обучения программы, так как большое число выявленных признаков требовали много времени на формирование целевой информации. Кроме того, NMT оказался неэффективным при работе с редкими словами, а в отдельных случаях не удавалось пе- ревести все слова входного предложения.
Дальнейшее совершенствование Google’s NMT (GNMT) было направлено на повышение бы- стродействия и качества переводимых текстов. Например, для эффективного использования всей информации, полученной на предыдущих этапах, были задействованы рекурсивные нейросети (RNS) с долгой краткосрочной памятью (long short-term memory, LSTM) [Hochreiter, Schmidhuber, 1997; Gers, Schmidhuber, Cummins, 2000]. Чтобы уменьшить время вывода, использовались вычис- ления с низкой точностью (low-precision arithmetic), а в целях дополнительного ускорения – спе- циальное оборудование (Google’s Tensor Processing Unit – тензорный процессор Google). Перевод
редких слов осуществлялся путем их представления на входе и выходе в форме набора составных элементов (частей слова – wordpieces) [Schuster, Nakajima, 2016]. Для решения проблемы неполно- го перевода применялся метод лучевого поиска (beam search) и был реализован штраф за пропуск слов [Ганегедара, 2019]. Привлекались также другие разнообразные механизмы и приемы, способ- ствующие значительному улучшению результатов NMT.
Разработчики стремятся к созданию моделей с большей глубиной нейросети (большим чис- лом слоев), так как они характеризуются более высокой точностью по сравнению с другими моде- лями машинного обучения. Дополнение их, например, современными методами инициализации
1 Нейролингвистическое программирование (от англ. Neuro-linguistic programming) – подход к межличностному общению, развитию личности и психотерапии.
Завьера (Xavier) обеспечивает более короткий период обучения [Gradient flow in recurrent nets …, 2001].
В настоящее время GNMT является одним из самых востребованных в мире автоматических переводчиков. Ежедневно сервис обрабатывает около 143 млрд слов более чем на 100 языках [Блеск и нищета …, 2020]. Компания Google перешла на GNMT вместо ранее используемой SMT [Ганегедара, 2019]. «Майкрософт» использует похожую технологию для перевода речи (в том числе в «Майкрософт-переводчике» и «Skype-переводчике»). Гарвардской группой по обработке естественного языка была выпущена OpenNMT – система нейронного МП с открытым исходным кодом. «Яндекс-переводчик» базируется на гибридной модели, использующей технологии SMT и NMT. Выбор лучшего перевода из полученных результатов обеспечивает технология CatBoost, в основе которой также лежит машинное
обучение [Машинный перевод, 2021].
Фразеологический машинный перевод
Впервые в СССР идею создания переводчика, обеспечивающего высококачественный авто- матический перевод текстов, высказал Г.Г. Белоногов1 (1975). Свое предложение он сформулиро- вал в виде концепции фразеологического МП (FMT) [Каким быть машинному переводу …, 2002]. В краткой форме ее основные положения представляют следующее.
По мнению Г.Г. Белоногова, для реализации адекватного МП необходимо учитывать объек- тивные законы функционирования языка и мышления, богатый опыт межнационального общения, а также опыт переводческой деятельности, накопленный человечеством. Этот опыт свидетельст- вует о том, что в процессе перевода текстов в качестве основных единиц смысла выступают, пре- жде всего, фразеологические словосочетания, выражающие определенные понятия. Поэтому сис- темы МП должны переводить не слова и их последовательности, а мысленные образы в форме слов и словосочетаний.
Кроме того, в языке объективно существует иерархия смысловых единиц. Причем смысловое содержание вышестоящих единиц не всегда сводимо к смыслу составляющих их нижестоящих единиц. Наиболее устойчивыми единицами смысла являются фразеологические понятия. Они также служат теми базовыми «строительными блоками», которые формируют смысловые едини- цы более высоких уровней – предложения, сверхфразовые единства и тексты [Белоногов, Хоро- шилов, Хорошилов, 2005].
1 Белоногов Г.Г. (1925–2018) – один из основоположников отечественной информатики, признанный как в Рос- сии, так и за рубежом, известный специалист в области компьютерной лингвистики и автоматической обработки тек- стов. Работал в 27 ЦНИИ МО (1961–1980), затем в ВИНИТИ РАН (1980–2001) и лингвистической фирме МетаФраз (2003–2005). В частности, им была разработана уникальная машинная грамматика