Файл: Искусственный интеллект в технологиях машинного перевода.docx

Доктор технических наук, профессор МАИ, ведущий науч- ный сотрудник ФИЦ Институт управления (ИУ) РАН, старший научный сотрудник 27 ЦНИИ Минобороны России, Москва, Рос- сия

Юрий Викторович Никитин

Научный сотрудник ФИЦ Институт управления (ИУ) РАН, руководитель группы разработки АО Научно-производственная компания «Высокие технологии и системы разработки» (НПК

«ВТ и СС»), Москва, Россия

Сергей Игоревич Пшеничный

Кандидат экономических наук, директор программ АО На- учно-производственная компания «Высокие технологии и систе- мы разработки» (НПК «ВТ и СС»), Москва, Россия

Алексей Алексеевич Хорошилов

Кандидат технических наук, старший научный сотрудник

27 ЦНИИ Минобороны РФ, Москва, Россия

Аннотация. Возможности машинного перевода тесно связаны с совершенствованием мо-делирования процессов понимания и генерации текстов на естественном языке, что традиционноотносится к классу проблем искусственного интеллекта. В статье предпринята попытка про-

анализировать основные подходы к созданию технологий машинного перевода. Сделан вывод, чтоони пока не предусматривают формирования и использования динамических моделей мира, а дви-гаются, главным образом, в направлении грамматически согласованного перевода последователь-ностейслов.

Ключевые слова: машинный перевод; естественный язык; искусственный интеллект; тех-нологиимашинного перевода.
Дляцитирования:Искусственный интеллект в технологиях машинного перевода / Ко- лин К.К., Хорошилов Ал-др. А., Никитин Ю.В., Пшеничный С.И., Хорошилов Ал-й А. // Социаль- ные новации и социальные науки. – Москва : ИНИОН РАН, 2021. – № 2. – С. 64–80.
URL: https://sns-journal.ru/ru/archive/ DOI: 10.31249/snsn/2021.02.05
© Колин К.К., © Хорошилов Ал-др. А., © Никитин Ю.В., © Пшеничный С.И., © Хорошилов Ал-й А.

Введение

Машинный перевод (МП), наряду с задачами распознавания образов и игрой в шахматы, в середине прошлого столетия был отнесен к классу проблем искусственного интеллекта (ИИ) [Па- нов, Ляпунов, Мухин, 1956]. Проблема автоматического распознавания образов и проблема игры компьютера в шахматы к настоящему времени успешно решены. Как заявляют некоторые круп- нейшие транснациональные IT-компании (Google, IBM и др.), решена и проблема МП [Хобсон, Ханнес, Коул, 2020; Ганегедара, 2019]. Так ли это на самом деле? Заявления на эту тему делались неоднократно, но анализ показывал, что они не вполне соответствуют действительности. И это понятно, поскольку технология МП весьма сложна из-за тесной связи с проблемами моделирова- ния процессов понимания и генерации текстов на естественном языке (ЕЯ). Последний, как из- вестно, является универсальным средством общения между людьми, а также средством воспри- ятия, накопления, хранения и передачи информации. Более того, ЕЯ является инструментом мышления человека [Апресян, 1966; Белоногов, Калинин, Хорошилов, 2004; Мельчук, 1999].

На протяжении длительного времени ЕЯ является объектом изучения ряда научных дисцип- лин, таких как лингвистика, семиотика, нейролингвистика и др. [Соссюр, 1977; Ветров, 1968; Шрейдер, 1974]. Например, психологи считают, что ЕЯ представляет собой вторую сигнальную систему человека, функционирующую на основе первой сигнальной системы (т.е. системы врож- денных безусловных рефлексов, возникающих под воздействием сигналов, получаемых от зри- тельных, слуховых, тактильных и других рецепторов). Сигналы, поступающие во время разговора или восприятия речи, инициируют мыслительные процессы людей, но не определяют их полно- стью. Интерпретация речевых сигналов человеком (их понимание) происходит с учетом жизнен- ного опыта и профессиональных знаний, накапливаемых в течение жизни. Этот комплекс знаний

представляет собой некоторую динамическую модель мира, которая в процессе речевого общения выполняет роль пресуппозиций [Лурия, 2019; Максименко, 2000].

Известный советский лингвист В.А. Звегинцев констатирует: «Пресуппозиции образуют смысловой каркас, на котором строится текст (дискурс). Здесь… говорилось о существовании на- ряду с текстом подтекста». Их обязательная согласованность только и может «создать эффект уместности» [Звегинцев, 1976]. Таким образом, пресуппозиции – это определенный подтекст (умолчания), с которым должен согласовываться видимый или слышимый текст. Считается воз- можным для каждого предложения текста эксплицировать этот подтекст в виде наборов соответ- ствующих «пресуппозиционных» предложений. Без учета «пресуппозиций» в письменных текстах

описание явлений реального или абстрактного мира всегда будет неполным, так как предполагает- ся, что часть информации уже известна и ее нет необходимости излагать в тексте.

Письменный текст, как и звуковая речь, развертывается последовательно во времени, т.е. имеет линейную структуру, тогда как возникающие в сознании человека мысленные образы «мно- гомерны». При их словесном описании может быть принят различный порядок линейной разверт- ки. Однако цель описания одна и та же – воссоздание в сознании читателей мысленных образов, адекватных авторским. Такое воссоздание осуществляется постепенно, путем воспроизведения предложения за предложением и «монтажа» возникающих при этом частичных образов в целост- ный, соответствующий содержанию текста. При этом в каждом предложении элемент его актуаль- ного членения – «тема», – выполняет роль «стыковочного узла», служащего для подключения но- вого, обозначаемого этим предложением образа к ранее построенному. Данная модель восприятия текста позволяет объяснить тот факт, что связи между предложениями выражаются в большинстве случаев с помощью лексических повторов. В «стыковочных узлах» предложений понятия предше-

ствующего текста повторяются или буквально, или в виде синонимических и эллиптических¹ кон- струкций, или в виде родовых наименований и местоимений.

Таким образом, моделирование процессов восприятия и воспроизводства ЕЯ должно по сво- ей сути отражать работу мозга человека при постижении им окружающей действительности. По- этому при МП необходимо учитывать важнейшие особенности мыслительной деятельности лю- дей. Кратко рассмотрим основные подходы к разрешению данных проблем на основе технологий ИИ.