Файл: Анализ языковой сложности русскоязычных учебных пособий по лингвистике.docx

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 30.10.2023

Просмотров: 235

Скачиваний: 1

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
двуязычного словаря является нахождение соответствия параллельных семантических единиц. Это подразумевает осуществление определенных операций с текстом, необходимо разделить текст на предложения, выровнять тексты, собственно построение словаря.

Разбиение текста на предложения, целью которого является – переход из текста к упорядоченному списку предложений. В работе А.А. Липатова [Липатов, 2005, 17] был описан простой алгоритм разбиения текстов на предложения. Липатов предлагает идентифицировть концы предложений по знакам препинания. Подобный алгоритм не является идеальным, так как в некоторые слова в предложениях могут начинаться с заглавной буквы после сокращений. Тем не менее, для улучшения процесса разбиения текста можно создать создать специальный словарь слов-сокращений и считать в спорных ситуациях сокращениями те слова, которые содержатся в нём.

Выравнивание текста. В работе Gale W. и Church J. [Gale, Church, 1991, 34] освещается подход к выравниванию текста, который основан на статистической модели длины предложений.

В своей работе Gale W. и Church J. обосновывают существование некоторой положительной корелляции между длинной предложения исходного и переводного текста, так как предложения на разных языках имеют возможность сопоставления по этой характеристике. Вычисление параметров характеристики происходит на основе разницы длин предложений символах, включая пробелы) и дисперсии этой разницы. Используя программные коды, находится такое соответствие предложений, при котором характеристики
возможности сопоставления максимальны.

В работе Chen C. [Chen, 1993, 33] рассматривается алгоритм выравнивания предложений в двуязычном корпусе текстов, использующий лексическую информацию. Производится построение простой статистической модели “слово-перевод” в процессе выравнивания. Проводится поиск такого сопоставления предложений, при котором вероятность существования корпуса с такой моделью перевода максимальна. Для начального построения и совершенствования модели перевода используются заранее сопоставленные предложения.

Эти алгоритмы выравнивания предложения в основном используются в случаях, когда информация о языках текста минимальна.

Для тех случаев, когда информации о языках текста достаточно, алгоритм с использованием двуязычных общелексических словарей более актуален. В работе А.А. Липатова [Липатов, 2005, 17] представлен варинт подобного алгоритма. Липатов предлагает разграничить область поиска, область поиска ограничивается следующими типами сопоставлений:

  1. Одно предложение в исходном тексте соответствует одному предложение в переводном тексте;

  2. Одно предложение в исходном тексте соответствует двум последовательным предложениям в переводном тексте;

  3. Два последовательных предложения в исходном тексте соответствует одному предложение в переводном тексте.

Далее вводится коэффициент сопоставления предложений, который выводится из количества слов и словосочетаний исходного предложения, которые соответствует словам и словосочетания в переводном предложении. Таким образом, значение этого коэффицента максимально когда оба предложения эквиваленты друг другу. После этого происходит

отборка слов и словосочетаний из предложений с наиболее высоким коэффицентом составления предложений.

Пополнение словаря осуществляется либо вручную, либо через автоматизацию, которая может быть реализована через программный код. Процент сопоставления является высоким, особенно в текстах технического характера. Тем не менее, после составления словаря подобными образами, нужда в ручной чистке полученной информации остается. В любом случае, составление словаря с использованием корпусно-ориентированными методами эффективнее и не требует большого количества времени, в сравнении с традиционными методами.

      1. Построения одноязычного словаря с использованием корпуса

Процедуры создания словарей с использованием корпуса следуют схожему принципу, создавая при этом определенную закономерность. Ярким примером создания одноязычного словаря является методика, предложенная

Шереметьевой С.О и Осмининым П.Г [Шереметьева, Осминин, Щербаков, 2013, 30]. Данная методика посвящена разработке электронного словаря узкоспециальной лексики.

В первую очередь необходимо определить предметную область, цель и круг пользователей. Следующим этапом является определение модели знаний, то есть то как лингвистическая информация будет представлена в словаре (количество и характер словарных зон).

После этого необходимо составить принцип выбора исходного лингвистического материала, то есть корпуса текстов.

Последующим этапом является составление вокабуляра и предоставление лингвистической
информации, опираясь на определенную модель знания. Вокабуляры могут составлены как вручную, так и при помощи программного обеспечения.

После этого нужно определиться с выбором источника дефиниций, можно либо воспользоваться уже существующей дефиницией из толкового словаря, либо попытаться вывести дефиницию из контекстов термина. Это является проблемой, так как наличие дефиниции термина в существующем словаре не всегда является возможным, это обуславливается от части узкой специализированностью предметной области, но также многокомпонентностью некоторых терминов.

Следующим этапом является создание макета словаря, что подразумевает собой выбор программной оболочки и ее последующей настройки.

Финальным этапом является наполнение словаря лингвистическими данными через программный интерфейс.

Выводы по главе 1

В данной главе были проанализированы понятия лексикография, а также рассмотрены основные исторические периоды данной науки, выделенные В. Гаком, каждый период был охарактеризован.

Мы разобрали типологии Л. Щербы , Ю. С. Маслова, В.Ф. Роменской и В.Д. Табанаковой. Мы также подробно рассмотрели проблему разделения

слова и термина. Были даны признаки, присущие термину. Было рассмотрено как В.А. Татаринов рассматривает термин терминология.

Мы провели описание бумажных и электронных словарей. Были даны аргументы в пользу создания электронных словарей. Мы также рассмотрели историю развития электронной лексикографии.

Были рассмотрены основные подходы к созданию словарей.

Мы рассмотрели использование корпусов при построении словаря. Приведены аргументы в пользу использования корпуса в задаче конструирования словаря.

Было рассмотрено понятие корпус и
различные типы корпусов. Рассмотрено влияние Ноама Хомского на популяризацию корпусно- ориентированных методов построения словарей. Было представлено мнение Владимира Плунгяна на использование корпуса в современной лингвистике.

Приведен ряд аргументов, представленный лингвистом Jan Svartik в пользу использования корпусов при проведении лингвистических исследований. Также нами были приведены примеры первых корпусов.

Выделены параметры сбалансированности и репрезантативности корпуса. Рассмотрена проблема определения текста в корпусе и хронологических рамок.

Нами был приведен пример одного из наиболее популярных инструментов работы с корпусами текста “AntConc”, а также кроулера (от англ. crawl ползать) “Trafilatura”. Рассмотрены понятия токенизации и токена.

Также нами было рассмотрены аспекты построения многоязычного словаря с использованием параллельных корпусов текста. Приведены примеры алгоритмов выполнения задач входящих в проблематику.

Было рассмотрен подход к построению одноязычного словаря узкоспециальной лексики, приведены этапы.