Файл: Анализ языковой сложности русскоязычных учебных пособий по лингвистике.docx

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 30.10.2023

Просмотров: 233

Скачиваний: 1

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
структурой и обилием лингвистической информации, но и должен быть качественно аннотирован, что подразумевает ручное форматирование экспертом-лингвистом.

Первым организованным корпусом был Brown University Standard Corpus of Present-Day American English [thebrowncorpus.com], составленный в 1960-е годы лингвистами Генри Кучера и Винтропом Нельсоном Фрэнцисом. Данный корпус состоит из одного миллиона слов американских текстов, датируемых 1961-м годом. Для оптимизации информации, входные тексты были добавлены в разных пропорциях и подразделены на 15 категорий, такие как: Журналистика, Религия, Художественные тексты, и.т.п. Несмотря на то, что на данный момент этот корпус является устарелым и включает относительно малое количество данных, он обрел вторую жизнь посредством сращения с другими корпусами.

Другими корпусами, оказавшими влияние на развитие корпусной лингвистики, являются British National Corpus (BNC), The International Corpus of English (ICE) и The American National Corpus (ANC).

На сегодняшний день, корпусы используются не только для реферативных целей, но и как инструменты языкового анализа.

Принцип и модель создания корпуса зависят от цели, поставленной создателями. Таким образом, с развитием корпусной лингвистики появились такие разновидности корпусов как: исторические корпуса, национальные корпуса, корпуса специальных текстов, и.т.д.

Составление и дальнейшее использование сборников текстов широко распространено для изучения языковых проблем в области диахронической лингвистики. С развитием информационных технологий и корпусной лингвистики языковеды, работающие над историческими вопросами языка,
осознали, что использование корпуса приведет к оптимизации процесса их исследований. Примером этого может послужить The Helsinki Corpus of English Texts [https://varieng.helsinki.fi/CoRD/corpora/HelsinkiCorpus/], созданный при поддержке Хельсинкского университета, компиляция которого происходила с 1984 до 1991 года. Данный корпус содержит тексты староанглийского, среднеанглийского и ранне английского. Общий объем составляет 1,5 миллиона слов.

Национальные корпуса имеют цель обобщить и собрать как можно большее количество языковых данных для определенного языка, которые охватывают один или несколько этапов данного языка и его разновидностей, будь то жанр, стиль, социальный вариант. Как правило, такие корпуса включают около 100 млн словоупотреблений, сбалансированы по своему наполнению и экстенсивно аннотированы. НКРЯ (Национальный корпус русского языка) является примером корпуса данного типа. НКРЯ включает тексты, созданные начиная с XVIII и заканчивая началом XXI века, а также имеет систему подкорпусов. НКРЯ, как и остальные национальные корпуса, постоянно пополняется лингвистическими данными, не только письменными, но и устными (не только транскрипциями, но и звуковыми файлами).

Особого внимания для данной работы заслуживают корпусы специальных текстов. Корпусы специальных текстов имеют цель осветить язык, используемый в специальных целях и включают в себя специальные тексты. Специальный текст является текстом, отражающим определенное профессиональное знание [Герд, 1994].

Необходимость в создании корпусов специальных текстов вызвана тем, что национальные корпуса не содержат достаточного количества вхождений данной разновидности текста.

Прежде всего структура корпуса опирается на то,

какую цель перед собой поставили его создатели. Исходя из данной цели, нужно определить жанрово-тематическую структуру корпуса, что будет являться текстом, временные параметры и потенциальных пользователей.

Жанрово-тематическая структура определяет общий принцип выборки текстов, способы разметки и функционал корпуса. Выборка текстов должна максимально соответствовать и в полной мере отражать выбранную категорию корпуса. Учитывая данные факторы, можно сказать, что корпус является уменьшенной моделью языка или подъязыка [Захаров, с. 13, 10].

Соответствие корпуса и включенных в него текстов определенной модели языка называется репрезентативностью. Таким образом, исторический корпус английской литературы XVIIв. должен включать в себя достаточно большое количество словоупотреблений, относящихся к данному периоду и теме. Также, такой корпус должен содержать произведения не только одного, а множество английских писателей XVIIв., чтобы в полной мере отобразить свойства и особенности данной модели языка. Данный параметр называется сбалансированностью.

Определение временных параметров влияет на хронологические рамки корпуса, то есть содержащиеся в корпусе вхождения должны входить в данные рамки, но в некоторых случаях могу быть допущены исключения. Таким образом, принципиально значимые труды определенной тематики включаются в корпус, независимо от даты их публикации.

Проблема определения текста неоднозначна и представляет несколько важных вопросов. К примеру, считать ли список аннотаций отдельным текстом либо брать за текст лишь одну аннотацию. Или, к примеру, когда мы рассматриваем транскрибированный выпуск комикса,
считать ли текстом предложение(я) в каждом отдельном бабле (от англ. пузырь) либо брать весь комикс включая текст обложки и прочую информацию за один текст, либо выделять только текст, представляющий начало и конец сюжета комикса (с 1-й по последнюю страницы).

Корпус должен быть смоделирован опираясь на определенную аудиторию пользователей, так как от этого будет зависеть его структура. Например, обучающий и диалектный корпус должны быть построены по разным принципам, так как они имеют совершенно разную аудиторию.

      1. Инструментарий для работы с корпусами

Отдельной проблемой явялется построение корпусов текста, очень часто это делается вручную, но чаще всего привлекаются инструменты корпусные менеджеры.

Одним из наиболее наглядных примеров корпусного-менеджера является AntConc [https://www.laurenceanthony.net/software/antconc/]. AntConc является бесплатной программой и широко используется в работе лингвистов. Через эту программу можно находить конкордансы слова, многокомпонентные слова и использовать регулярные выражения Regex.



Рисунок 1.3.2 Интерфейс AntConc

В последнее время получили распространение программы кроулеры (от англ. crawl – ползать). Они позволяют осуществлять экстракцию текстов из интернета по ключевым словам. Одним из примеров таких программ является Trafilatura [https://trafilatura.readthedocs.io]. Trafilatura базируется на программном языке Python и позволяет скачивать интернет тексты по заданным ключевым словам.

Важной составляющей любого программного средства для работы с корпусами является процесс токенизации. Корпусовая текстовая единица распадается на два
элемента - предложение и слово. Определение и выделение данных элементов в корпусе называется токенизацией.

Соответственно, токеном является графическое слово, от пробела до пробела [Захаров, 2019, 10]. Процесс токенизации представляет несколько нюансов. К примеру, считать ли вхождения краsота и проsтом как красота и простом либо же отнести их к отдельным словоформам. Считать ли вхождения Grace и grace (от.англ. изящность) одной словоформой либо их отделить, проблемным этот вопрос в силу того, что нарицательное слово grace может писаться с заглавной буквы в начале предложения, но при этом Grace является именем собственным и всегда пишется с заглавной буквы.

Дополнительные элементы информации такие как, например, таблицы, скриншоты, рисунки, должны быть либо удалены, либо, в случае наличия текста, преобразованы в текстовый формат. В данных случаях автоматическая обработка не всегда корректно работает. Таким образом, эксперту-лингвисту необходимо вручную форматировать данные элементы.

      1. Построение многоязычного словаря с использованием корпуса

Рассматривая корпусно-ориентированные методы построения многоязычных словарей, можно выделить этапы построения словаря и различные алгоритмы их выполнения, свойственные данным методам.

В подобных методах зачастую используются двуязычные либо многоязычные корпусы параллельных текстов. Использование корпуса с большим количеством вхождений не обязательно для достижения отличных результатов, большее значение имеет качество перевода текста.

Важнейшим аспектом построения