Файл: Информационные технологии в лингвистике.docx

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 06.12.2023

Просмотров: 357

Скачиваний: 12

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Автономная некоммерческая организация высшего образования

«МОСКОВСКИЙ МЕЖДУНАРОДНЫЙ УНИВЕРСИТЕТ»


Кафедра экономики и управления
Форма обучения: заочная/очно-заочная



ВЫПОЛНЕНИЕ

ПРАКТИЧЕСКИХ ЗАДАНИЙ

ПО ДИСЦИПЛИНЕ

ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ В ЛИНГВИСТИКЕ



Группа
Студент


МОСКВА 2022

Практическое занятие к теме 1 «Основные понятия ИТ в лингвистике»


Слов

64

Символов (без пробелов)

473

Символов (с пробелами)

535

Символов в латинской графике

56

Чисел

4

Средняя длина слов

7.4

Задание №1. Определите статистические показатели приведенного ниже текста смешанного языкового типа (только статистическая обработка текста, можно воспользоваться разделом «Статистика» в word и/или https://textis.ru/podschet-simvolov-onlayn/).

Ответ:
«Проекты Cíbola/Oleada реализуют обширные компьютерные системы лингвистического анализа текстов, представленных в Unicode. Компоненты системы включают средства работы с мультиязыковыми текстами (MUTT), построения конкорданса (XConcord) для текстов на более чем 16 языках, статистического анализа, автоматического перевода, различные словари и тезаурусы. Некоторые версии этих компонентов доступны для бесплатной загрузки после процедуры формальной регистрации. Все компоненты реализованы в среде X11 Window System для SunOs и Solaris».

Практическое занятие 2 по теме 2 «Области применения информационных технологий в лингвистике»


Задание 1. Определите машинные основы следующих слов:


Слово

Машинная основа

Слово

Машинная основа

Семья

Семь – корень,

я – окончание,

семь – основа слова.

Окружать

Круж – корень,

о – приставка,

а, ть – суффиксы,

окончание нулевое,

окружа – основа слова.

Весна

Весн – корень,

а – окончание, весн – основа слова.

Сидеть

Сид – корень,

е, ть – суффиксы,

окончание нулевое,

сиде – основа слова.

Дело

Дел – корень,

о – окончание,

дел – основа слова.

Друг

Друг – корень,

окончание нулевое,

друг – основа слова.

Пианино

Пианино – корень,

нулевое окончание, пианино – основа слова.

Ты

Т – корень,

ы – окончание,

т – основа слова.

Стремительный

стрем – корень, и, тельн – суффиксы,

ый – окончание, стремительн – основа слова.

Желтый

Желт – корень,

ый – окончание, желт – основа слова.

Развивать

раз – приставка,

ви – корень,

ва, ть – суффиксы,

нулевое окончание,

развива – основа слова.

Петь



Пе – корень,

ть – суффикс,

нулевое окончание,

пе – основа слова.



Практическое занятие 3 по теме 3 «Прикладные разделы компьютерной

лингвистики»

Задание 1. Составьте глоссарий по теме «Корпусная лингвистика». Используйте для этого рекомендуемые источники литературы и сетевые ресурсы. Включите в глоссарий определения следующих понятий: конкорданс, рандомизация, коллокация, подмассив, парсинг, лемматизация, корпус-менеджер.

Воспользуйтесь следующими программами:

https://tatoeba.org/rus

http://www.ruscorpora.ru/new/

http://www.helsinki.fi/varieng/CoRD/
Ответ:

Глоссарий по теме «Корпусная лингвистика»


Понятие

Определение

Коллокация

в корпусной лингвистике под коллокацией понимается последовательность слов или терминов, частотность совместного появления которых в корпусе выше, чем ожидаемая вероятность их совместного появления. Примерами коллокаций являются: средний класс, пластическая операция и т. п.

Конкорданс


это список всех употреблений заданного языкового выражения (например, слова) в контексте, возможно, со ссылками на источник. В этом значении данный термин широко используется в корпусной лингвистике.

Алфавитный перечень всех слов какого-либо текста с указанием контекстов их употребления; тип словаря, представленный в таком виде

Корпус-менеджер

программное обеспечение для корпуса, которое подсчитывает конкретные словоформы, группы словосочетаний и также может выводить результаты статистики, представить в виде диаграммы

Лемматизация

процесс привода словоформы к лемме – её нормальной (словарной) форме.

Примеры:

танцевал → танцевать

цветами → цветы

Парсинг

это синтаксический анализ, который автоматически производится парсером – специальной программой или скриптом.

Подмассив

это любая последовательность чисел в массиве (непрырывная)

Рандомизация


это расположение тех или иных объектов в случайном порядке.

Нейронная интерпретация выборки для структурного статистического моделирования совокупностей предприятий (2004) // «Вопросы статистики», 24.06.2004.

Искусственное внесение случайности в процесс формирования выборки (рандомизация) позволяет превратить некоторые систематические ошибки в случайные. (http://www.ruscorpora.ru/new/)