Файл: Информационные технологии в лингвистике.docx

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 07.11.2023

Просмотров: 46

Скачиваний: 2

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Автономная некоммерческая организация высшего образования

«МОСКОВСКИЙ МЕЖДУНАРОДНЫЙ УНИВЕРСИТЕТ»


Кафедра экономики и управления
Форма обучения: заочная



ВЫПОЛНЕНИЕ

ПРАКТИЧЕСКИХ ЗАДАНИЙ

ПО ДИСЦИПЛИНЕ


Информационные технологии в лингвистике 





Группа 22Л191
Студент
Н.Ф.Абдусатарова


МОСКВА 2023

Практическое занятие к теме 1 «Основные понятия ИТ в лингвистике»

Задание №1. Определите статистические показатели приведенного ниже текста смешанного языкового типа (только статистическая обработка текста, можно воспользоваться разделом «Статистика» в word и/или https://textis.ru/podschet-simvolov-onlayn/). «Проекты Cíbola/Oleada реализуют обширные компьютерные системы лингвистического анализа текстов, представленных в Unicode. Компоненты системы включают средства работы с мультиязыковыми текстами (MUTT), построения конкорданса (XConcord) для текстов на более чем 16 языках, статистического анализа, автоматического перевода, различные словари и тезаурусы. Некоторые версии этих компонентов доступны для бесплатной загрузки после процедуры формальной регистрации. Все компоненты реализованы в среде X11 Window System для SunOs и Solaris».



Слов


64


Символов (без пробелов)


473


Символов (с пробелами)


535


Символов в латинской графике




Чисел




Средняя длина слов


7,4


Практическое занятие №2 по теме 2 «Области применения информационных технологий в лингвистике»


Задание №1 «Области применения информационных технологий в лингвистике»


Слово


Машинная основа


Слово


Машинная основа


Семья


семь


окружать


окружа


весна


весна


сидеть


сиде


дело


дел


друг


друг


пианино


пианино


ты


т


стремительный


стремительн


желтый


желт


развивать


разви


петь


пе



Практическое занятие №3 по теме 3 «Прикладные разделы компьютерной лингвистики»

Задание 1. Составьте глоссарий по теме «Корпусная лингвистика». Используйте для этого рекомендуемые источники литературы и сетевые ресурсы. Включите в глоссарий определения следующих понятий: конкорданс, рандомизация, коллокация, подмассив, парсинг, лемматизация, корпус-менеджер. Воспользуйтесь следующими программами: https://tatoeba.org/rus http://www.ruscorpora.ru/new/ http://www.helsinki.fi/varieng/CoRD/




слово


значение


конкорданс -

Рандомизация - процедура случайного выбора элементов статистической совокупности при проведении выборочного исследования


алфавитный перечень всех слов какого-либо текста с указанием контекстов их употребления; тип словаря, представленный в таком виде.


+Коллокация -


в корпусной лингвистике под коллокацией понимается последовательность слов или терминов, частотность совместного появления которых в корпусе выше, чем ожидаемая вероятность их совместного появления.


Подмассив -


это любая последовательность чисел в массиве (непрырывная)


Парсинг -


это синтаксический анализ, который автоматически производится парсером – специальной программой или скриптом.


Лемматизация -


процесс привода словоформы к лемме — её нормальной (словарной) форме. Примеры кошками → кошка бежал → бежать боязненных → боязненный


Корпус- менеджер - 


программное обеспечение для корпусакотороеподсчитывает конкретные словоформы, группы словосочетаний и также может выводить результаты статистики, представить в виде диаграммы.