Файл: Проекты CbolaOleada реализуют обширные компьютерные системы лингвистического анализа текстов, представленных в Unicode.docx

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 26.10.2023

Просмотров: 37

Скачиваний: 1

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Автономная некоммерческая организация высшего образования

«МОСКОВСКИЙ МЕЖДУНАРОДНЫЙ УНИВЕРСИТЕТ»


Кафедра лингвистики
Форма обучения: заочная



ВЫПОЛНЕНИЕ

ПРАКТИЧЕСКИХ ЗАДАНИЙ

ПО ДИСЦИПЛИНЕ

Информационные технологии в лингвистике



Группа 22Л161
Студент
Желанова Е.И.


МОСКВА 2023

Практическое занятие к теме 1 «Основные понятия ИТ в лингвистике»

Задание №1. Определите статистические показатели приведенного ниже текста смешанного языкового типа (только статистическая обработка текста, можно воспользоваться разделом «Статистика» в word и/или https://textis.ru/podschet-simvolov-onlayn/). «Проекты Cíbola/Oleada реализуют обширные компьютерные системы лингвистического анализа текстов, представленных в Unicode. Компоненты системы включают средства работы с мультиязыковыми текстами (MUTT), построения конкорданса (XConcord) для текстов на более чем 16 языках, статистического анализа, автоматического перевода, различные словари и тезаурусы. Некоторые версии этих компонентов доступны для бесплатной загрузки после процедуры формальной регистрации. Все компоненты реализованы в среде X11 Window System для SunOs и Solaris».



Слов


64

Символов (без пробелов)

473

Символов (с пробелами)

535

Символов в латинской графике




Чисел




Средняя длина слов


7,4



Практическая работа №2 по теме 2 «Области применения информационных технологий в лингвистике»

Задание №1 «Области применения информационных технологий в лингвистике»


Слово

Машинная основа

Слово

Машинная основа

Семья

семь

окружать

окружа

весна

весна

сидеть

сиде

дело

дел

друг

друг

пианино

пианино

ты

т

стремительный

стремительн

желтый

желт

развивать

разви

петь

пе














Практическая работа №3 по теме 3 «Прикладные разделы компьютерной лингвистики»

Задание 1. Составьте глоссарий по теме «Корпусная лингвистика». Используйте для этого рекомендуемые источники литературы и сетевые ресурсы. Включите в глоссарий определения следующих понятий: конкорданс, рандомизация, коллокация, подмассив, парсинг, лемматизация, корпус-менеджер. Воспользуйтесь следующими программами: https://tatoeba.org/rus http://www.ruscorpora.ru/new/ http://www.helsinki.fi/varieng/CoRD/


слово

значение

конкорданс -

Рандомизация - процедура случайного выбора элементов статистической совокупности при проведении выборочного исследования

алфавитный перечень всех слов какого-либо текста с указанием контекстов их употребления; тип словаря, представленный в таком виде.

+Коллокация -

в корпусной лингвистике под коллокацией понимается последовательность слов или терминов, частотность совместного появления которых в корпусе выше, чем ожидаемая вероятность их совместного появления.

Подмассив -

это любая последовательность чисел в массиве (непрырывная)

Парсинг -

это синтаксический анализ, который автоматически производится парсером – специальной программой или скриптом.

Лемматизация -

процесс привода словоформы к лемме — её нормальной (словарной) форме. Примеры кошками → кошка бежал → бежать боязненных → боязненный

Корпус- менеджер - 


программное обеспечение для корпусакотороеподсчитывает конкретные словоформы, группы словосочетаний и также может выводить результаты статистики, представить в виде диаграммы.