Файл: Проекты CbolaOleada реализуют обширные компьютерные системы лингвистического анализа текстов, представленных в Unicode.docx
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 26.10.2023
Просмотров: 37
Скачиваний: 1
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
Автономная некоммерческая организация высшего образования «МОСКОВСКИЙ МЕЖДУНАРОДНЫЙ УНИВЕРСИТЕТ» |
Кафедра лингвистики Форма обучения: заочная |
ВЫПОЛНЕНИЕ
ПРАКТИЧЕСКИХ ЗАДАНИЙ
ПО ДИСЦИПЛИНЕ
Информационные технологии в лингвистике
Группа 22Л161
Студент
Желанова Е.И.
МОСКВА 2023
Практическое занятие к теме 1 «Основные понятия ИТ в лингвистике»
Задание №1. Определите статистические показатели приведенного ниже текста смешанного языкового типа (только статистическая обработка текста, можно воспользоваться разделом «Статистика» в word и/или https://textis.ru/podschet-simvolov-onlayn/). «Проекты Cíbola/Oleada реализуют обширные компьютерные системы лингвистического анализа текстов, представленных в Unicode. Компоненты системы включают средства работы с мультиязыковыми текстами (MUTT), построения конкорданса (XConcord) для текстов на более чем 16 языках, статистического анализа, автоматического перевода, различные словари и тезаурусы. Некоторые версии этих компонентов доступны для бесплатной загрузки после процедуры формальной регистрации. Все компоненты реализованы в среде X11 Window System для SunOs и Solaris».
Слов | 64 |
Символов (без пробелов) | 473 |
Символов (с пробелами) | 535 |
Символов в латинской графике | |
Чисел | |
Средняя длина слов | 7,4 |
Практическая работа №2 по теме 2 «Области применения информационных технологий в лингвистике»
Задание №1 «Области применения информационных технологий в лингвистике»
Слово | Машинная основа | Слово | Машинная основа |
Семья | семь | окружать | окружа |
весна | весна | сидеть | сиде |
дело | дел | друг | друг |
пианино | пианино | ты | т |
стремительный | стремительн | желтый | желт |
развивать | разви | петь | пе |
| | | |
Практическая работа №3 по теме 3 «Прикладные разделы компьютерной лингвистики»
Задание 1. Составьте глоссарий по теме «Корпусная лингвистика». Используйте для этого рекомендуемые источники литературы и сетевые ресурсы. Включите в глоссарий определения следующих понятий: конкорданс, рандомизация, коллокация, подмассив, парсинг, лемматизация, корпус-менеджер. Воспользуйтесь следующими программами: https://tatoeba.org/rus http://www.ruscorpora.ru/new/ http://www.helsinki.fi/varieng/CoRD/
слово | значение |
конкорданс - Рандомизация - процедура случайного выбора элементов статистической совокупности при проведении выборочного исследования | алфавитный перечень всех слов какого-либо текста с указанием контекстов их употребления; тип словаря, представленный в таком виде. |
+Коллокация - | в корпусной лингвистике под коллокацией понимается последовательность слов или терминов, частотность совместного появления которых в корпусе выше, чем ожидаемая вероятность их совместного появления. |
Подмассив - | это любая последовательность чисел в массиве (непрырывная) |
Парсинг - | это синтаксический анализ, который автоматически производится парсером – специальной программой или скриптом. |
Лемматизация - | процесс привода словоформы к лемме — её нормальной (словарной) форме. Примеры кошками → кошка бежал → бежать боязненных → боязненный |
Корпус- менеджер - | программное обеспечение для корпуса, котороеподсчитывает конкретные словоформы, группы словосочетаний и также может выводить результаты статистики, представить в виде диаграммы. |