ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 06.12.2023
Просмотров: 357
Скачиваний: 12
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
Автономная некоммерческая организация высшего образования «МОСКОВСКИЙ МЕЖДУНАРОДНЫЙ УНИВЕРСИТЕТ» |
Кафедра экономики и управления Форма обучения: заочная/очно-заочная |
ВЫПОЛНЕНИЕ
ПРАКТИЧЕСКИХ ЗАДАНИЙ
ПО ДИСЦИПЛИНЕ
ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ В ЛИНГВИСТИКЕ
Группа
Студент
МОСКВА 2022
Практическое занятие к теме 1 «Основные понятия ИТ в лингвистике»
Слов | 64 |
Символов (без пробелов) | 473 |
Символов (с пробелами) | 535 |
Символов в латинской графике | 56 |
Чисел | 4 |
Средняя длина слов | 7.4 |
Задание №1. Определите статистические показатели приведенного ниже текста смешанного языкового типа (только статистическая обработка текста, можно воспользоваться разделом «Статистика» в word и/или https://textis.ru/podschet-simvolov-onlayn/).
Ответ:
«Проекты Cíbola/Oleada реализуют обширные компьютерные системы лингвистического анализа текстов, представленных в Unicode. Компоненты системы включают средства работы с мультиязыковыми текстами (MUTT), построения конкорданса (XConcord) для текстов на более чем 16 языках, статистического анализа, автоматического перевода, различные словари и тезаурусы. Некоторые версии этих компонентов доступны для бесплатной загрузки после процедуры формальной регистрации. Все компоненты реализованы в среде X11 Window System для SunOs и Solaris».
Практическое занятие 2 по теме 2 «Области применения информационных технологий в лингвистике»
Задание 1. Определите машинные основы следующих слов:
Слово | Машинная основа | Слово | Машинная основа |
Семья | Семь – корень, я – окончание, семь – основа слова. | Окружать | Круж – корень, о – приставка, а, ть – суффиксы, окончание нулевое, окружа – основа слова. |
Весна | Весн – корень, а – окончание, весн – основа слова. | Сидеть | Сид – корень, е, ть – суффиксы, окончание нулевое, сиде – основа слова. |
Дело | Дел – корень, о – окончание, дел – основа слова. | Друг | Друг – корень, окончание нулевое, друг – основа слова. |
Пианино | Пианино – корень, нулевое окончание, пианино – основа слова. | Ты | Т – корень, ы – окончание, т – основа слова. |
Стремительный | стрем – корень, и, тельн – суффиксы, ый – окончание, стремительн – основа слова. | Желтый | Желт – корень, ый – окончание, желт – основа слова. |
Развивать | раз – приставка, ви – корень, ва, ть – суффиксы, нулевое окончание, развива – основа слова. | Петь | Пе – корень, ть – суффикс, нулевое окончание, пе – основа слова. |
Практическое занятие 3 по теме 3 «Прикладные разделы компьютерной
лингвистики»
Задание 1. Составьте глоссарий по теме «Корпусная лингвистика». Используйте для этого рекомендуемые источники литературы и сетевые ресурсы. Включите в глоссарий определения следующих понятий: конкорданс, рандомизация, коллокация, подмассив, парсинг, лемматизация, корпус-менеджер.
Воспользуйтесь следующими программами:
https://tatoeba.org/rus
http://www.ruscorpora.ru/new/
http://www.helsinki.fi/varieng/CoRD/
Ответ:
Глоссарий по теме «Корпусная лингвистика»
Понятие | Определение |
Коллокация | в корпусной лингвистике под коллокацией понимается последовательность слов или терминов, частотность совместного появления которых в корпусе выше, чем ожидаемая вероятность их совместного появления. Примерами коллокаций являются: средний класс, пластическая операция и т. п. |
Конкорданс | это список всех употреблений заданного языкового выражения (например, слова) в контексте, возможно, со ссылками на источник. В этом значении данный термин широко используется в корпусной лингвистике. Алфавитный перечень всех слов какого-либо текста с указанием контекстов их употребления; тип словаря, представленный в таком виде |
Корпус-менеджер | программное обеспечение для корпуса, которое подсчитывает конкретные словоформы, группы словосочетаний и также может выводить результаты статистики, представить в виде диаграммы |
Лемматизация | процесс привода словоформы к лемме – её нормальной (словарной) форме. Примеры: танцевал → танцевать цветами → цветы |
Парсинг | это синтаксический анализ, который автоматически производится парсером – специальной программой или скриптом. |
Подмассив | это любая последовательность чисел в массиве (непрырывная) |
Рандомизация | это расположение тех или иных объектов в случайном порядке. Нейронная интерпретация выборки для структурного статистического моделирования совокупностей предприятий (2004) // «Вопросы статистики», 24.06.2004. Искусственное внесение случайности в процесс формирования выборки (рандомизация) позволяет превратить некоторые систематические ошибки в случайные. (http://www.ruscorpora.ru/new/) |