Файл: 2 Области применения информационных технологии в лингвистике.docx
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 02.12.2023
Просмотров: 23
Скачиваний: 1
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
Автономная некоммерческая организация высшего образования «МОСКОВСКИЙ МЕЖДУНАРОДНЫЙ УНИВЕРСИТЕТ» |
Кафедра экономики и управления Форма обучения: заочная |
ВЫПОЛНЕНИЕ
ПРАКТИЧЕСКИХ ЗАДАНИЙ
ПО ДИСЦИПЛИНЕ
Информационные технологии в лингвистике
Группа
Студент
Ляшников
МОСКВА 2021
Практическое занятие к теме 1 «Основные понятия ИТ в лингвистике» Задание №1.
Слов | 64 |
Символов (без пробелов) | 473 |
Символов (с пробелами) | 535 |
Символов в латинской графике | 10 |
Чисел | 2 |
Средняя длина слов | 7.4 |
Практическое занятие 2 по теме 2 «Области применения информационных технологий в лингвистике»
Задание 1. Определите машинные основы следующих слов:
Слово | Машинная | Слово | Машинная основа |
Семья | семь — корень, я — окончание, семь — основа слова | Окружать | круж — корень, а, ть — суффиксы, нет окончания, окружа — основа слова. |
Весна | весн — корень, а — окончание, весн — основа слова | Сидеть | сид — корень, е, ть — суффиксы, нет окончания, сиде — основа слова. |
Дело | дел — корень, о — окончание, дел — основа слова. | Друг | друг — корень, нулевое окончание, друг — основа слова. |
Пианино | пианино — корень, нет окончания, пианино — основа слова. | Ты | Т-корень, ы- окончание |
Стремительный | стрем — корень, и, тельн — суффиксы, ый — окончание, стремительн — основа слова. | Жёлтый | корень - жёлт, окончание - ый, жёлт – основа слова |
Развивать | ви — корень, ва, ть — суффиксы, нет окончания, развива — основа слова. | Петь | пе — корень, ть — суффикс, нет окончания, пе — основа слова. |
Практическое занятие 3 теме 3 «Прикладные разделы компьютерной лингвистики»
Задание 1. Составьте глоссарий по теме «Корпусная лингвистика». Используйте для этого рекомендуемые источники литературы и сетевые ресурсы. Включите в глоссарий определения следующих понятий: конкорданс, рандомизация, коллокация, подмассив, парсинг, лемматизация, корпус-менеджер.
Глоссарий по теме «Корпусная лингвистика».
Конкорданс – это список всех употреблений заданного языкового выражения (например, слова) в контексте, возможно, со ссылками на источник. В этом значении данный термин широко используется в корпусной лингвистике.
Рандомизация — статистический прием, при котором решение принимается случайным образом.
Коллокация — в корпусной лингвистике под коллокацией понимается последовательность слов или терминов, частотность совместного появления которых в корпусе выше, чем ожидаемая вероятность их совместного появления. Примерами коллокаций являются: средний класс, кристально честный, пластическая операция и т. п.
Подмассив — это любая последовательность чисел в массиве (непрерывная)
Парсинг – это синтаксический анализ, который автоматически производится парсером – специальной программой или скриптом. Характер парсинга определяется заданием получить определенную информацию со страниц сайта, параметры анализа заранее задаются. Собранная информация предоставляется в определенном виде и проводится на одном из языков программирования.
Лемматизация — это метод морфологического анализа, который сводится к приведению словоформы к ее первоначальной словарной форме (лемме).
Пример:
кошками → кошка
бежал → бежать
боязненных → боязненный
Конкорданс и корпус менеджер — это программное обеспечение для корпуса, конкорданс - проще, потому что подсчитывает только частоту слова, морфемы, символа, а корпус-менеджер - намного сложнее, потому что подсчитывает конкретные словоформы, группы словосочетаний и также может выводить результаты статистики, представить в виде диаграммы.