Файл: 2 Области применения информационных технологии в лингвистике.docx

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 02.12.2023

Просмотров: 23

Скачиваний: 1

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Автономная некоммерческая организация высшего образования

«МОСКОВСКИЙ МЕЖДУНАРОДНЫЙ УНИВЕРСИТЕТ»


Кафедра экономики и управления
Форма обучения: заочная



ВЫПОЛНЕНИЕ

ПРАКТИЧЕСКИХ ЗАДАНИЙ

ПО ДИСЦИПЛИНЕ

Информационные технологии в лингвистике


Группа
Студент
Ляшников


МОСКВА 2021
Практическое занятие к теме 1 «Основные понятия ИТ в лингвистике» Задание №1.


Слов


64


Символов (без пробелов)


473


Символов (с пробелами)


535


Символов в латинской графике


10


Чисел


2


Средняя длина слов


7.4



Практическое занятие 2 по теме 2 «Области применения информационных технологий в лингвистике»

Задание 1. Определите машинные основы следующих слов:



Слово


Машинная


Слово

Машинная основа

Семья

семь — корень, я — окончание, семь — основа слова


Окружать

круж — корень,

а, ть — суффиксы, нет окончания, окружа — основа слова.

Весна

весн — корень, а — окончание, весн — основа слова


Сидеть

сид — корень, е, ть — суффиксы, нет окончания, сиде — основа слова.

Дело

дел — корень, о — окончание, дел — основа слова.

Друг

друг — корень, нулевое окончание, друг — основа слова.

Пианино

пианино — корень, нет окончания, пианино — основа слова.

Ты

Т-корень, ы- окончание

Стремительный

стрем — корень, и, тельн — суффиксы, ый — окончание, стремительн — основа слова.

Жёлтый

корень - жёлт, окончание - ый, жёлт – основа слова

Развивать

ви — корень, ва, ть — суффиксы, нет окончания, развива — основа слова.

Петь

пе — корень, ть — суффикс, нет окончания, пе — основа слова.



Практическое занятие 3 теме 3 «Прикладные разделы компьютерной лингвистики»

Задание 1. Составьте глоссарий по теме «Корпусная лингвистика». Используйте для этого рекомендуемые источники литературы и сетевые ресурсы. Включите в глоссарий определения следующих понятий: конкорданс, рандомизация, коллокация, подмассив, парсинг, лемматизация, корпус-менеджер.

Глоссарий по теме «Корпусная лингвистика».

Конкорданс это список всех употреблений заданного языкового выражения (например, слова) в контексте, возможно, со ссылками на источник. В этом значении данный термин широко используется в корпусной лингвистике.

Рандомизация — статистический прием, при котором решение принимается случайным образом.

Коллокация — в корпусной лингвистике под коллокацией понимается последовательность слов или терминов, частотность совместного появления которых в корпусе выше, чем ожидаемая вероятность их совместного появления. Примерами коллокаций являются: средний класс, кристально честный, пластическая операция и т. п.
Подмассив — это любая последовательность чисел в массиве (непрерывная)

Парсинг – это синтаксический анализ, который автоматически производится парсером – специальной программой или скриптом. Характер парсинга определяется заданием получить определенную информацию со страниц сайта, параметры анализа заранее задаются. Собранная информация предоставляется в определенном виде и проводится на одном из языков программирования.

Лемматизация — это метод морфологического анализа, который сводится к приведению словоформы к ее первоначальной словарной форме (лемме).
Пример:
кошками → кошка
бежал → бежать
боязненных → боязненный

Конкорданс и корпус менеджер — это программное обеспечение для корпуса, конкорданс - проще, потому что подсчитывает только частоту слова, морфемы, символа, а корпус-менеджер - намного сложнее, потому что подсчитывает конкретные словоформы, группы словосочетаний и также может выводить результаты статистики, представить в виде диаграммы.