Файл: Протокол 20 г. Дополнительная общеобразовательная общеразвивающая программа.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 25.10.2023
Просмотров: 328
Скачиваний: 2
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
12
просодическая – ударения, ритмика речи, логические ударения и т.д.
Структура морфологической информации в НКРЯ (четыре группы помет):
- лексема, которой принадлежит словоформа («словарная запись», принадлежность к той или иной части речи);
- множество грамматических признаков данной лексемы
(словоклассифицирующие характеристики: род – для существительного, переходность – для глагола);
- множество грамматических признаков данной словоформы
(словоизменительные характеристики: падеж – для существительного, число – для глагола);
- информация о нестандартности грамматической формы, орфографических искажениях и т.д.
Семантическая разметка в НКРЯ (три группы помет):
- разряд: имя собственное, возвратное местоимение и т.д.;
- лексико-семантические характеристики:
таксономия
(тематический класс лексемы)
– для существительных, прилагательных, глаголов и наречий;
мереология (указание на отношения «часть-целое», «элемент- множество» – для предметных и непредметных имен;
топология (топологический статус обозначаемого объекта) – предметных имен;
каузация – для глаголов;
служебный статус – для глаголов;
оценка – для предметных и непредметных имен, прилагательных и наречий;
- словообразовательные характеристики:
морфосемантические
(«диминутив»
– уменьшительное,
«сельфактив» – однократное действие);
разряд производящего слова (отглагольное существительное);
лексико-семантический (таксономический) тип производящего слова (наречие, образованное от прилагательного размера);
морфологический тип словообразования (сложное слово).
Практика. Промежуточная аттестация. Тестирование.
Раздел 3. Автоматический анализ текста
Тема 3.1. Морфологический уровень
Теория. Представление морфологической информации. Лемма.
Парадигма. Морфологический параметр. Словообразовательные (не
13
изменяются при изменении слова по формам) и формообразовательные
(изменяются при изменении слова по формам) параметры слова. Словарь
Зализняка, его особенности. Омонимия в русском языке (одной словоформе можно приписать несколько наборов параметров). Типы омонимии:
- омонимия частеречная – словоформы относятся к различным частям речи;
- омонимия лексическая – возникает вследствие звукового совпадения различных по происхождению слов;
- внутри одной части речи может быть полная или частичная омонимия;
- грамматические омонимы (оморфы) – слова, совпадающие лишь в отдельных формах;
- морфологическая омонимия – одной словоформе, образованной от одной и той же леммы, может быть приписано несколько наборов параметров.
Два типа компьютерных морфологических анализаторов и их особенности.
Проблемы. Дизамбигуация (от disambiguation) – процесс снятия омонимии.
Практика.
Выполнение практических заданий по теме
«Морфологический уровень».
Тема 3.2. Синтаксический уровень
Теория.
Задача синтаксического анализа
– построение синтаксического представления текста (синтаксической структуры). Сфера действия синтаксического анализа ограничена предложением.
Иерархическая структура (дерево). Деревья составляющих. Способы выражения отношений между словами с помощью формальных средств.
Первый способ – объединение в группы наиболее тесно связанных друг с другом слов – структура составляющих. Составляющие (определение).
Традиционный способ описания сходств и различий между синтаксическими свойствами слов. Классификация:
- именная группа (ИГ) – вершиной является существительное;
- предложная группа (ПрГ) – сочетание предлога с существительным;
- глагольная группа (ГГ) – сочетание главного глагола со вспомогательным.
Корневой узел дерева соответствует всему предложению (П). Деревья
подчинения (структура зависимостей) – синтаксические связи имеют различную природу. Схема. Синтаксическая зависимость. Проективность – важное свойство деревьев подчинения. Проективность связей:
- полная проективность;
- слабая проективность;
14
- непроективность.
Типизация синтаксических отношений (СинтО). Два варианта формального метаязыка для записи знаний о синтаксической структуре. Синтаксическая омонимия.
Практика.
Выполнение практических заданий по теме
«Синтаксический уровень».
Тема 3.3. Анафора и кореферентность
Теория. Анафора – явление, при котором смысл одного элемента текста (линейно вторичного, анафора) определяется смыслом другого элемента того же текста (линейно первичного, антецедента).
Анафорические связи – обязательное условие связности текста.
Кореференция – отношение между словами или словосочетаниями, которые обозначают один и тот же объект, то есть имеют один и тот же референт.
Выявление кореференции производится на основе продукционных правил
(правил преобразования построенного ранее дерева разбора). Информация, используемая для формулировки правил: позиция местоимения и его предполагаемого антецедента в цепочке предложения; позиция местоимения и его предполагаемого антецедента в дереве зависимостей; принадлежность сегменту того или иного типа (причастный или деепричастный оборот, придаточное предложение); тип входной и выходной связи; наличие у предполагаемого антецедента определенных зависимых слов; род и число местоимения и его предполагаемого антецедента. Конгруэнтное слово.
Практика. Выполнение практических заданий по теме «Анафора и кореферентность».
Раздел 4. Классификация и кластеризация
Тема 4.1. Закон Ципфа
Теория. Классификатор – алгоритм, соотносящий некие входные данные с одним или несколькими классами, определенными заранее. Задачи классификации: снятие омонимии при обработке натуральных языков; в поисковых системах – для ограничения области поиска в целях повышения точности (вертикальный поиск); автоматическое определение языка, на котором написан текст; анализ тональности (определение эмоциональной окраски текста). Индексация. Векторная модель документа. «Метод ключевых слов». Ключевое слово. Закономерности, сформулированные Дж.
Ципфом. Кривая Ципфа. «Шум» или стоп-слова. Закон Хипса (связь объема документа с объемом словаря уникальных слов, которые входят в этот документ). Ступенчатый график закона Хипса.
15
Практика. Выполнение практических заданий по теме «Закон
Ципфа».
Тема 4.2. Модель TF*IDF
Теория. Инверсная частота термина IDF (inverse document frequency).
Параметр TF (term frequency). Коэффициент TF*IDF = TF х IDF. TF – повышающий множитель, IDF – понижающий. Оценка значимости термина с точки зрения частоты вхождения в документ, без учета порядка следования терминов в документе и их синтаксической роли. Недостаток метода TF*IDF. Матрица частот. Представление документов в виде векторов.
Практика. Выполнение практических заданий по теме «Модель
TF*IDF».
Тема 4.3. Классификация документов
Теория. Гипотеза, на которой основан процесс классификации документов как векторов. Основа алгоритма классификации. Понятие сходства (расстояния) между документами в пространстве терминов.
Взаимообратные понятия расстояния и сходства. Выбор способа вычисления расстояния. Косинусная мера. Классификация, основанная на правилах. Правила определения класса документа по его тексту (при работе с небольшой коллекцией документов). Значимые слова. Плюсы и минусы подхода. Метод машинного обучения. Условные веса слов для выявления спама. Суммарный вес документа.
Практика.
Выполнение практических заданий по теме
«Классификация документов».
Тема 4.4. Наивный байесовский классификатор
Теория. Наивный байесовский классификатор (NBC) – самый простой и часто используемый при обработке натуральных языков алгоритм классификации. Теорема Байеса. Возможность рассчитать вероятность того, что именно данная причина привела к наблюдаемому событию. Цель классификации. Оценка апостериорного максимума для определения наиболее вероятного класса. Использование свойства логарифма произведения для избегания проблем, связанных с арифметическим переполнением или потерей точности. Оценка вероятности класса.
Несколько путей оценки вероятности слова в классе. Аддитивное сглаживание (сглаживание Лапласа). Условие реализации Байесовского классификатора – обучающая выборка с проставленными соответствиями между текстовыми документами и их классами. Модель классификации – совокупность информации: относительные частоты классов в корпусе документов; суммарное количество слов в документах каждого класса;
16
относительные частоты слов в пределах каждого класса; размер словаря выборки, количество уникальных слов в выборке. Формирование вероятностного пространства.
Практика. Выполнение практических заданий по теме «Наивный байесовский классификатор».
Тема 4.5. Другие алгоритмы
Теория. Принципы работы некоторых других алгоритмов классификации текстов. Алгоритм Роккио. Центроид класса. Поиск центроида, к которому образ нового документа ближе, чем к остальным центроидам. Достоинства и недостатки классификации. Алгоритм k-
ближайших соседей. Гипотеза компактности векторного пространства.
Локальное определение границ между классами. Пространство терминов для всех документов обучающего множества. Особенности классификации.
Практика. Выполнение практических заданий по теме «Другие алгоритмы».
Тема 4.6. Оценка результатов классификации. F-мера
Теория. Оценка качества алгоритма по его ошибке на тестовом подмножестве обучающего множества документов. Ошибка – доля неправильных решений классификатора. Формирование обучающего множества. Составление таблицы категорий принятых решений по множеству документов. Параметр «аккуратность» (accuracy) – доля документов, по которым классификатор принял правильное решение.
Параметр «точность» (precision) – доля документов, действительно принадлежащих данному классу, относительно всех документов, которые система отнесла к этому классу. Параметр «полнота» (recall) – доля найденных классификатором документов, принадлежащих классу, относительно всех документов этого класса в тестовой выборке. Матрица неточностей (confusion matrix). Расчет полноты и точности для каждого класса. F
β
-мера – баланс между полнотой и точностью. Подходы к усреднению: макроусреднение – обобщение на уровне классов;
микроусреднение – обобщение на уровне документов. Пути выполнения.
Практика. Выполнение практических заданий по теме «Оценка результатов классификации. F-мера».
Тема 4.7. Кластеризация
Теория. Кластерный анализ – задача разбиения множества объектов
X = {x
1
, x
2
, …x n
} на непересекающиеся подмножества, называемые
кластерами(cluster). Отличие кластеризации от классификации. Цели кластеризации: понимание данных путём выявления кластерной структуры; сжатие данных; обнаружение новизны. Технологии Data Mining (добыча
17
знаний). Алгоритмы кластеризации. Иерархические (последовательно строятся из уже найденных кластеров):
агломеративные (объединительные, восходящие) – начинаем с индивидуальных элементов, затем объединяем;
дивизимные (разделительные, нисходящие) – начинаем с одного кластера, потом делим.
Неиерархические (оптимизируется некая целевая функция).
Восходящая кластеризация. Три критерия: одиночная связь; полная связь; групповое усреднение. Неиерархическая кластеризация. Алгоритм k-means.
Нечеткие кластеры.
Практика.
Выполнение практических заданий по теме
«Кластеризация».
Тема 4.8. Контент-анализ
Теория. Контент-анализ(content analysis) (КА) – формализованный метод изучения текстовой и графической информации, заключающийся в переводе изучаемой информации в количественные показатели и ее статистической обработке. История возникновения метода. Авторы метода.
Сущность метода. Отличие КА от других видов научных исследований – преобразование качественных данных в количественные, подсчет элементов содержания. Единица анализа – фраза. Компьютерная система
ВЕГА, характеристика, особенности. Этапы работы:
- создание первичного варианта «двухъярусного» классификатора
(каждый класс подразделяется на группы);
- отбор наиболее характерных фраз, присвоение каждой фразе, соответствующих ее смыслу класса и группы, создание эталона для последующего анализа – нормативной фразы;
- идентификация фраз из текста посредством их сравнения с нормативными фразами. При совпадении по смыслу очередной фразы с одной из нормативных, она получает свой идентификатор – номер нормативной фразы;
- если фраза из текста не совпадает по смыслу ни с одной нормативной, классификатор уточняется, после чего процесс идентификации повторяется;
- процесс повторяется, пока все фразы из текста не будут отождествлены с нормативными. После этого процедура КА закончена, создан окончательный вариант классификатора, и каждая исходная фраза получила свой идентификатор. Двойное преимущество классификатора.
Практика. Выполнение практических заданий по теме «Контент- анализ».
18
Раздел 5. Итоговое занятие. Зачет
Практика. Итоговая аттестация. Контрольная работа.
ОРГАНИЗАЦИОННО-ПЕДАГОГИЧЕСКИЕ УСЛОВИЯ
РЕАЛИЗАЦИИ ПРОГРАММЫ
При реализации данной Программы используются следующие методы обучения:
словесные (лекции, объяснения, беседы, консультации);
наглядные (наглядные пособия, плакаты, видео и CD);
исследовательские
(выполнение обучающимися исследовательских заданий).
Основными формами проведения занятий являются комбинированные занятия, состоящие из теоретической и практической части.
Усвоение материала контролируется при помощи опросов, тестирования, выполнения практических заданий.
Заключительное занятие объединения проводится в форме зачетной работы.
Материально-технические условия реализации Программы
Продуктивность работы во многом зависит от качества материально- технического оснащения процесса. Программа реализуется в аудитории образовательной организации с применением технических средств обучения:
инфраструктура организации:
учебный кабинет;
технические средства обучения:
компьютеры;
проектор;
экран;
интерактивная доска SMART;
принтер;
сканер
СПИСОК ЛИТЕРАТУРЫ,
ИСПОЛЬЗУЕМОЙ ПРИ НАПИСАНИИ ПРОГРАММЫ:
1. Алпатов В. Языкознание от Аристотеля до компьютерной лингвистики. – Санкт-Петербург: Альпина нон-фикшн,2018.
19
2. Баранов А.Н. Введение в прикладную лингвистику. – Москва:
URSS, 2021.
3. Баранов А.Н. Лингвистическая экспертиза. – Москва: URSS, 2020.
4.
Дементьева
Ю.В.
Основы работы с электронными образовательными ресурсами: учебное пособие / Ю.В. Дементьева –
Саратов: Вузовское образование, 2017. – Текст: электронный // Электронно- библиотечная система
IPR
BOOKS:
[сайт].
–
URL: https://www.iprbookshop.ru/62066.html
(дата обращения: 18.11.2021). –
Режим доступа: для авторизированных пользователей.
5. Кокс Т. Зачем мы говорим: История речи от неандертальцев до искусственного интеллекта. – Москва: Азбука-Аттикус, КоЛибри, 2020.
6.
Косицына И.Б. Грамматика через перевод: практикум / И.Б.
Косицына, О.В. Чибисова. – Комсомольск-на-Амуре, Саратов: Амурский гуманитарно-педагогический государственный университет, Ай Пи Ар
Медиа, 2019. – Текст: электронный // Электронно-библиотечная система
IPR BOOKS: [сайт]. – URL: https://www.iprbookshop.ru/86195.html
(дата обращения: 18.11.2021). Режим доступа: для авторизированных пользователей. – DOI: https://doi.org/10.23682/86195 7.
Моисеева И.Ю. Квантитативная лингвистика и новые информационные технологии: учебное пособие / И.Ю. Моисеева. –
Оренбург: Оренбургский государственный университет, ЭБС АСВ, 2017. –
Текст: электронный // Электронно-библиотечная система IPR BOOKS:
[сайт]. — URL: https://www.iprbookshop.ru/71281.html
(дата обращения:
18.11.2021). — Режим доступа: для авторизированных пользователей.
8. Николаев И.С., Митренина О.В., Ландо Т.М. Прикладная и компьютерная лингвистика / И.С. Николаев, О.В. Митренина, Т.М. Ландо.
– Москва: URSS, 2017.
9.
Пиванова Э.В. Теория и практика машинного перевода: учебное пособие / Э.В. Пиванова. – Ставрополь: Северо-Кавказский федеральный университет, 2014. – Текст: электронный // Электронно-библиотечная система IPR BOOKS: [сайт]. – URL: https://www.iprbookshop.ru/63021.html
(дата обращения: 18.11.2021). — Режим доступа: для авторизированных пользователей.
10. Потапова Р.К. Новые информационные технологии и лингвистика.
– Москва: URSS, 2021.
11.
Рогозная Н.Н. Лингвистика: учебное пособие по языку
20
специальности / Н.Н. Рогозная. – Санкт-Петербург: Златоуст, 2019. – Текст: электронный // Электронно-библиотечная система IPR BOOKS: [сайт]. –
URL: https://www.iprbookshop.ru/81394.html
(дата обращения: 18.11.2021). –
Режим доступа: для авторизированных пользователей.
12.
Стрельцов А.А. Практикум по переводу научно-технических текстов. English ↔ Russian / А.А. Стрельцов. – Москва: Инфра-Инженерия,
2019. – Текст: электронный // Электронно-библиотечная система IPR
BOOKS: [сайт]. – URL: https://www.iprbookshop.ru/86626.html
(дата обращения: 18.11.2021). — Режим доступа: для авторизированных пользователей.
13. Тинякова Е.А. Лингвистическая коммуникация и культурный процесс. – Москва: Директ-Медиа, 2018.
14. «Корпусная лингвистика», международная научная конференция
(2019 ; Санкт-Петербург). Труды международной конференции «Корпусная лингвистика – 2019», 24-28 июня 2019 г. /Отв. ред. В. Захаров. – Санкт-
Петербург: Издательство Санкт-Петербургского университета, 2019 / НИУ
ВШЭ : [сайт]. – URL: https://publications.hse.ru/books/295308799
(дата обращения 19.11.2021).
21
Приложение
Типовые контрольные вопросы и задания
Вопросы
1.
Что такое лингвистика? Назовите ее разделы. В каком разделе лингвистика имеет дело с информационными технологиями?
2.
Можно ли считать синонимами прикладную и компьютерную лингвистику? Аргументируйте свой ответ.
3.
Перечислите основные направления компьютерной лингвистики.
Расскажите об одном из направлений.
4.
Сравните разные определения языка. Выделите в них ключевые слова. Составьте на основе повторяющихся ключевых слов свое определение языка.
5.
Подумайте, с естественным или искусственным языком имеет дело компьютерная лингвистика?
6.
Сопоставьте разные определения информации. Какое из определений, на ваш взгляд, лучше всего подходит к лингвистике?
7.
Сравните свойства информации, выделяемые в разных источниках.
8.
Как соотносятся информация, сообщение и данные?
9.
Назовите основные этапы развития информационных технологий.
10. В чем ученые видят будущее информационных технологий? Что вы думаете по этому поводу?
11. Что такое задача и правило? Как эти понятия связаны с алгоритмом?
12. Каковы свойства алгоритмов?
13. Опишите строение компьютера и охарактеризуйте периферийные устройства.
14. Дайте определение системному и прикладному программному обеспечению. Определите понятия операционной системы, утилиты и драйвера.
15. Приведите классификацию прикладных компьютерных программ.
Дайте их краткую характеристику и приведите примеры основных видов прикладных компьютерных программ.
16. Охарактеризуйте текстовый процессор и его лингвистические функции.
17. Охарактеризуйте специальные компьютерные программы, разработанные для лингвистических целей.
22
18. Что такое знак? В чем различие между знаками языка и знаками речи?
19. В каких сферах ограничениями пословного распознавания звучащей речи можно пренебречь? Для каких сфер эти ограничения будут принципиально важными?
20. Какие артикуляционные признаки звуков вам известны?
21. Представители каких профессий должны быть задействованы в создании сложных систем анализа звучащей речи?
22. Охарактеризуйте основные возможности OCR-программ.
23. Каковы перспективы развития OCR-программ?
24. Охарактеризуйте особенности одной из систем автоматического распознавания текста.
25. Опишите этапы составления реферата текста.
26. Какие задачи являются перспективными для систем автоматического реферирования и аннотирования текстов?
Проблемно-аналитические задания
1.
Определите статистические показатели приведенного ниже текста смешанного языкового типа. Проекты Cibola/Oleada реализуют обширные
компьютерные
системы
лингвистического
анализа
текстов,
представленных в Unicode. Компоненты системы включают средства
работы с мультиязыковыми текстами (MUTT), построения конкорданса
(XConcord) для текстов на более чем 16 языках, статистического анализа,
автоматического перевода, различные словари и тезаурусы. Некоторые
версии этих компонентов доступны для бесплатной загрузки после
процедуры формальной регистрации. Все компоненты реализованы в среде
XII Window System для SunOs и Solaris.
Слов
Символов (без пробелов)
Символов (с пробелами)
Символов в латинской графике
Чисел
Средняя длина слов
2. Определите машинные основы следующих слов:
Слово
Машинная
Слово
Машинная
семья
окружать
весна
сидеть
23
дело
друг
пианино
ты
стремительный
желтый
развивать
петь
3.
Приведите примеры совпадения машинных основ для слов русского языка и запишите их ниже:
основе лож# соответствуют типовые парадигмы для описания слов ложь и ложиться;
_________________________________________;
_________________________________________.
4.
Определите, какие фразы во фрагменте диалога ниже – собеседника А или Б – смоделированы машиной. Приведите аргументы в пользу вашего выбора.
А – Говорите!
Б – Меня волнует погода.
А – Как давно вас волнует погода?
Б – С тех пор, как умерла моя мать.
А – Расскажите больше о Вашей семье.
Б – Они все в области компьютеров.
А – Машины пугают вас.
Б – Нет.
5.
Выберите один из корпусов из списка ниже и охарактеризуйте его по следующим критериям: количество словоупотреблений, вид корпуса (по разным признакам):
Британский национальный корпус http://www.natcorp.ox.ac.uk/
;
Американский национальный корпус https://www.americannationalcorpus.org/
;
Банк английского языка
(Bank of
English) https://www.bankofengland.co.uk/search
;
Национальный корпус русского языка https://ruscorpora.ru/new/
;
Национальный корпус русского литературного языка https://narusco.ru/
;
Компьютерный корпус текстов русских газет конца XX века https://www.philol.msu.ru/lex/corpus/corp_descr.html
;
24
Словарь-корпус языка
А.С.
Грибоедова http://feb- web.ru/feb/concord/abc/
;
Корпус института немецкого языка в Мангейме https://ww.google- info.org/4741687/1/mangeymskiy-korpus-nemetskogo-yazyka.html
6.
Составьте глоссарий по теме «Корпусная лингвистика».
Используйте для этого рекомендуемые источники литературы и сетевые ресурсы. Включите в глоссарий определения следующих понятий: конкорданс, рандомизация, коллокация, подмассив, парсинг, лемматизация, корпус-менеджер.
Типовые задания к интерактивным занятиям
(задания выполняются на компьютере)
1.
Какому языку соответствует средняя длина слов текста смешанного типа, приведенного в задании 1? Для выполнения задания вычислите среднюю длину слов русского языка из приведенного текста и среднюю длину слов в латинской графике.
2.
Определите, каким языкам соответствуют следующие специфические буквы, буквосочетания и слова:
3.
Создайте диагностический словарь для определения языка на материале текстов на двух разных языках (на ваш выбор). Для этого заполните следующую таблицу.
Критерий
Язык 1:
Язык 2:
Типичные артикли
Указательные местоимения
Местоимения 3-го лица
Отдельные формы вспомогательных глаголов
Основные предлоги и союзы
Другие частотные слова
25
15. Дополните таблицу встречаемости букв в распространенных европейских языках [Всеволодова 2007: 64], добавив в нее данные по русскому языку. Используйте для этого любой текст на русском языке объемом не менее 100 символов.
16. Прочитайте несколько фраз на эсперанто.
Назовите морфологические диагностические показатели этого языка, учитывая, что существительные и прилагательные на эсперанто всегда имеют одни и те же окончания.
Русский
Эсперанто
зеленое дерево verda arbo старый человек maljuna viro хороший друг bela amiko
17. Найдите лишнее в приведенном ниже списке. Решите данную задачу с точки зрения компьютерной семантики и компьютерной грамматики. Ландыш, левкой, лаватера, лютик, люпин, ромашка, липа.
18. Определите исходную форму выделенных словоформ в примере ниже. Какие виды омонимии иллюстрирует данный текст?
Я траву косил косой,
Дождик вдруг пошел косой.
Бросил я тогда косить
И на Стешу стал косить.
Ну а Стеша, ох, краса,
Как огонь её коса!
19. Выберите текст одного из СМИ на иностранном языке объемом до
1 страницы и составьте список слов для словаря словоформ. Укажите частотность появления каждой словоформы в проанализированном тексте.
20. Опишите через элементарные семантические смыслы
«сам», «кто- то», «иметь», «заставлять», «переставать», «начинать» и «не» слова русского языка: приобретать, утрачивать, сохранять, лишать.
21. Сравните результаты перевода текстов разной функциональной принадлежности (темы), выполненного в онлайн-переводчике
Для этого наберите или скопируйте предлагаемые ниже фрагменты текстов в окно ввода, выберите в верхнем меню соответствующую тему, языки перевода
(английский – русский) и нажмите «Перевести». Прокомментируйте, какие недостатки содержит результат перевода, внеся ваши комментарии в таблицу.
1. Компьютеры.
26
Despite big changes in technology over the past couple of decades, IT
departments and the duties of their staff have stayed pretty consistent. The classic
model involves helpdesk agents, desktop support staff, systems and network
administrators, DBAs and developers, and managers at various levels reporting
to a CIO or technology director.
2. Бизнес.
In the early days of starting a business, you might be tempted to gloss over
ownership structure, equity stakes, and other seemingly boring details. After all,
you might think, as long as you keep taxes low, paperwork uncomplicated, and
partners motivated, better to deal with the big stuff first. But these decisions can
have a significant cost down the road, particularly for entrepreneurs who seek
outside investors.
3. Здоровье.
Data from more than 250,000 men and women in 18 cohort studies were used to
calculate the lifetime risk of cardiovascular events, stratified according to risk-
factor burden, with adjustment for the competing risk of death from
noncardiovascular causes.
1 2 3
13
изменяются при изменении слова по формам) и формообразовательные
(изменяются при изменении слова по формам) параметры слова. Словарь
Зализняка, его особенности. Омонимия в русском языке (одной словоформе можно приписать несколько наборов параметров). Типы омонимии:
- омонимия частеречная – словоформы относятся к различным частям речи;
- омонимия лексическая – возникает вследствие звукового совпадения различных по происхождению слов;
- внутри одной части речи может быть полная или частичная омонимия;
- грамматические омонимы (оморфы) – слова, совпадающие лишь в отдельных формах;
- морфологическая омонимия – одной словоформе, образованной от одной и той же леммы, может быть приписано несколько наборов параметров.
Два типа компьютерных морфологических анализаторов и их особенности.
Проблемы. Дизамбигуация (от disambiguation) – процесс снятия омонимии.
Практика.
Выполнение практических заданий по теме
«Морфологический уровень».
Тема 3.2. Синтаксический уровень
Теория.
Задача синтаксического анализа
– построение синтаксического представления текста (синтаксической структуры). Сфера действия синтаксического анализа ограничена предложением.
Иерархическая структура (дерево). Деревья составляющих. Способы выражения отношений между словами с помощью формальных средств.
Первый способ – объединение в группы наиболее тесно связанных друг с другом слов – структура составляющих. Составляющие (определение).
Традиционный способ описания сходств и различий между синтаксическими свойствами слов. Классификация:
- именная группа (ИГ) – вершиной является существительное;
- предложная группа (ПрГ) – сочетание предлога с существительным;
- глагольная группа (ГГ) – сочетание главного глагола со вспомогательным.
Корневой узел дерева соответствует всему предложению (П). Деревья
подчинения (структура зависимостей) – синтаксические связи имеют различную природу. Схема. Синтаксическая зависимость. Проективность – важное свойство деревьев подчинения. Проективность связей:
- полная проективность;
- слабая проективность;
14
- непроективность.
Типизация синтаксических отношений (СинтО). Два варианта формального метаязыка для записи знаний о синтаксической структуре. Синтаксическая омонимия.
Практика.
Выполнение практических заданий по теме
«Синтаксический уровень».
Тема 3.3. Анафора и кореферентность
Теория. Анафора – явление, при котором смысл одного элемента текста (линейно вторичного, анафора) определяется смыслом другого элемента того же текста (линейно первичного, антецедента).
Анафорические связи – обязательное условие связности текста.
Кореференция – отношение между словами или словосочетаниями, которые обозначают один и тот же объект, то есть имеют один и тот же референт.
Выявление кореференции производится на основе продукционных правил
(правил преобразования построенного ранее дерева разбора). Информация, используемая для формулировки правил: позиция местоимения и его предполагаемого антецедента в цепочке предложения; позиция местоимения и его предполагаемого антецедента в дереве зависимостей; принадлежность сегменту того или иного типа (причастный или деепричастный оборот, придаточное предложение); тип входной и выходной связи; наличие у предполагаемого антецедента определенных зависимых слов; род и число местоимения и его предполагаемого антецедента. Конгруэнтное слово.
Практика. Выполнение практических заданий по теме «Анафора и кореферентность».
Раздел 4. Классификация и кластеризация
Тема 4.1. Закон Ципфа
Теория. Классификатор – алгоритм, соотносящий некие входные данные с одним или несколькими классами, определенными заранее. Задачи классификации: снятие омонимии при обработке натуральных языков; в поисковых системах – для ограничения области поиска в целях повышения точности (вертикальный поиск); автоматическое определение языка, на котором написан текст; анализ тональности (определение эмоциональной окраски текста). Индексация. Векторная модель документа. «Метод ключевых слов». Ключевое слово. Закономерности, сформулированные Дж.
Ципфом. Кривая Ципфа. «Шум» или стоп-слова. Закон Хипса (связь объема документа с объемом словаря уникальных слов, которые входят в этот документ). Ступенчатый график закона Хипса.
15
Практика. Выполнение практических заданий по теме «Закон
Ципфа».
Тема 4.2. Модель TF*IDF
Теория. Инверсная частота термина IDF (inverse document frequency).
Параметр TF (term frequency). Коэффициент TF*IDF = TF х IDF. TF – повышающий множитель, IDF – понижающий. Оценка значимости термина с точки зрения частоты вхождения в документ, без учета порядка следования терминов в документе и их синтаксической роли. Недостаток метода TF*IDF. Матрица частот. Представление документов в виде векторов.
Практика. Выполнение практических заданий по теме «Модель
TF*IDF».
Тема 4.3. Классификация документов
Теория. Гипотеза, на которой основан процесс классификации документов как векторов. Основа алгоритма классификации. Понятие сходства (расстояния) между документами в пространстве терминов.
Взаимообратные понятия расстояния и сходства. Выбор способа вычисления расстояния. Косинусная мера. Классификация, основанная на правилах. Правила определения класса документа по его тексту (при работе с небольшой коллекцией документов). Значимые слова. Плюсы и минусы подхода. Метод машинного обучения. Условные веса слов для выявления спама. Суммарный вес документа.
Практика.
Выполнение практических заданий по теме
«Классификация документов».
Тема 4.4. Наивный байесовский классификатор
Теория. Наивный байесовский классификатор (NBC) – самый простой и часто используемый при обработке натуральных языков алгоритм классификации. Теорема Байеса. Возможность рассчитать вероятность того, что именно данная причина привела к наблюдаемому событию. Цель классификации. Оценка апостериорного максимума для определения наиболее вероятного класса. Использование свойства логарифма произведения для избегания проблем, связанных с арифметическим переполнением или потерей точности. Оценка вероятности класса.
Несколько путей оценки вероятности слова в классе. Аддитивное сглаживание (сглаживание Лапласа). Условие реализации Байесовского классификатора – обучающая выборка с проставленными соответствиями между текстовыми документами и их классами. Модель классификации – совокупность информации: относительные частоты классов в корпусе документов; суммарное количество слов в документах каждого класса;
16
относительные частоты слов в пределах каждого класса; размер словаря выборки, количество уникальных слов в выборке. Формирование вероятностного пространства.
Практика. Выполнение практических заданий по теме «Наивный байесовский классификатор».
Тема 4.5. Другие алгоритмы
Теория. Принципы работы некоторых других алгоритмов классификации текстов. Алгоритм Роккио. Центроид класса. Поиск центроида, к которому образ нового документа ближе, чем к остальным центроидам. Достоинства и недостатки классификации. Алгоритм k-
ближайших соседей. Гипотеза компактности векторного пространства.
Локальное определение границ между классами. Пространство терминов для всех документов обучающего множества. Особенности классификации.
Практика. Выполнение практических заданий по теме «Другие алгоритмы».
Тема 4.6. Оценка результатов классификации. F-мера
Теория. Оценка качества алгоритма по его ошибке на тестовом подмножестве обучающего множества документов. Ошибка – доля неправильных решений классификатора. Формирование обучающего множества. Составление таблицы категорий принятых решений по множеству документов. Параметр «аккуратность» (accuracy) – доля документов, по которым классификатор принял правильное решение.
Параметр «точность» (precision) – доля документов, действительно принадлежащих данному классу, относительно всех документов, которые система отнесла к этому классу. Параметр «полнота» (recall) – доля найденных классификатором документов, принадлежащих классу, относительно всех документов этого класса в тестовой выборке. Матрица неточностей (confusion matrix). Расчет полноты и точности для каждого класса. F
β
-мера – баланс между полнотой и точностью. Подходы к усреднению: макроусреднение – обобщение на уровне классов;
микроусреднение – обобщение на уровне документов. Пути выполнения.
Практика. Выполнение практических заданий по теме «Оценка результатов классификации. F-мера».
Тема 4.7. Кластеризация
Теория. Кластерный анализ – задача разбиения множества объектов
X = {x
1
, x
2
, …x n
} на непересекающиеся подмножества, называемые
кластерами(cluster). Отличие кластеризации от классификации. Цели кластеризации: понимание данных путём выявления кластерной структуры; сжатие данных; обнаружение новизны. Технологии Data Mining (добыча
17
знаний). Алгоритмы кластеризации. Иерархические (последовательно строятся из уже найденных кластеров):
агломеративные (объединительные, восходящие) – начинаем с индивидуальных элементов, затем объединяем;
дивизимные (разделительные, нисходящие) – начинаем с одного кластера, потом делим.
Неиерархические (оптимизируется некая целевая функция).
Восходящая кластеризация. Три критерия: одиночная связь; полная связь; групповое усреднение. Неиерархическая кластеризация. Алгоритм k-means.
Нечеткие кластеры.
Практика.
Выполнение практических заданий по теме
«Кластеризация».
Тема 4.8. Контент-анализ
Теория. Контент-анализ(content analysis) (КА) – формализованный метод изучения текстовой и графической информации, заключающийся в переводе изучаемой информации в количественные показатели и ее статистической обработке. История возникновения метода. Авторы метода.
Сущность метода. Отличие КА от других видов научных исследований – преобразование качественных данных в количественные, подсчет элементов содержания. Единица анализа – фраза. Компьютерная система
ВЕГА, характеристика, особенности. Этапы работы:
- создание первичного варианта «двухъярусного» классификатора
(каждый класс подразделяется на группы);
- отбор наиболее характерных фраз, присвоение каждой фразе, соответствующих ее смыслу класса и группы, создание эталона для последующего анализа – нормативной фразы;
- идентификация фраз из текста посредством их сравнения с нормативными фразами. При совпадении по смыслу очередной фразы с одной из нормативных, она получает свой идентификатор – номер нормативной фразы;
- если фраза из текста не совпадает по смыслу ни с одной нормативной, классификатор уточняется, после чего процесс идентификации повторяется;
- процесс повторяется, пока все фразы из текста не будут отождествлены с нормативными. После этого процедура КА закончена, создан окончательный вариант классификатора, и каждая исходная фраза получила свой идентификатор. Двойное преимущество классификатора.
Практика. Выполнение практических заданий по теме «Контент- анализ».
18
Раздел 5. Итоговое занятие. Зачет
Практика. Итоговая аттестация. Контрольная работа.
ОРГАНИЗАЦИОННО-ПЕДАГОГИЧЕСКИЕ УСЛОВИЯ
РЕАЛИЗАЦИИ ПРОГРАММЫ
При реализации данной Программы используются следующие методы обучения:
словесные (лекции, объяснения, беседы, консультации);
наглядные (наглядные пособия, плакаты, видео и CD);
исследовательские
(выполнение обучающимися исследовательских заданий).
Основными формами проведения занятий являются комбинированные занятия, состоящие из теоретической и практической части.
Усвоение материала контролируется при помощи опросов, тестирования, выполнения практических заданий.
Заключительное занятие объединения проводится в форме зачетной работы.
Материально-технические условия реализации Программы
Продуктивность работы во многом зависит от качества материально- технического оснащения процесса. Программа реализуется в аудитории образовательной организации с применением технических средств обучения:
инфраструктура организации:
учебный кабинет;
технические средства обучения:
компьютеры;
проектор;
экран;
интерактивная доска SMART;
принтер;
сканер
СПИСОК ЛИТЕРАТУРЫ,
ИСПОЛЬЗУЕМОЙ ПРИ НАПИСАНИИ ПРОГРАММЫ:
1. Алпатов В. Языкознание от Аристотеля до компьютерной лингвистики. – Санкт-Петербург: Альпина нон-фикшн,2018.
19
2. Баранов А.Н. Введение в прикладную лингвистику. – Москва:
URSS, 2021.
3. Баранов А.Н. Лингвистическая экспертиза. – Москва: URSS, 2020.
4.
Дементьева
Ю.В.
Основы работы с электронными образовательными ресурсами: учебное пособие / Ю.В. Дементьева –
Саратов: Вузовское образование, 2017. – Текст: электронный // Электронно- библиотечная система
IPR
BOOKS:
[сайт].
–
URL: https://www.iprbookshop.ru/62066.html
(дата обращения: 18.11.2021). –
Режим доступа: для авторизированных пользователей.
5. Кокс Т. Зачем мы говорим: История речи от неандертальцев до искусственного интеллекта. – Москва: Азбука-Аттикус, КоЛибри, 2020.
6.
Косицына И.Б. Грамматика через перевод: практикум / И.Б.
Косицына, О.В. Чибисова. – Комсомольск-на-Амуре, Саратов: Амурский гуманитарно-педагогический государственный университет, Ай Пи Ар
Медиа, 2019. – Текст: электронный // Электронно-библиотечная система
IPR BOOKS: [сайт]. – URL: https://www.iprbookshop.ru/86195.html
(дата обращения: 18.11.2021). Режим доступа: для авторизированных пользователей. – DOI: https://doi.org/10.23682/86195 7.
Моисеева И.Ю. Квантитативная лингвистика и новые информационные технологии: учебное пособие / И.Ю. Моисеева. –
Оренбург: Оренбургский государственный университет, ЭБС АСВ, 2017. –
Текст: электронный // Электронно-библиотечная система IPR BOOKS:
[сайт]. — URL: https://www.iprbookshop.ru/71281.html
(дата обращения:
18.11.2021). — Режим доступа: для авторизированных пользователей.
8. Николаев И.С., Митренина О.В., Ландо Т.М. Прикладная и компьютерная лингвистика / И.С. Николаев, О.В. Митренина, Т.М. Ландо.
– Москва: URSS, 2017.
9.
Пиванова Э.В. Теория и практика машинного перевода: учебное пособие / Э.В. Пиванова. – Ставрополь: Северо-Кавказский федеральный университет, 2014. – Текст: электронный // Электронно-библиотечная система IPR BOOKS: [сайт]. – URL: https://www.iprbookshop.ru/63021.html
(дата обращения: 18.11.2021). — Режим доступа: для авторизированных пользователей.
10. Потапова Р.К. Новые информационные технологии и лингвистика.
– Москва: URSS, 2021.
11.
Рогозная Н.Н. Лингвистика: учебное пособие по языку
20
специальности / Н.Н. Рогозная. – Санкт-Петербург: Златоуст, 2019. – Текст: электронный // Электронно-библиотечная система IPR BOOKS: [сайт]. –
URL: https://www.iprbookshop.ru/81394.html
(дата обращения: 18.11.2021). –
Режим доступа: для авторизированных пользователей.
12.
Стрельцов А.А. Практикум по переводу научно-технических текстов. English ↔ Russian / А.А. Стрельцов. – Москва: Инфра-Инженерия,
2019. – Текст: электронный // Электронно-библиотечная система IPR
BOOKS: [сайт]. – URL: https://www.iprbookshop.ru/86626.html
(дата обращения: 18.11.2021). — Режим доступа: для авторизированных пользователей.
13. Тинякова Е.А. Лингвистическая коммуникация и культурный процесс. – Москва: Директ-Медиа, 2018.
14. «Корпусная лингвистика», международная научная конференция
(2019 ; Санкт-Петербург). Труды международной конференции «Корпусная лингвистика – 2019», 24-28 июня 2019 г. /Отв. ред. В. Захаров. – Санкт-
Петербург: Издательство Санкт-Петербургского университета, 2019 / НИУ
ВШЭ : [сайт]. – URL: https://publications.hse.ru/books/295308799
(дата обращения 19.11.2021).
21
Приложение
Типовые контрольные вопросы и задания
Вопросы
1.
Что такое лингвистика? Назовите ее разделы. В каком разделе лингвистика имеет дело с информационными технологиями?
2.
Можно ли считать синонимами прикладную и компьютерную лингвистику? Аргументируйте свой ответ.
3.
Перечислите основные направления компьютерной лингвистики.
Расскажите об одном из направлений.
4.
Сравните разные определения языка. Выделите в них ключевые слова. Составьте на основе повторяющихся ключевых слов свое определение языка.
5.
Подумайте, с естественным или искусственным языком имеет дело компьютерная лингвистика?
6.
Сопоставьте разные определения информации. Какое из определений, на ваш взгляд, лучше всего подходит к лингвистике?
7.
Сравните свойства информации, выделяемые в разных источниках.
8.
Как соотносятся информация, сообщение и данные?
9.
Назовите основные этапы развития информационных технологий.
10. В чем ученые видят будущее информационных технологий? Что вы думаете по этому поводу?
11. Что такое задача и правило? Как эти понятия связаны с алгоритмом?
12. Каковы свойства алгоритмов?
13. Опишите строение компьютера и охарактеризуйте периферийные устройства.
14. Дайте определение системному и прикладному программному обеспечению. Определите понятия операционной системы, утилиты и драйвера.
15. Приведите классификацию прикладных компьютерных программ.
Дайте их краткую характеристику и приведите примеры основных видов прикладных компьютерных программ.
16. Охарактеризуйте текстовый процессор и его лингвистические функции.
17. Охарактеризуйте специальные компьютерные программы, разработанные для лингвистических целей.
22
18. Что такое знак? В чем различие между знаками языка и знаками речи?
19. В каких сферах ограничениями пословного распознавания звучащей речи можно пренебречь? Для каких сфер эти ограничения будут принципиально важными?
20. Какие артикуляционные признаки звуков вам известны?
21. Представители каких профессий должны быть задействованы в создании сложных систем анализа звучащей речи?
22. Охарактеризуйте основные возможности OCR-программ.
23. Каковы перспективы развития OCR-программ?
24. Охарактеризуйте особенности одной из систем автоматического распознавания текста.
25. Опишите этапы составления реферата текста.
26. Какие задачи являются перспективными для систем автоматического реферирования и аннотирования текстов?
Проблемно-аналитические задания
1.
Определите статистические показатели приведенного ниже текста смешанного языкового типа. Проекты Cibola/Oleada реализуют обширные
компьютерные
системы
лингвистического
анализа
текстов,
представленных в Unicode. Компоненты системы включают средства
работы с мультиязыковыми текстами (MUTT), построения конкорданса
(XConcord) для текстов на более чем 16 языках, статистического анализа,
автоматического перевода, различные словари и тезаурусы. Некоторые
версии этих компонентов доступны для бесплатной загрузки после
процедуры формальной регистрации. Все компоненты реализованы в среде
XII Window System для SunOs и Solaris.
Слов
Символов (без пробелов)
Символов (с пробелами)
Символов в латинской графике
Чисел
Средняя длина слов
2. Определите машинные основы следующих слов:
Слово
Машинная
Слово
Машинная
семья
окружать
весна
сидеть
23
дело
друг
пианино
ты
стремительный
желтый
развивать
петь
3.
Приведите примеры совпадения машинных основ для слов русского языка и запишите их ниже:
основе лож# соответствуют типовые парадигмы для описания слов ложь и ложиться;
_________________________________________;
_________________________________________.
4.
Определите, какие фразы во фрагменте диалога ниже – собеседника А или Б – смоделированы машиной. Приведите аргументы в пользу вашего выбора.
А – Говорите!
Б – Меня волнует погода.
А – Как давно вас волнует погода?
Б – С тех пор, как умерла моя мать.
А – Расскажите больше о Вашей семье.
Б – Они все в области компьютеров.
А – Машины пугают вас.
Б – Нет.
5.
Выберите один из корпусов из списка ниже и охарактеризуйте его по следующим критериям: количество словоупотреблений, вид корпуса (по разным признакам):
Британский национальный корпус http://www.natcorp.ox.ac.uk/
;
Американский национальный корпус https://www.americannationalcorpus.org/
;
Банк английского языка
(Bank of
English) https://www.bankofengland.co.uk/search
;
Национальный корпус русского языка https://ruscorpora.ru/new/
;
Национальный корпус русского литературного языка https://narusco.ru/
;
Компьютерный корпус текстов русских газет конца XX века https://www.philol.msu.ru/lex/corpus/corp_descr.html
;
24
Словарь-корпус языка
А.С.
Грибоедова http://feb- web.ru/feb/concord/abc/
;
Корпус института немецкого языка в Мангейме https://ww.google- info.org/4741687/1/mangeymskiy-korpus-nemetskogo-yazyka.html
6.
Составьте глоссарий по теме «Корпусная лингвистика».
Используйте для этого рекомендуемые источники литературы и сетевые ресурсы. Включите в глоссарий определения следующих понятий: конкорданс, рандомизация, коллокация, подмассив, парсинг, лемматизация, корпус-менеджер.
Типовые задания к интерактивным занятиям
(задания выполняются на компьютере)
1.
Какому языку соответствует средняя длина слов текста смешанного типа, приведенного в задании 1? Для выполнения задания вычислите среднюю длину слов русского языка из приведенного текста и среднюю длину слов в латинской графике.
2.
Определите, каким языкам соответствуют следующие специфические буквы, буквосочетания и слова:
3.
Создайте диагностический словарь для определения языка на материале текстов на двух разных языках (на ваш выбор). Для этого заполните следующую таблицу.
Критерий
Язык 1:
Язык 2:
Типичные артикли
Указательные местоимения
Местоимения 3-го лица
Отдельные формы вспомогательных глаголов
Основные предлоги и союзы
Другие частотные слова
25
15. Дополните таблицу встречаемости букв в распространенных европейских языках [Всеволодова 2007: 64], добавив в нее данные по русскому языку. Используйте для этого любой текст на русском языке объемом не менее 100 символов.
16. Прочитайте несколько фраз на эсперанто.
Назовите морфологические диагностические показатели этого языка, учитывая, что существительные и прилагательные на эсперанто всегда имеют одни и те же окончания.
Русский
Эсперанто
зеленое дерево verda arbo старый человек maljuna viro хороший друг bela amiko
17. Найдите лишнее в приведенном ниже списке. Решите данную задачу с точки зрения компьютерной семантики и компьютерной грамматики. Ландыш, левкой, лаватера, лютик, люпин, ромашка, липа.
18. Определите исходную форму выделенных словоформ в примере ниже. Какие виды омонимии иллюстрирует данный текст?
Я траву косил косой,
Дождик вдруг пошел косой.
Бросил я тогда косить
И на Стешу стал косить.
Ну а Стеша, ох, краса,
Как огонь её коса!
19. Выберите текст одного из СМИ на иностранном языке объемом до
1 страницы и составьте список слов для словаря словоформ. Укажите частотность появления каждой словоформы в проанализированном тексте.
20. Опишите через элементарные семантические смыслы
«сам», «кто- то», «иметь», «заставлять», «переставать», «начинать» и «не» слова русского языка: приобретать, утрачивать, сохранять, лишать.
21. Сравните результаты перевода текстов разной функциональной принадлежности (темы), выполненного в онлайн-переводчике
Для этого наберите или скопируйте предлагаемые ниже фрагменты текстов в окно ввода, выберите в верхнем меню соответствующую тему, языки перевода
(английский – русский) и нажмите «Перевести». Прокомментируйте, какие недостатки содержит результат перевода, внеся ваши комментарии в таблицу.
1. Компьютеры.
26
Despite big changes in technology over the past couple of decades, IT
departments and the duties of their staff have stayed pretty consistent. The classic
model involves helpdesk agents, desktop support staff, systems and network
administrators, DBAs and developers, and managers at various levels reporting
to a CIO or technology director.
2. Бизнес.
In the early days of starting a business, you might be tempted to gloss over
ownership structure, equity stakes, and other seemingly boring details. After all,
you might think, as long as you keep taxes low, paperwork uncomplicated, and
partners motivated, better to deal with the big stuff first. But these decisions can
have a significant cost down the road, particularly for entrepreneurs who seek
outside investors.
3. Здоровье.
Data from more than 250,000 men and women in 18 cohort studies were used to
calculate the lifetime risk of cardiovascular events, stratified according to risk-
factor burden, with adjustment for the competing risk of death from
noncardiovascular causes.
1 2 3
Тема
Комментарии
1. Компьютеры
2. Бизнес
3. Здоровье
Типовые тесты
(в каждом задании – 1 правильный ответ, за каждый правильный ответ
дается 1 балл).
1.
Какое из высказываний является определением прикладной лингвистики?
a) область языкознания, направленная на объективное установление состояния отдельного языка, его истории и закономерностей;
b) область языкознания, связанная с использованием компьютерных инструментов – программ, технологий организации и обработки данных – для моделирования функционирования языка в тех или иных условиях;
c) область языкознания, связанная с разработкой методов решения практических задач использования языка;
d) область языкознания, связанная с применением компьютерных моделей языка в лингвистике и в смежных с ней дисциплинах.
2. К направлениям компьютерной лингвистики не относится…
a) компьютерная лексикография;
b) компьютерно-опосредованная коммуникация;
Комментарии
1. Компьютеры
2. Бизнес
3. Здоровье
Типовые тесты
(в каждом задании – 1 правильный ответ, за каждый правильный ответ
дается 1 балл).
1.
Какое из высказываний является определением прикладной лингвистики?
a) область языкознания, направленная на объективное установление состояния отдельного языка, его истории и закономерностей;
b) область языкознания, связанная с использованием компьютерных инструментов – программ, технологий организации и обработки данных – для моделирования функционирования языка в тех или иных условиях;
c) область языкознания, связанная с разработкой методов решения практических задач использования языка;
d) область языкознания, связанная с применением компьютерных моделей языка в лингвистике и в смежных с ней дисциплинах.
2. К направлениям компьютерной лингвистики не относится…
a) компьютерная лексикография;
b) компьютерно-опосредованная коммуникация;
27
c) системы обработки естественного языка;
d) машинный перевод.
3. Информатика – это…
a) наука об управлении, связи и переработке информации;
b) наука о накоплении, обработке и передаче информации с помощью
ЭВМ;
c) наука о накоплении, обработке и передаче информации о строении языка с помощью ЭВМ;
d) наука об использовании компьютерных инструментов для моделирования функционирования языка в тех или иных условиях.
4.
Разное количество информации в одном и том же сообщении для разных людей зависит не от...
a) накопленных ими знаний;
b) уровня понимания сообщения;
c) их интереса к сообщению;
d) их уровня владения компьютерной техникой.
5.
Следствие третьей информационной революции состоит в том, что...
a) информация становится общедоступной;
b) информацию можно автоматически обрабатывать и передавать с большой скоростью;
c) информацию можно легко найти с помощью инструментов поиска и совместно производить;
d) информация может накапливаться.
6.
Для современного человека преобладающей является...
a) звуковая информация;
b) визуальная (символьная) информация;
c) вкусовая и тактильная информация;
d) визуальная (образная) информация.
7.
Адекватность информации – это...
a) степень соответствия информации объективной реальности окружающего мира;
b) степень соответствия информации, полученной потребителем, тому, что автор вложил в ее содержание;
c) достаточность информации для принятия решения;
d) степень соответствия информации текущему моменту времени.
8.
Машинный синтаксис – это...
a) правила строения имен;
b) правила построения слов в более сложные структуры;
28
c) соотношение слова и его значения;
d) правила перевода письменного символа в устный.
9.
Естественный язык – это...
a) знаковая система, используемая человеком с момента рождения;
b) знаковая система, используемая человеком в непринужденной обстановке;
c) знаковая система, созданная для естественных наук;
d) знаковая система, стихийно возникшая и закрепившаяся в обществе.
10. Волапюк – это...
a) специализированный язык науки;
b) родной язык одного из малочисленных племен;
c) неспециализированный искусственный язык;
d) система символического кодирования.
11. Какие из следующих приложений не являются текстовыми редакторами?
a) MS Excel;
b) Corel WordPerfect;
c) MS Works;
d) Adobe InCopy.
12. Microsoft Word не включает...
a) функции настольных издательских систем;
b) функцию удалённого доступа;
c) функцию редактирования графических объектов;
d) шаблоны типовых таблиц.
13. К устройствам ввода данных не относится…
a) сканер;
b) принтер;
c) клавиатура;
d) цифровой фотоаппарат.
14. OCR – это...
a) система автоматического распознавания символов;
b) система переводческой памяти;
c) система машинного перевода;
d) функция текстового процессора.
15. Реферат – это...
a) связный текст, который кратко выражает тему, предмет, цель, методы и результаты исследования;
29
b) процесс составления содержания документа (книги, статьи, патента на изобретение и др.);
c) краткое изложение содержания документа, дающее общее представление о его теме;
d) краткий текст, выполняющий сигнальную функцию (информирует о том, что есть публикация на определенную тему).
16. Слово, относящееся к основному содержанию текста и повторяющееся в нем несколько раз, в автоматическом реферировании называется...
a) лейтмотивом;
b) термином;
c) символом;
d) ключевым словом.
17. Метод автоматического аннотирования, при котором важные слова выделяются в заголовке, подзаголовке, начале и конце текста, называется...
a) статистическим;
b) логико-семантическим;
c) позиционным;
d) функциональным.
18. Совокупность специально отобранных текстов, размеченных по различным лингвистическим параметрам и обеспеченных системой поиска, называется...
a) базой данных;
b) словарем;
c) информационным массивом;
d) корпусом.
19. Разметка бывает...
a) морфологической; синтаксической; семантической и просодической;
b) полнотекстовой и фрагментной;
c) синхронической и диахронической;
d) звуковой, письменной, смешанной.
20. УНК – это...
a) корпус естественного языка, представительный по отношению ко всему языку;
b) универсальный национальный код;
c) собрание текстов, которое существует в Интернете;
30
d) собрание текстов, размеченных по различным лингвистическим параметрам и обеспеченных системой поиска.
21. Требования к корпусам:
a) полнота, адекватность, актуальность, компьютерная поддержка;
b) устойчивость, тиражируемость, адаптируемость, оптимальность временных параметров, комфорт пользователя;
c) репрезентативность, полнота, экономичность, структуризация, компьютерная поддержка;
d) полнота, экономичность, достоверность, структуризация, компьютерная поддержка.
22. Корпусный менеджер...
a) обеспечивает сортировку результатов поиска, статистические подсчеты, составление списков слов на основе корпуса;
b) это специальная программа поиска по корпусу;
c) это человек, составляющий корпуса и управляющий ими;
d) это специальная программа подготовки текстов к их включению в корпус.
23. ПОД – это...
a) вид информационно-поисковой системы;
b) специальная программа поиска по корпусу;
c) поисковый образ документа;
d) поисковая оценка данных.
24. Одна из основных проблем компьютерного анализа речи состоит в том, что...
a) невозможно создать искусственный интеллект;
b) компьютер не умеет работать со смыслом;
c) у компьютера нет дополнительных источников информации
(ситуация, контекст, прошлый опыт в данной области и т.п.);
d) разработчики не желают делиться своими профессиональными секретами.
25. Электронный словарь – это...
a) введенный в компьютер бумажный словарь, снабженный средствами поиска и отображения информации;
b) организованное собрание слов с комментариями, в которых описываются особенности структуры и/или функционирования этих слов;
c) организованное собрание слов с описанием их значения, особенностей употребления, структурных свойств, сочетаемости, соотношения с лексическими системами других языков и т.д.;
31
d) словарь в специальном машинном формате, предназначенный для применения на ЭВМ пользователем или компьютерной программой.
26. К зонам словарной статьи не относится…
a) лексический вход (вокабула, лемма);
b) зона грамматической информации;
c) зона стилистических помет;
d) словник.
27. Что включает в себя понятие АСПОТ?
a) словарь в специальном машинном формате, предназначенный для применения на ЭВМ пользователем;
b) компьютерные версии хорошо известных словарей (Вебстер,
Коллинз, Ожегов...);
c) словарь в специальном машинном формате, предназначенный для применения на ЭВМ компьютерной программой;
d) словари, предназначенные для обычного пользователя.
28. Что не относится к понятию термина?
a) слово (словосочетание) метаязыка науки, а также областей конкретной практической деятельности человека;
b) понятие задается через свойства, реализуемые в системе;
c) использование основывается не на интуиции, а на четких определениях;
d) сопоставляется, как правило, несколько значений.
29. Что не относится к процессу и понятию машинного перевода?
a) междисциплинарность;
b) использование машинных средств;
c) принципиальное сходство этапов понимания и синтеза текста;
d) учет языковых и экстралингвистических знаний.
30. Типовая парадигма лексемы в автоматическом морфологическом анализе – это...
а) последовательность букв от начала словоформы, общая для всех словоформ;
b) элементы, описывающие формоизменение конкретной лексемы;
c) совокупность наборов машинных окончаний;
d) совпадение основ разных слов.
31. Требования к системам МП включают...
a) устойчивость, тиражируемость, адаптируемость, оптимальность временных параметров, комфорт пользователя;
b) полнота, адекватность, актуальность, достоверность;