Файл: Протокол 20 г. Дополнительная общеобразовательная общеразвивающая программа.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 25.10.2023
Просмотров: 326
Скачиваний: 2
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
ДЕПАРТАМЕНТ ОБРАЗОВАНИЯ ГОРОДА МОСКВЫ
ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБЩЕОБРАЗОВАТЕЛЬНОЕ
УЧРЕЖДЕНИЕ ГОРОДА МОСКВЫ «ШКОЛА № ______»
Принята на заседании
Утверждаю методического совета
Директор ГБОУ Школа № ___ от «__» _________ 20___ г.
____________________ Ф.И.О.
Протокол № _________
«__» ____________ 20___ г.
ДОПОЛНИТЕЛЬНАЯ ОБЩЕОБРАЗОВАТЕЛЬНАЯ
ОБЩЕРАЗВИВАЮЩАЯ ПРОГРАММА
«Компьютерная лингвистика»
НАПРАВЛЕННОСТЬ: ТЕХНИЧЕСКАЯ
Уровень программы: базовый
Возраст обучающихся:16-18 лет
Срок реализации:1 год
Составитель (разработчик):
ФИО, педагог дополнительного образования г. Москва
20__ год
2
СОДЕРЖАНИЕ
1.
Пояснительная записка
3 2.
Учебный (тематический) план
6 3.
Содержание учебного (тематического) плана
9 4.
Организационно-педагогические условия реализации программы
18 5.
Список литературы
18 6.
Приложение
21
3
ПОЯСНИТЕЛЬНАЯ ЗАПИСКА
Компьютерная лингвистика – прикладная наука, зародившаяся в
США во второй половине XX века.
Лингвистика и программирование – казалось бы, сферы максимально далекие друг от друга. Но в современном мире деление на «технарей» и «гуманитариев» становится весьма условным, в рамках междисциплинарных исследований знания из разных областей наук дополняют друг друга и позволяют создавать инновационные продукты.
Сегодня эта сфера активно развивается, ведь огромное количество пользователей из разных точек мира используют Интернет, ПО, компьютеры, девайсы для поиска и обработки информации, аналитики, обучения – решения любых задач. Крупнейшие IT-компании мира вкладывают в эту область существенные инвестиции, делая ее одной из самых коммерчески востребованных сфер деятельности. Поисковая система
«Яндекс», помощник «Ok, Google», онлайн-переводчики, чат-боты на сайтах – все это продукты компьютерной лингвистики, которые мы используем каждый день, не всегда задумываясь о том, какие технологии стоят за ними.
Дополнительная общеобразовательная общеразвивающая программа
«Компьютерная лингвистика» (далее – Программа) технической направленности, базового уровня направлена на развитие интеллектуально- творческих способностей обучающихся, приобретение ими знаний и умений в области компьютерной лингвистики и служит профориентационным средством.
Программа может быть использована при реализации проекта предпрофессионального образования
«Школа старшеклассников», рекомендована обучающимся академических и IT-классов, а также при подготовке к участию в Чемпионате WorldSkills Russia, блок компетенций
«Информационные и коммуникационные технологии».
Актуальность Программызаключается в создании условий для оптимального развития технических способностей обучающихся старших классов, их профессионального самоопределения. Она знакомит обучающихся с широким спектром направлений деятельности специалистов по компьютерной лингвистике. Компьютерные лингвисты принимают участие в создании алгоритмов и программ, используемых для извлечения данных, разработки онлайн-словарей, переводчиков, QA-систем и т. д. Так, например, алгоритмы распознавания естественно звучащей речи используются в системах умных домов, современных гаджетах. Такие
4
технологии облегчают жизнь обычных пользователей и людей с ограниченными возможностями.
Новизна Программы заключается в построении индивидуальной образовательной траектории обучающегося, в приобретении им знаний, востребованных на рынке труда, в повышении самооценки и осознании перспектив будущей жизни, дальнейшей социализации.
Данная Программа разработана на основе программы «Компьютерная лингвистика» (разработчик Толдова С.Ю., преподаватель ФГАОУ ВО
«НИУ «Высшая школа экономики» г. Москва, 2016 г.).
Педагогическая целесообразность Программы заключается в том, что она даёт необычайно сильный толчок для развития интеллекта обучающихся, формирует их логическое мышление, вырабатывает привычку аккуратной и систематической работы, помогает им успешно овладевать не только общеучебными умениями и навыками, но и освоить более сложный уровень знаний.
Отличительная особенность Программысостоит в том, что в основе принципов реализации данной программы лежит не только теоретическая подготовка, изучение основ работы в области компьютерной лингвистики, но и развитие практических навыков, профессиональных качеств.
Цель Программы – познакомить обучающихся с основами компьютерной лингвистики, стимулировать их интерес к профессиям, связанным с данной областью, заложить базу для дальнейшего освоения теории и практики языковых технологий.
Реализация поставленной цели предусматривает решение ряда задач.
Задачи Программы
Обучающие:
дать представление об основных понятиях и категориях современной лингвистики, а также основных направлениях и задачах компьютерной лингвистики;
формировать систему знаний об основных типах систем, использующих модули лингвистического анализа;
обучать основным методам, способам и средствам получения, хранения, переработки информации;
дать представление о типах, характеристиках, особенностях основных доступных в Интернете лингвистических ресурсов;
5
формировать умения использовать основные принципы и методы компьютерного моделирования лингвистических задач.
Развивающие:
развивать эффективное использование компьютерных систем;
развивать мыслительные, творческие, коммуникативные способности обучающихся;
развивать интеллектуальные и практические умения, самостоятельно приобретать и применять на практике полученные знания.
развивать интерес к компьютерной лингвистике как области профессиональной деятельности;
развиваь умения работать с разными источниками информации, исследовательские и практические умения, коммуникативную культуру.
Воспитательные:
воспитывать устойчивый интерес к компьютерной лингвистике;
воспитывать информационную культуру как составляющую общей культуры современного человека;
формировать потребность в творческой деятельности, стремление к самовыражению.
Категория обучающихся
Обучение по Программе ведется в разновозрастных группах, которые комплектуются из обучающихся 16-18 лет. Количество обучающихся в группе – 15 человек.
Сроки реализации Программы
Программа рассчитана на 1 год обучения. Общее количество часов в год составляет 216 часов.
Формы и режим занятий
Программа реализуется 3 раза в неделю по 2 часа. Программа включает в себя лекционные и практические занятия.
Планируемые результаты освоения Программы
По итогам реализации Программы, обучающиеся будут
знать:
основные направления и задачи компьютерной лингвистики;
сущность и значения информации в развитии современного общества;
6
основные методы, способы и средства получения, хранения, переработки информации;
основные принципы и методы компьютерного моделирования лингвистических задач;
особенности применения методов лингвистического анализа применительно к компьютерной лингвистике как предмету анализа.
По итогам реализации Программы обучающиеся будут
уметь:
анализировать работу различных систем обработки текста, для выявления основных лингвистических компонентов и основных типов обработки текста, используемых в данных системах;
подбирать необходимые лингвистические ресурсы для различных задач лингвистического обеспечения систем;
строить простейший конечный автомат для моделирования морфонологических явлений при автоматическом морфологическом анализе;
использовать язык регулярных выражений для простейших задач обработки текста;
работать с информацией в глобальных компьютерных сетях;
использовать методы лингвистического анализа применительно к предмету исследования компьютерной лингвистики.
Формы контроля и оценочные материалы
Формы контроля и оценочные материалы служат для определения результативности освоения обучающимися Программы. Текущий контроль проводится по окончании изучения каждой темы – выполнение обучающимися практических заданий. Промежуточный контроль проходит в середине учебного года в форме тестирования. Итоговый контроль
(зачетное занятие) проходит в конце учебного года – в форме контрольной работы.
Формы проведения аттестации:
● практические задания;
● тесты;
● контрольные работы;
● зачет.
7
СОДЕРЖАНИЕ ПРОГРАММЫ
Учебный (тематический) план
Название раздела/темы
Количество часов
Формы
аттестации и
контроля
Всего
Теория
Практика
1.
Основные задачи
компьютерной лингвистики
44
18
26
1.1.
Вводное занятие. Техника безопасности. Предмет компьютерной лингвистики
8 4
4
Первичная диагностика.
Тестирование
1.2.
История возникновения и развития компьютерной лингвистики
12 6
6
Текущий контроль.
Практическая работа
1.3.
Компьютерный анализ текста
12 4
8
Текущий контроль.
Практическая работа
1.4.
Задачи лингвистических информационных технологий
12 4
8
Текущий контроль.
Практическая работа
2.
Инструментарий
компьютерной лингвистики
36
14
22
2.1.
Словари
12 6
6
Текущий контроль.
Практическая работа
2.2.
Корпуса текстов
12 4
8
Текущий контроль.
Практическая работа
2.3.
Национальный корпус русского языка (НКРЯ)
12 4
8
Промежуточн ая аттестация.
Тестирование
3.
Автоматический анализ
текста
36
18
18
3.1.
Морфологический уровень
12 6
6
Текущий контроль.
Практическая работа
3.2.
Синтаксический уровень
12 6
6
Текущий
8
контроль.
Практическая работа
3.3.
Анафора и кореферентность
12 6
6
Текущий контроль.
Практическая работа
4.
Классификация и
кластеризация
96
40
56
4.1.
Закон Ципфа
12 6
6
Текущий контроль.
Практическая работа
4.2.
Модель TF*IDF
12 6
6
Текущий контроль.
Практическая работа
4.3.
Классификация документов
12 4
8
Текущий контроль.
Практическая работа
4.4.
Наивный байесовский классификатор
12 6
6
Текущий контроль.
Практическая работа
4.5.
Другие алгоритмы
12 6
6
Текущий контроль.
Практическая работа
4.6.
Оценка результатов классификации. F-мера
12 4
8
Текущий контроль.
Практическая работа
4.7.
Кластеризация
12 4
8
Текущий контроль.
Практическая работа
4.8.
Контент-анализ
12 4
8
Текущий контроль.
Практическая работа
5.
Итоговое занятие. Зачет
4
-
4
Итоговая аттестация.
Контрольная работа
9
Содержание учебного (тематического) плана
Раздел 1. Предмет компьютерной лингвистики
Тема 1.1. Вводное занятие. Техника безопасности. Введение в
компьютерную лингвистику
Теория. Знакомство с деятельностью объединения, с его целями и задачами, порядком и планом работы на учебный год. Инструктаж по технике безопасности. Язык. Текст. Основы лингвистики и теории речевой коммуникации. Введение в компьютерную лингвистику.
Практика. Первичная диагностика. Тестирование.
Тема 1.2. Основные направления компьютерной лингвистики
Теория. История возникновения и развития компьютерной лингвистики Этапы формирования компьютерной лингвистики. Задачи компьютерной лингвистики. Понятийные категории компьютерной лингвистики: «фреймы», «сценарии», «планы». Лингвистические системы.
Три уровня структур текста: поверхностная синтаксическая структура, глубинная синтаксическая структура, семантический уровень.
Прагматические структуры. Синтез текстов на естественном языке.
Актанты действий. Понимание текстов. Оживление текста. Модели коммуникации.
Практика. Выполнение практических заданий по теме «Основные направления компьютерной лингвистики».
Тема 1.3. Компьютерный анализ текста
Теория. 1. Фонетический анализ. Фонетика. 2. Графематический анализ (выделение элементов структуры текста: параграфов, абзацев, предложений, отдельных слов и т.д. Задачи: выделение абзацев, заголовков примечаний; выделение предложений из входного текста; разделение входного текста на слова, цифровые комплексы, формулы и т.д.).
Токенизация: сборка слов, написанных в разрядку; выделение устойчивых оборотов, не имеющих словоизменительных вариантов; выделение ФИО, когда имя и отчество написаны инициалами; выделение иностранных лексем, записанных латиницей; выделение электронных адресов и имен файлов. 3. Морфологический анализ. Морфология. Лемма. Лемматизация.
4. Синтаксический анализ. Синтаксис. 5. Семантический анализ. Семантика.
Коллокация. Идиомы.
Практика.
Выполнение практических заданий по теме
«Компьютерный анализ текста».
ИТОГО
216
90
126
10
Тема 1.4. Задачи лингвистических информационных технологий
Теория. 1.Распознавание звучащей речи и синтез речи по тексту. 2.
Поддержка ввода текста на электронные носители. 3. Машинный перевод.
4. Информационный поиск. 5. Компрессия текста (реферирование и аннотирование).
6.
Классификация текстов.
Кластеризация.
Рубрицирование. 7. Извлечение фактов и знаний (Information Extraction). 8.
Анализ нормативных текстов. 9. Анализ «под заказ» – распознавание заранее заданных сюжетных схем. 10. Вопросно-ответные системы
(Question Answering). Text Mining. 11. Диалог с компьютерными системами.
Практика. Выполнение практических заданий по теме «Задачи лингвистических информационных технологий».
Раздел 2. Инструментарий компьютерной лингвистики
Тема 2.1. Словари
Теория. Деление словарей:
- по содержащейся информации и назначению: энциклопедические и лингвистические
(многоязычные, двуязычные, одноязычные), их особенности; одноязычные словари
(толковые, тезаурусы, идеографические) их особенности;
- по функциям и цели создания толковые словари: дескриптивные и нормативные, их назначение;
- по принципам отбора лексики:
по сфере употребления (разговорные, диалектные, поэтической лексики и т.д.);
историческому аспекту (архаизмов, неологизмов и т.д.);
по раскрытию отдельных параметров слова (орфографические, этимологические и т.д.);
по раскрытию системных отношений между словами
(словообразовательные, омонимические, синонимические и т.д.);
частотные (с лемматизацией, без лемматизации). Способы сравнения слов;
обратные и др.
Структура и содержание словарных статей в словарях разных типов.
Практика. Выполнение практических заданий по теме «Словари».
Тема 2.2. Корпуса текстов
Теория. Определение корпуса текстов. Правила организации текстов в корпус, алгоритмы и программы анализа корпуса текстов. Идеология и методология. Первый корпус текстов (Брауновский корпус), его назначение.
Лингвистический
(языковой) корпус текстов, его задачи.
Репрезентативность – важнейшее свойство корпуса. Назначение языкового
11
корпуса, получение данных: о частоте словоформ, лексем, грамматических категорий; об изменениях частот; об изменениях контекстов в различные периоды времени; о поведении языковых единиц разных авторов; о совместной встречаемости лексических единиц; об особенностях их сочетаемости, управления и т.д.
Классификация корпусов текстов и их характеристики:
- по степени организации и структурирования:
электронный архив;
электронная библиотека;
корпус текстов (форма стандартизирована и унифицирована);
- по индексации:
простой;
аннотированный;
- по языку:
одноязычный;
двуязычный;
многоязычный;
- по способу применения и использования корпуса:
исследовательский;
иллюстративный;
параллельный.
Практика. Выполнение практических заданий по теме «Корпуса текстов».
Тема 2.3. Национальный корпус русского языка (НКРЯ)
Теория. Национальный корпус и две его важные особенности.
Представительность (сбалансированный состав текстов), её характеристика.
Разметка (аннотация), её характеристика. Виды разметки:
- экстралингвистическая (метаразметка) – сведения об авторе и тексте;
- структурная – глава, абзац, предложение, словоформа;
- лингвистическая:
морфологическая, part-of-speech (POS-tagging);
синтаксическая – связи между словами (предикативные, предложные, союзные и т.д.);
семантическая – предметные/непредметные имена, части чего- либо, типы действий и т.д.);
анафорическая – смысл одного элемента текста определяется смыслом другого;