Файл: Методическое пособие для курсовой работы санктпетербург 2021 содержание введение 3 общие требования 3.docx
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 11.01.2024
Просмотров: 87
Скачиваний: 1
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
Ф.В. Филиппов
ТЕХНОЛОГИИ
ОБРАБОТКИ ИНФОРМАЦИИ
МЕТОДИЧЕСКОЕ ПОСОБИЕ
ДЛЯ КУРСОВОЙ РАБОТЫ
САНКТ-ПЕТЕРБУРГ
2021
СОДЕРЖАНИЕ
ВВЕДЕНИЕ 3
ОБЩИЕ ТРЕБОВАНИЯ 3
1.Требования к оформление курсовой работы 3
2.Требования к содержанию курсовой работы 5
КРАТКИЕ СВЕДЕНИЯ 7
1.Метод PCA 7
2.Примеры использования метода PCA 9
3.Алгоритм t-SNE 13
4.Примеры использования алгоритма t-SNE 15
5.Алгоритм UMAP 19
6.Пример использования алгоритма UMAP 20
7.Графика в формате SVG 21
КОМПЛЕКТ ЗАДАНИЙ 22
Задание № 1: Понижение размерности данных 22
Задание № 2: Кластеризация данных 24
Задание № 3: Обработка графической информации 25
ПОЛЕЗНЫЕ РЕСУРСЫ 29
© Филиппов Ф.В., 2021
ВВЕДЕНИЕ
Курсовая работа выполняется в рамках образовательной программы «Информационные системы и технологии» («Интеллектуальные системы и технологии») и является неотъемлемой частью образовательного процесса. Выполнение курсовой работы представляет собой решение студентом, под руководством преподавателя, конкретных задач обработки информации.
Цель курсовой работы – углубить знания и умения студентов, полученные в процессе теоретических и практических занятий, улучшить навыки самостоятельного поиска и изучения материала по теме курсовой работы, а также развить компетенции аналитической, исследовательской и проектной деятельности. В частности, компетенции:
- ПК-1 - способность проводить исследования на всех этапах жизненного цикла программных средств;
- ПК-18 - способность выполнять работы по созданию (модификации) и сопровождению ИС, автоматизирующих задачи организационного управления и бизнес-процессы;
- ПК-19 - способность выполнять работы и управлять работами по созданию (модификации) и сопровождению ИС, автоматизирующих задачи организационного управления и бизнес-процессы.
ОБЩИЕ ТРЕБОВАНИЯ
Курсовая работа должна быть выполнена на основе тщательно проработанных материалов научной и учебной литературы, собранных и обработанных эмпирических и теоретических сведений по изучаемой дисциплине.
Курсовая работа должна отличаться критическим подходом к изучению литературных источников и демонстрировать умение использования студентом методов исследования в информационных технологиях, изученных в дисциплинах учебного плана соответствующего курса обучения. Материал, привлекаемый из литературных источников, должен быть переработан, органически увязан с решаемой студентом задачей. Изложение материала должно быть конкретным, насыщенным фактическими данными, анализом, расчетами, программными кодами, графиками и таблицами.
Курсовая работа должна завершаться конкретными выводами и рекомендациями.
-
Требования к оформление курсовой работы
Пояснительная записка курсовой работы должна содержать:
- Титульный лист.
- Содержание курсовой работы.
- Введение.
- Текстовое изложение курсовой работы (по разделам), а именно:
1. Постановка задачи.
1.1. Задание на курсовую работу.
1.2. Загрузка и подготовка исходных данных для анализа.
В зависимости от типа исходных данных подготовка данных может включать удаление объектов с пропущенными значениями атрибутов, стандартизацию и нормирование, ограничение объема анализируемых векторов с помощью случайной выборки заданного количества, преобразование типов и тому подобное.
2. Основные сведения необходимые для выполнения курсовой работы. 2.1. Главные теоретические положения лежащие в основе решения поставленной задачи.
2.2. Описание используемых библиотечных функций с примерами.
3. Решение поставленной задачи.
3.1. Программный код с подробными комментариями.
3.2. Полученные результаты с выводами, пояснения полученных графических материалов.
- Заключение.
- Список использованных источников.
Текстовое изложение разделов 1 – 3 выполняются для каждого задания курсовой работы. Введение, заключение и список используемых источников является общим для всей работы.
Пояснительная записка курсовой работы выполняется на одной стороне листа формата А4, по обеим сторонам листа остаются поля размером 35 мм слева и 10 мм справа. Пояснительная записка должна быть написана 14 кеглем, используемый шрифт - Times New Roman, междустрочный интервал 1,5.
Все листы пояснительной записки должны быть пронумерованы и сброшюрованы. Каждый раздел в тексте должен иметь заголовок в точном соответствии с названиями в содержании.
Новый раздел можно начинать на той же странице, на которой кончился предыдущий, если на этой странице кроме заголовка поместится несколько строк текста.
Таблицы, рисунки (графический и другой иллюстративный материал) необходимо размещать по ходу изложения, после соответствующей ссылки на них. Они должны иметь название и порядковый номер. Не рекомендуется переносить таблицы и рисунки с одной страницы на другую, недопустимо разрывать заголовок с таблицей и рисунком, помещая их на разных страницах. Номер формул проставляется в круглых скобках справа от формул.
В пояснительной записке можно использовать только общепринятые сокращения и условные обозначения. Цитаты, цифровые и графические материалы, взятые из соответствующих источников, должны сопровождаться ссылками на них. Эти ссылки могут быть сделаны в виде сносок в нижней части страницы с указанием автора, названия работы, издательства, года издания и номера страницы, где находится данное высказывание, или с указанием в скобках сразу же после высказывания номера источника в списке литературы, если речь идет о содержании всего источника, например, [1]. Если же дается цитата, то источник приводится в скобках, как номер источника, так и номер страницы или страниц, например, [1, с.2]. Цитаты должны быть тщательно выверены и заключены в кавычки. Студент несет ответственность за точность данных, а также за объективность изложения мыслей других авторов.
Общий объем курсового проекта – до 20-30 страниц машинописного текста.
Курсовая работа должна быть подписана студентом.
-
Требования к содержанию курсовой работы
Во введении (1-2 страницы) обосновывается актуальность темы, определяются объект и предмет исследования, формируются цели, определяются задачи курсовой работы. Далее следует кратко раскрыть содержание отдельных разделов работы, отметить особенности применяемых методик и программных библиотек.
Содержательная часть курсовой работы должна содержать постановку задачи для каждого задания, теоретический материал, программные коды с подробными комментариями и выводами по полученным результатам.
Теоретическая часть является результатом работы студента над литературными источниками, отражающими отечественный и зарубежный опыт, отвечающий целям и задачам курсовой работы.
Основные теоретические положения и выводы желательно иллюстрировать цифровыми данными и статистическими данными из статистических справочников, монографий, журнальных статей и других источников. В данной части работы студент должен показать умения критически подходить к рассмотрению проблемы, вытекающей из целей и задач курсовой работы, обобщать, анализировать и систематизировать собранный материал, раскрывать проблемы рассматриваемого вопроса.
Следует обратить внимание на стилистику, язык изложения материалов и оформление пояснительной записки. Разделы работы должны быть взаимосвязаны. Поэтому особое внимание нужно обращать на логические переходы от одного раздела к другому. Каждый раздел должен заканчиваться выводами, позволяющими перейти к изложению материала следующего раздела.
В заключении следует сделать общие выводы. После заключения необходимо привести список использованных источников (с соблюдением всех библиографических правил).
КРАТКИЕ СВЕДЕНИЯ
В курсовой работе необходимо выполнить три задания. Первое задание связано с изучением эффективных методов понижения размерности данных, второе – с исследованием алгоритмов визуальной классификации, а третье с освоением методики обработки графических данных в формате SVG.
Настоящий раздел включает минимальный набор сведений необходимых для решения поставленных задач. Сведения касаются основных методов, которые могут быть использованы в ходе выполнения заданий курсовой работы.
-
Метод PCA
Методы понижения размерности играют важную роль в задачах обработки данных. Они позволяют строить модели в пространствах меньшей размерности, чем исходное признаковое пространство, с минимальными потерями информации. В ряде случаев полезно понижать размерность до двух, то есть проецировать данные на плоскость. Таким образом можно изучить структуру данных, например, посмотреть, насколько разделимы классы в задачах классификации.
Метод главных компонент PCA (PrincipalComponentAnalysis)— один из основных способов уменьшить размерность данных, с потерей наименьшего количества информации. В совокупности основная цель анализа главных компонентов заключается в следующем:
-
выявить скрытый паттерн в наборе данных, -
уменьшить размерность данных за счет устранения шума и
избыточности,
-
определить коррелированные переменные.
Метод главных компонент применяется к данным, записанным в виде матрицы X – прямоугольной таблицы чисел. Традиционно строки этой матрицы называются образцами, а столбцы – переменными (атрибутами). Цель – извлечение из этих данных нужной информации. Шум и избыточность в данных обязательно проявляют себя через корреляционные связи между переменными.
Суть метода главных компонент – существенное понижение размерности данных. Исходная матрица X заменяется двумя новыми матрицами T и P (рис. 1):
.
Матрица T называется матрицей счетов (scores) , а матрица P — матрицей нагрузок (loadings). При этом, размерность матрицы Т, число ее столбцов k, меньше, чем число переменных m (столбцов) у исходной матрицы X.
Рис. 1. Представление матрицы Х двумя матрицами Т и Р
Вторая размерность – число образцов (строк) сохраняется. Если декомпозиция выполнена правильно – размерность k выбрана верно, то матрица T несет в себе практически столько же информации, сколько ее было в начале, в матрице X. При этом матрицы T и P в совокупности меньше, и, стало быть, проще, чем X.
Метод главных компонент тесно связан с другим методом – разложением по сингулярным значениямSVD (Singular Value Decomposition). В этом случае исходная матрица X разлагается в произведение трех матриц (рис. 2):
матрицы U и V – ортогональные, S - диагональная, значения на ее диагонали
называются сингулярными значениями σ1 ≥ ... ≥ σR ≥ 0, которые равны квадратным корням из собственных значений λr:
Такое разложение обладает замечательной особенностью: если в матрице S оставить только k наибольших сингулярных значений, а в матрицах U и V только соответствующие этим значениям столбцы, то произведение получившихся матриц будет наилучшим приближением исходной матрицы X к матрице меньшего ранга k.
Рис. 2. Разложение матрицы Х по сингулярным значениям
Связь между PCA и SVD определяется двумя простыми соотношениями:
и
Таким образом, оба метода можно использовать для решения задач понижения размерности данных с минимальными потерями информации. При решении различных задач распознавания предполагается, что в наличии имеется некоторая выборка объектов, и для каждого объекта вычислен один и тот же набор признаков. На практике объекты могут быть представлены сложными многомерными данными, например, изображениями, набором кривых, текстом и так далее. Поэтому возникает задача извлечения из входных многомерных данных набора признаков, информативных с точки зрения дальнейшего решения задачи распознавания.
Любые многомерные данные всегда можно представить в виде вектора чисел. В случае изображений достаточно развернуть матрицу пикселей в вектор. Для текстов можно вычислить количество раз, которое встречается каждое слово в тексте, и сформировать вектор чисел, длина которого определяется общим числом слов в словаре. Подобные векторы чисел имеют, как правило, большую длину, а содержащиеся в них признаки, как правило, малоинформативны. Именно поэтому рассматривается задача сокращения размерности описания данных с целью получения относительно компактного множества информативных признаков.