Файл: Практикум по дисциплине Технологии и продукты цифровой экономики Методические указания к лабораторным работам для студентов.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 10.11.2023
Просмотров: 302
Скачиваний: 22
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
Министерство науки и высшего образования РФ
Ульяновский государственный университет
Форма
Ф-Методические указания
выделите единственное значение поля Сбыт в Сводной таблице, вызовите правой клавишей мыши контекстное меню и выберите пункт
Итоги по/ Количество
Перетащите мышкой еще одну копию поля Сбыт в область Названия строк;
Теперь Сводная таблица показывает сколько партий Товара сбывалось за 5, 6, 7, … дней. Всего 66 строк. Сгруппируем значения с шагом 10. Для этого:
Выделите одно значение Сводной таблицы в столбце Названия строк;
В меню
Работа со сводными таблицами/ Параметры/ Группировать
выберите пункт Группировка по полю;
Появившееся окно заполните, как показано на рисунке ниже;
Министерство науки и высшего образования РФ
Ульяновский государственный университет
Форма
Ф-Методические указания
Нажмите ОК.
Теперь Сводная таблица показывает сколько партий Товара сбывалось в период от 1 до 10 дней, в период 11-20 дней и т.д.
Чтобы разгруппировать значения выберите пункт Разгруппировать в меню
Работа со
сводными таблицами/ Параметры/ Группировать
Аналогичную группировку можно провести по полю Дата поставки. В этом случае окно Группировка по полю будет выглядеть так:
Министерство науки и высшего образования РФ
Ульяновский государственный университет
Форма
Ф-Методические указания
Теперь Сводная таблица показывает, сколько партий Товара поставлялось каждый месяц.
Министерство науки и высшего образования РФ
Ульяновский государственный университет
Форма
Ф-Методические указания
Условное форматирование ячеек Сводной таблицы
К ячейкам Сводной таблицы можно применить правила
Условного форматирования как и к ячейкам обычного диапазона. Выделим, например, ячейки с 10 наибольшими объемами продаж. Для этого:
Выделите все ячейки содержащие значения продаж;
Выберите пункт меню
Главная/ Стили/ Условное форматирование/ Правила
отбора первых и последних значений/ 10 первых элементов
;
Нажмите ОК.
Министерство науки и высшего образования РФ
Ульяновский государственный университет
Форма
Ф-Методические указания
Содержание отчета
Отчет по лабораторной работе представляется в виде документа Word. В состав документа входят:
1.
Название работы
2.
Цель работы
3.
Копии экрана, иллюстрирующие выполнения задания лабораторной работы
4.
Выводы по работе
Контрольные вопросы:
1.
Какие вы знаете средства Excel для ввода функций?
2.
Перечислите основные категории функций Excel. Как к ним обратиться?
3.
Какими способами можно вставить значения аргументов функции?
4.
Данные каких типов могут быть записаны в ячейку?
5.
Каковы правила ввода и редактирования данных в Excel?
6.
Что входит в понятие «формат ячейки»? Приведите примеры различных форматов.
7.
Какими способами выполняют выравнивание содержимого ячейки? Какие виды выравнивания существуют?
8.
Каковы правила ввода и редактирования формул в Excel?
9.
Назовите элементы строки формул и укажите их назначение.
10.
Как записываются абсолютные и относительные адреса ячеек?
11.
Когда необходимо использовать абсолютные адреса ячеек?
12.
Аргументы каких типов могут присутствовать в функциях?
Министерство науки и высшего образования РФ
Ульяновский государственный университет
Форма
Ф-Методические указания
Лабораторная работа №4
Построение дерева решений с помощью СППР Deductor Studio
Цель работы:
Освоение интеллектуального инструмента (СППР Deductor Studio), предназначенного для решения широкого спектра задач, связанных с обработкой структурированных и представленных в виде таблиц данных.
Результаты лабораторной работы:
Файлы формата СППР Deductor Studio с выполненным заданием.
Задание
Пример использует набор данных Congressional Voting Records Data Set - на основании результатов 16 голосований необходимо предсказать политическую принадлежность американских сенаторов (республиканец или демократ).
Набор данных
Визуализация результатов
Основной целью аналитика является отнесение сенатора к той или иной партии.
Механизм отнесения должен быть таким, чтобы сенатор указал, как он будет голосовать за различные законопроекты, а дерево решений ответит на вопрос, кто он – демократ или республиканец. Такой механизм предлагает визуализатор Что-если. Не менее важным является и просмотр самого дерева решений, на котором можно определить, какие факторы являются более важными (верхние узлы дерева), какие второстепенными, а какие вообще не оказывают влияния (входные факторы, вообще не присутствующие в дереве решений).
Поэтому выберем также и визуализатор Дерево решений. Формализованные правила классификации, выраженные в форме "Если <Условие>, тогда <Класс>", можно увидеть, выбрав визуализатор Правила (дерево решений). Часто аналитику бывает полезно узнать, сколько примеров было распознано неверно, какие именно примеры были отнесены к какому классу ошибочно. На этот вопрос дает ответ визуализатор Таблица сопряженности. Очень важно знать, каким образом каждый фактор влияет на классификацию. Такую информацию предоставляет визуализатор Значимость атрибутов.
Министерство науки и высшего образования РФ
Ульяновский государственный университет
Форма
Ф-Методические указания
Учебно-методический материал
Импортируем набор данных Congressional Voting Records Data Set (адаптированная русскоязычная версия) из текстового файла Голосование конгресса.txt.
Открыв статистику, увидим, что всего в наборе 435 записей, из них 267 - демократы и
168 - республиканцы.
Таблица содержит следующие поля: Класс – класс голосующего (демократ или республиканец), остальные поля информируют о том, как голосовали сенаторы за принятие различных законопроектов (да, нет, воздержался).
Министерство науки и высшего образования РФ
Ульяновский государственный университет
Форма
Ф-Методические указания
Для решения задачи запустим Мастер обработки. Выберем в качестве узла обработки
Дерево решений.
На втором шаге назначим поле Класс - выходным, а оставшиеся поля - входными.
Далее предлагается настроить способ разбиения исходного множества данных на обучающее и тестовое. Зададим случайный способ разбиения, когда данные для тестового и обучающего множества берутся из исходного набора случайным образом.
Замечание. Для этих же целей можно было воспользоваться отдельным узлом
Разбиение на множества.
Министерство науки и высшего образования РФ
Ульяновский государственный университет
Форма
Ф-Методические указания
На следующем шаге мастера предлагается настроить параметры процесса обучения, а именно минимальное количество примеров, при котором будет создан новый узел (пусть узел создается, если в него попали два и более примеров), а также предлагается возможность строить дерево с более достоверными правилами. Оставим данные опции включенными.
На следующем шаге мастера нужно решить, каким будет процесс построения дерева решений: в автоматическом режиме или интерактивном (полуавтоматическом). Оставим предлагаемый по умолчанию автоматический режим построения.
После построения дерева можно увидеть информацию о количестве распознанных примеров: почти все примеры и на обучающей и на тестовой выборке были правильно распознаны.
Министерство науки и высшего образования РФ
Ульяновский государственный университет
Форма
Ф-Методические указания
Перейдем на следующий шаг мастера для выбора способа визуализации полученных результатов.
Основной целью аналитика является отнесение сенатора к той или иной партии.
Механизм отнесения должен быть таким, чтобы сенатор указал, как он будет голосовать за различные законопроекты, а дерево решений ответит на вопрос, кто он – демократ или республиканец. Такой механизм предлагает визуализатор Что-если. Не менее важным является и просмотр самого дерева решений, на котором можно определить, какие факторы являются более важными (верхние узлы дерева), какие второстепенными, а какие вообще не оказывают влияния (входные факторы, вообще не присутствующие в дереве решений).
Поэтому выберем также и визуализатор Дерево решений. Формализованные правила классификации, выраженные в форме "Если <Условие>, тогда <Класс>", можно увидеть, выбрав визуализатор Правила (дерево решений). Часто аналитику бывает полезно узнать, сколько примеров было распознано неверно, какие именно примеры были отнесены к какому классу ошибочно. На этот вопрос дает ответ визуализатор Таблица сопряженности. Очень важно знать, каким образом каждый фактор влияет на классификацию. Такую информацию предоставляет визуализатор
1 2 3
Значимость атрибутов.
Построение сценария окончено.
Построение сценария окончено.
Министерство науки и высшего образования РФ
Ульяновский государственный университет
Форма
Ф-Методические указания
Содержание отчета
Отчет по лабораторной работе представляется в виде документа Word. В состав документа входят:
5.
Название работы
6.
Цель работы
7.
Копии экрана, иллюстрирующие выполнения задания лабораторной работы
8.
Выводы по работе
Контрольные вопросы:
1.
Для чего предназначен мастер импорта программы Deductor Studio?
2.
Для чего предназначен мастер обработки программы Deductor Studio?
3.
Для чего предназначен мастер отображений программы Deductor Studio?
4.
Для чего следует проводить подготовку данных для анализа?
5.
Что такое шумы и аномалии в данных?
6.
Какими методами можно убрать шумы в системе Deductor?
Список рекомендуемой литературы
1.
Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Методы и модели анализа данных: OLAP и Data Mining. – Спб.: БХВ-Петербург, 2004. – 336 с.: ил
2.
Загоруйко Н.Г. Прикладные методы анализа данных и знаний. – Новосибирск: Изд-во
Ин-та математики, 1999. – 270 с.
3.
Тюрин Ю.Н., Макаров А.А. Статистический анализ данных на компьютере / Под ред.
В. Э. Фигурнова – М.: ИНФРА-М, 1998. – 528 с., ил.
Министерство науки и высшего образования РФ
Ульяновский государственный университет
Форма
Ф-Методические указания
Лабораторная работа №5
Прогнозирование с помощью нейронной сети
Цель работы:
Освоение интеллектуального инструмента (СППР Deductor Studio), предназначенного для решения широкого спектра задач, связанных с обработкой структурированных и представленных в виде таблиц данных. научиться применять методы Data Mining для решения задач прогнозирования временных рядов на примере построения модели прогноза продаж
Результаты лабораторной работы:
Файлы формата СППР Deductor Studio с выполненным заданием.
Задание
В блокноте создать файл «Trade.txt» с данными, содержащими историю продаж за некоторый период. Файл должен содержать два столбца «Дата (Год+Месяц)» (формата ГГГГ-
МММ) и «Количество» (десятичное число).
Определить есть ли сезонность, если есть, то какая.
Какое количество товара будет продано через неделю и через две.
Данные:
Дата (Год + Месяц) Количество
2021-M01 462523.419 2021-M02 633208.196 2021-M03 660159.299 2021-M04 617455.3417 2021-M05 597354.4794 2021-M06 793517.4512 2021-M07 1015944.2862 2021-M08 1148052.2523 2021-M09 1156623.1715 2021-M10 1255021.9423 2021-M11 1410114.5606 2021-M12 1357230.3388
Рис.1.
Учебно-методический материал
Важным фактором для анализа временного ряда и прогноза является определение сезонности. В Deductor Studio таким инструментом является автокорреляция.
Целью автокорреляционного анализа является выяснение степени статистической зависимости между различными значениями (отсчетами) случайной последовательности, которую образует поле выборки данных. Если их корреляция равна единице, то величины прямо зависимы друг от друга, если нулю – то нет, если минус единица, то зависимость обратная. В процессе автокорреляционного анализа рассчитываются коэффициенты корреляции (мера взаимной зависимости) для двух значений выборки, отстоящих друг от друга на определенное количество отсчетов, называемые также лагом.
Применительно к анализу временных рядов автокорреляция позволяет выделить месячную и годовую сезонность в данных. Видно, что пик зависимости на данных приходится на 12 месяц, что свидетельствует о годовой сезонности. Поэтому величину
Министерство науки и высшего образования РФ
Ульяновский государственный университет
Форма
Ф-Методические указания продаж годовой давности необходимо обязательно учитывать при построении модели (если используется нейронная сеть – то подавать на вход).
Линейная автокорреляция ищет зависимости между значениями одной и той же величины, но в разное время. Поэтому нахождение линейной автокорреляционной зависимости и применяется для определения периодичности (сезонности) при обработке временных рядов.
Прогноз временного ряда. Прогнозирование результата на определенное время вперед, основываясь на данных за прошедшее время – задача, встречающаяся довольно часто (к примеру, перед большинством торговых фирм стоит задача оптимизации складских запасов, для решения которой требуется знать, чего и сколько должно быть продано через неделю, и т.п.; задача предсказания стоимости акций какого-нибудь предприятия через день и т.д. и другие подобные вопросы). Deductor Studio предлагает для этого инструмент
«Прогнозирование».
Прогнозирование появляется в списке мастера обработки только после построения какой-либо модели прогноза: нейросети, линейной регрессии и т.д. Прогнозировать на несколько шагов вперед имеет смысл только временной ряд (к примеру, если есть данные по недельным суммам продаж за определенный период, можно спрогнозировать сумму продаж на две недели вперед).
Обработчик «Нейросеть». Обработчик предназначен для решения задач регрессии и прогнозирования. В данном случае нейросеть строится для прогнозирования будущих значений временного ряда. Для проверки обобщающей способности нейросети рекомендуется разбить имеющееся множество данных на две части: обучающее и тестовое.
Как правило, при прогнозировании временных рядов, доля тестового множества составляет не более 10-20%.
С помощью визуализатора «Диаграмма» оценивается способность построенной нейросетевой модели к обобщению. Для этого в одном окне выводятся графики исходного и спрогнозированного временных рядов.
Порядок выполнения работы
Импортируем данные из текстового файла. Обратите внимание на то, что в файле данные о количестве находятся не в стандартном формате: разделитель дробной и целой части числа не запятая, а точка, поэтому необходимо внести соответствующие изменения в настройки по умолчанию параметров импорта. Выберем в качестве визуализатора диаграмму для просмотра исходной информации (рис.2).