Файл: Методические указания по выполнению лабораторных работ и организации самостоятельной работы для студентов, обучающихся по направлению подготовки.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 07.11.2023

Просмотров: 47

Скачиваний: 2

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РФ
Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования
«ТОМСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
СИСТЕМ УПРАВЛЕНИЯ И РАДИОЭЛЕКТРОНИКИ» (ТУСУР)
Кафедра автоматизации обработки информации
УТВЕРЖДАЮ
Зав. кафедрой АОИ, профессор
Ю.П. Ехлаков "___"_________ 2015 г.
ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ
СТАТИСТИЧЕСКОГО АНАЛИЗА ДАННЫХ
Методические указания по выполнению лабораторных работ и организации самостоятельной работы для студентов, обучающихся по направлению подготовки
«Государственное и муниципальное управление»
(уровень магистратуры).
Разработчик: доцент каф. АОИ, к.т.н.
__________ З.П. Лепихина
2015

2
ОГЛАВЛЕНИЕ
Введение…………………………………………………..
3 1. Методические указания по выполнению лабораторных работ…………………………………………………………………
5
Лабораторная работа 1…………….………………….……….…
5
Лабораторная работа 2……………………………………….…..
6
Лабораторная работа 3 …………….…………………………….
7
Лабораторная работа 4 …………….…………………………….
9
Лабораторная работа 5 …………….…………………………….
11
Лабораторная работа 6 …………….…………………………….
12
Лабораторная работа 7 …………….…………………………….
13
Лабораторная работа 8 …………….…………………………….
15
Лабораторная работа 9 …………….…………………………….
16 2. Организация самостоятельной работы студента
17 2.1 Общие положения………………………………………………..
17 2.2. Рекомендуемая литература……………………………………...
17 2.3. Методические указания по изучению тем дисциплины………
18
Приложение 1…………………………………………………………
27
Приложение 2…………………………………………………………
29
Приложение 3…………………………………………………………
31
Приложение 4…………………………………………………………
33
Приложение 5…………………………………………………………
34
Приложение 6…………………………………………………………
37

3
ВВЕДЕНИЕ
Целями дисциплины
«Информационные технологии статистического анализа данных являются формирование математической культуры магистрантов, знаний и навыков применения статистических методов и алгоритмов в социально- экономическом анализе для принятия эффективных управленческих решений на основе использования современных информационных технологий и программных средств.
Задачи изучения дисциплины заключаются в том, чтобы :
 дать студентам представление об информационных технологиях автоматизированного решения статистических задач;
 сформировать у студентов знания, умения и навыки в использовании методов получения статистической информации;
 развить навыки и способности студентов к применению современных теоретических и эмпирических моделей для решения конкретных задач анализа данных;
 выработать у студентов представления о том, какие теоретические модели заложены в различных методах анализа данных;
 сформировать умение критически оценивать информацию, правильно выбирать методы анализа результатов исследования в соответствии с его целями, задачами, гипотезами и имеющимися данными;
 развить необходимые навыки моделирования на ЭВМ, решения конкретных задач, возникающих при исследовании социально-экономических объектов и процессов.
Процесс изучения дисциплины «Информационные технологии статистического анализа данных», включая выполнение лабораторных работ и самостоятельную работу, направлен на формирование следующих профессиональных компетенций:
 способность осуществлять верификацию и структуризацию информации, получаемой из разных источников (ПК-11);
 способность использовать информационные технологии для ре- шения различных исследовательских и административных задач (ПК-12);
 способность критически оценивать информацию и конструктивно принимать решение на основе анализа и синтеза (ПК-
13).


4
По окончанию изучения дисциплины студент должен:
знать:
 методологические основы и логику статистического анализа данных;
 методы получения статистических данных и многомерное представление данных;
 типы задач, решаемые методами статистического анализа;
 наиболее известные алгоритмы многомерного математико- статистического анализа для решения каждого типа задач; допущения и ограничения для различных методов;
 основные стадии процесса обработки данных и инструменты, используемые на этих стадиях;
 возможности универсальных и специализированных пакетов программ статистического анализа данных;
уметь:
 эффективно организовать сбор статистических данных;
 осуществлять математическую и информационную постановку задач по обработке информации, использовать алгоритмы обработки информации для различных приложений;
 осуществлять выбор инструментальных средств для статистической обработки данных;
 анализировать исходные данные, выдвигать и проверять гипотезы;
 делать вывод о статистической достоверности обнаруженных зависимостей;
 содержательно интерпретировать данные;
 писать научные отчеты с использованием анализа количественных и качественных данных и представлять результаты своего исследования.
владеть:
 навыками организации получения статистической информации из различных источников;
 навыками анализа данных, содержащихся в различных источниках, с применением изученных в курсе методов;
 навыками моделирования и исследования различных процессов на ЭВМ и использования современного программного обеспечения;
 навыками содержательной интерпретации полученных результатов и выявления тенденций в развитии исследуемых процессов.

5 1 МЕТОДИЧЕСКИЕ УКАЗАНИЯ
ПО ВЫПОЛНЕНИЮ ЛАБОРАТОРНЫХ РАБОТ
Целью лабораторных занятий по дисциплине «Информационные технологии статистического анализа данных» является формирование указанных выше компетенций, закрепление и углубление знаний теоретической части дисциплины; приобретение умений применять подходящие статистические методы и алгоритмы в анализе социально- экономических данных, выработка навыков использования современных информационных технологий и программных средств для анализа и оформления полученных результатов.
ЛАБОРАТОРНАЯ РАБОТА 1 ( 4 часа)
Цель работы:
Представление статистических данных, построение вариационных рядов, вычисление средних величин и показателей вариации.
Исходные данные. Исследован размер заработной платы работников предприятия. Данные представлены в таблице (Приложение 1)
Порядок выполнения лабораторной работы
1) В соответствии с вариантом выбрать данные из таблицы исходных данных.
2) Упорядочить исходные данные (провести сортировку по возрастанию)
3) На основе исходных данных определить: а
) среднее значение показателя, моду и медиану б) размах вариации, среднее линейное отклонение, дисперсию, стандартное отклонение, коэффициент вариации
4) На основе исходных данных построить дискретный вариационный ряд и определить: а
) среднее значение показателя, моду и медиану б) размах вариации, среднее линейное отклонение, дисперсию, стандартное отклонение, коэффициент вариации в) первый и третий квартили г) построить диаграммы распределения работников по заработной плате.
5). На основе исходных данных построить интервальный вариационный ряд с равными интервалами. Число интервалов задано в каждом варианте. Определить:


6 а
) среднее значение показателя, моду и медиану б) размах вариации, среднее линейное отклонение, дисперсию, стандартное отклонение, коэффициент вариации в) первый и третий квартили г) построить диаграммы распределения работников по заработной плате.
6) Провести сравнительный анализ полученных результатов.
7) Оформить отчет.
ЛАБОРАТОРНАЯ РАБОТА 2 ( 4 часа)
Цель работы:
Первичный анализ данных на компьютере в среде Microsoft Excel.
Вычисление статистических характеристик показателей с использованием встроенных функций.
Исходные данные. Основные социально-экономические показатель субъектов СФО РФ представлены в таблице (Приложение 2)
Порядок выполнения лабораторной работы
1) По номеру варианта выбрать из таблицы Приложения 2 столбец, содержащий значения показателя.
2) Представить графически (столбиковая диаграмма) значения показателя у субъектов.
3) Пользуясь статистическими процедурами Excel, определить:
Максимальное и минимальное значение признака (МАКС,
МИН)
Среднее значение (СРЗНАЧ), медиану (МЕДИАНА), моду
(МОДА)
Дисперсию (ДИСПР) и среднее квадратическое отклонение
(СТАНДОТКЛОН)
4) Вычислить коэффициент вариации. Сделать выводы относительно однородности совокупности.
5) Определить удельный вес каждого субъекта в общем объеме признака в СФО
6) Представить графически (круговая диаграмма) структуру совокупности.
6) Провести сравнительный анализ полученных результатов.
7) Оформить отчет

7
ЛАБОРАТОРНАЯ РАБОТА 3 ( 4 часа)
Цель работы:
Построение и оценка качества группировки. Изучение взаимосвязи признаков методом аналитической группировки.
Определить вариант лабораторной работы и выбрать данные из таблицы ПРИЛОЖЕНИЯ 3
Вариант Фактор
(номер показа- теля)
Результат-
ВРП
Вариант Фактор
(номер показа- теля)
Результат-
ВРП
1.
2 1
6.
7 1
2.
3 1
7.
8 1
3.
4 1
8.
9 1
4.
5 1
9.
10 1
5.
6 1
10.
11 1
Исходные данные
Сформировать исходную таблицу, содержащую названия регионов и указанные в варианте показатели социально-экономического развития регионов СФО (ПРИЛОЖЕНИЕ 3).
Регион
Показатель (фактор)
ВРП (результат)
x
y



Порядок выполнения лабораторной работы
1) Провести сортировку по значению фактора.
2) Провести по всей совокупности для каждого признака расчет среднего значения, дисперсии, стандартного отклонения, коэффициента вариации
3) Построить точечную диаграмму зависимости результата от фактора.
4) Провести группировку регионов по значению фактора, выделив 3 группы:
«Малые»,
«Средние»,
«Крупные».
Границы группировочного показателя задать самостоятельно и уметь обосновать их..
Для каждой группы определить и занести в табл.1:


8
 частоту группы,
 групповые средние значения показателей
x
и
y
 групповые дисперсии показателя
x
и
y
,
 групповые коэффициенты вариации показателей
x
и
y
Таблица 1. Статистические характеристики группировки
Час тот а гру пп ы
Признак – фактор
х
Признак – результат
у
Гру ппа
Инте рвалы призн ака–
факто ра
f
j
Средн
ее
Диспе
рсия
Коэф
ф-
ициен
т
вариа
ции
Сред
нее
Диспе
рсия
Коэф
фи-
циент
вариа
ции
Мал ые
Сре дние
Кру пны е
5) Дать оценку качества построенной группировки по признаку-фактору.
При расчете коэффициента детерминации
R
2 рассчитать межгрупповую дисперсию.
6) Провести анализ наличия связи, направления связи между
x
и
y
7) По величинам
b
yx
..
определить линейность (нелинейность) связи между x и y
8) Рассчитать по формуле межгрупповую дисперсию по показателю –
фактору
9) Дать оценку силы связи на основе расчета коэффициента детерминации R
2.
. При расчете коэффициента детерминации R
2 рассчитать:
 среднюю групповых дисперсий группировки по признаку-
результату;
 используя правило сложения дисперсий, вычислить межгрупповую дисперсию для группировки по признаку- результату

9 10) вычислить эмпирическое корреляционное отношение по формуле (7).
11) Провести анализ полученных результатов.
12) Оформить отчет.
ЛАБОРАТОРНАЯ РАБОТА 4 (часть 1 и 2) ( 4 часа)
Цель работы:
Исследование типологии социально-экономических явлений.
Методами кластер-анализа. Использование базовых алгоритмов кластер-анализа в программной системе «Statistica».
Определить вариант лабораторной работы и выбрать данные из таблицы ПРИЛОЖЕНИЯ 3
Вариант Фактор
(номер показа- теля)
Результат-
ВРП
Вариант Фактор
(номер показа- теля)
Результат-
ВРП
6.
2 1
6.
7 1
7.
3 1
7.
8 1
8.
4 1
8.
9 1
9.
5 1
9.
10 1
10.
6 1
10.
11 1
Исходные данные
Сформировать в EXCEL исходную таблицу, содержащую названия регионов и указанные в варианте показатели социально- экономического развития регионов СФО (ПРИЛОЖЕНИЕ 3).
Регион
Показатель (фактор)
ВРП (результат)
x
y



Порядок выполнения лабораторной работы (часть 1)
1)
Изучить основные положения работы с программной системой
STATISTICA:

Запуск системы

Создание файла в системе

Добавление, удаление, копирование переменных и объектов


10

Первичный анализ данных в системе

Переключение модулей,
2). Запустить модуль STA_BAS.EXE.
3) Скопировать файл исходных данных из EXCEL в систему
STATISTICA, предварительно увеличив число строк (случаев –
case) до нужного количества.
4) Определить средствами STATISTICA описательные статистики показателей (среднее, дисперсия и др.), коэффициент корреляции
5) Построить диаграммы распределения регионов по значению признаков..
Порядок выполнения лабораторной работы (часть 2)
1) Переключиться на модуль кластерного анализа Cluster Analysis .

1.1.Провести кластерный анализ, используя иерархический
алгоритм (Joining (tree clustering) единственной связи (Single
Linkage). Определить вариант разбиения на 3 класса и результаты разбиения записать в табл.1

1.2.Провести кластерный анализ, используя иерархический
алгоритм (Joining (tree clustering) Варда (Ward). Определить вариант разбиения на 3 класса и результаты разбиения записать в табл.1.

1.3.Провести кластерный анализ на 3 класса, используя метод
К-средних (k-means clustering) и результаты разбиения записать в табл.1.
Таблица 1.Варианты разбиения регионов на классы
Названия регионов, входящих в классы
Класс № 1
Класс №2
Класс №3
Single
Linkage
Ward k-means clustering
2) Сравнить результаты, полученные тремя алгоритмами кластер-анализа
3).По результатам метода К-средних:
3.1.внести в исходный файл (EXCEL) дополнительный столбец с номером кластера

11 3.2.Построить точечную диаграмму в пространстве двух признаков с изображением принадлежности регионов кластерам.
Например,
3.3.рассчитать средние значения и коэффициенты вариации классификационных признаков по совокупности в целом и по кластерам.
3.4. Дать содержательную интерпретацию результатов (оценить: уровень развития регионов по классификационным признакам, наличие «естественного расслоения», различие средних значений, однородность групп, взаимосвязь признаков).
4) Оформить отчет.
ЛАБОРАТОРНАЯ РАБОТА 5 ( 4 часа)
Цель работы:
Исследование структуры социально-экономических процессов, построение структурной группировки, анализ структурных сдвигов.
Исходные данные.
Определить вариант лабораторной работы и выбрать данные из таблицы ПРИЛОЖЕНИЯ 4
Вариант 1 : 2005, 2008 годы по сравнению с 2000 годом
Вариант 2 : 2006, 2009 годы по сравнению с 2000 годом
Вариант 3 : 2007, 2010 годы по сравнению с 2000 годом
Вариант 4 : 2008, 2011 годы по сравнению с 2000 годом
Вариант 5 : 2006, 2008 годы по сравнению с 2005 годом
Вариант 6 : 2006, 2009 годы по сравнению с 2005 годом
Вариант 7 : 2007, 2010 годы по сравнению с 2005 годом
Вариант 8 : 2008, 2011 годы по сравнению с 2007 годом
Вариант 9 : 2009, 2011 годы по сравнению с 2007 годом
Вариант 10 : 2010, 2011 годы по сравнению с 2007 годом