ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 04.08.2021
Просмотров: 138
Скачиваний: 2
Лабораторная работа №1. Проверка гипотезы о нормальном распределении признака.
Лабораторная работа выполняется в Excel 2007.
Цель работы – дать навыки первичной обработки данных, построении гистограммы частот, подборе подходящего закона распределения и вычислении его параметров, проверка согласия между эмпирическим и гипотетическим законом распределения по критерию хи-квадрат Пирсона средствами Excel.
1. Ввод исходных данных
Исходные данные взять на ЯНДЕКС.
В правом нижнем углу выбрать Нефть.
Рис. 1. Страница ЯНДЕКС ……..
В открывшемся окне появится график “Динамика цен на Нефть Brent, USD/баррель”.
На графике установите временной интервал просмотра данных – год.
Данные цен на нефть даны через неделю, следовательно, нужно снять и записать 53 отсчета, что совсем не трудно. Далее эти данные внести в таблицу Excel.
Отсчет времени – массив $A$2: $A$54 (1, 2, … , 53)
Цены на нефть - массив $B$2: $B$54 (рис. 3)
Рис. 2. График динамики цен на нефть за время январь 2012 – январь 2013, период отсчета – через неделю.
Варианты заданий:
№ варианта |
Временной интервал |
№ варианта |
Временной интервал |
1 |
январь 2005 - январь 2006 |
13 |
январь 2011 – январь 2012 |
2 |
январь 2006 - январь 2007 |
14 |
март 2011 – март 2012 |
3 |
январь 2007 - январь 2008 |
15 |
май 2011- май 2012 |
4 |
январь 2008 - январь 2009 |
16 |
июль 2011 – июль 2012 |
5 |
январь 2009 - январь 2010 |
17 |
сентябрь 2011 – сентябрь 2012 |
6 |
март 2009 – март 2010 |
18 |
ноябрь 2011 – ноябрь 2012 |
7 |
январь 2010 – январь 2011 |
19 |
Январь 2012 – январь 2013 |
8 |
март 2010 – март 2011 |
20 |
март 2012 – март 2013 |
9 |
май 2010- май 2011 |
21 |
май 2012- май 2013 |
10 |
июль 2010 – июль 2011 |
22 |
июль 2012 – июль 2013 |
11 |
сентябрь 2010 – сентябрь 2011 |
23 |
сентябрь 2012 – сентябрь 2013 |
12 |
ноябрь 2010 – ноябрь 2011 |
24 |
|
………………………………
Рис. 3. Таблица исходных данных
2. Построение графика динамики цен на нефть (поля рассеивания)
Для построения графика необходимо выделить оба столбца (вместе с названиями столбцов) → Вставка→Точечная (точки соединены прямыми линиями). Оформить график, как показано на рис. 4.
Рис. 4. График динамики цены на нефть
3. Определение параметров выборки, описательные статистики
В главном меню Excel выбрать: Данные → Анализ данных → Описательная статистика → ОК.
В появившемся окне Описательная статистика ввести:
Входной интервал – массив, состоящий из 53 чисел в ячейках $B$2: $B$54;
Группирование - по столбцам;
Выходной интервал – адрес ячейки, с которой начинается таблица Описательная статистика - $C$1(или адрес любой другой ячейки на свободном месте листа Excel);
Итоговая статистика – поставить галочку. ОК.
Рис. 5. Диалоговое окно Описательная статистика с заполненными полями ввода.
На листе Excel появится таблица – Столбец 1
Рис. 6. Таблица Столбец 1 с данными процедуры Описательная статистика.
Таблица содержит описательные статистики, в частности:
Среднее – оценка среднего значения выборки, = 108,9134;
Стандартное отклонение – оценка среднего квадратического отклонения, = 4,494833;
Медиана – = 109,5;
Мода - #н/д, нет данных;
Эксцесс (-0,48275) - оценка эксцесса
Асимметричность (-0,09971) – оценка асимметрии.
Excel не может определить моду - нет данных. Для вычисления моды необходимо сначала построить гистограмму, что будет сделано далее.
Описательные статистики при решении задачи подбора теоретической кривой распределения полезны тем, что приблизительное равенство нулю оценок эксцесса и асимметрии, и приблизительное равенство оценок среднего медианы и моды дает предварительное основание выбрать в качестве основной гипотезы H0 распределения признаков генеральной совокупности - нормальный закон.
Интервал – размах выборки (R = 18,38);
Минимум – минимальное значение признака в выборке ();
Максимум – максимальное значение признака в выборке ().
Результаты процедуры Описательная статистика потребуются в дальнейшем при построении теоретического закона распределения.
4. Построение гистограммы частоты признака
Прежде чем воспользоваться процедурой Excel построения гистограммы необходимо найти границы интервалов группировки
Вычислим интервалы группировки.
В рассматриваемом варианте n = 53.
Число интервалов группировки k в Excel вычисляется по формуле
,
где, скобки означают – округление до целой части числа в меньшую сторону, следовательно. = 8.
Величина интервала группировки вычисляется по формуле
Тогда, так как , то
.
Строгого научного обоснования для определения числа интервалов группировки и их величины нет. Существует много эмпирических формул для определения числа k.
Разброс значений числа k (числа интервалов группировки), который дают эти формулы, позволяет исследователю выбрать удобные для вычисления границы частичных интервалов группировки. Так в рассматриваемом варианте исходных данных 99,5, а максимальное значение 117,88. Дробные величины неудобны для восприятия.
Тогда, пусть левая (нижняя) граница всего интервала будет равной = 98 (меньше 99,5), а величина интервала группировки ,
следовательно, = 98+3 = 101,
= 101+3 = 104,
=107,
= 110
= 113
= 116
= 119
Пусть верхняя граница последнего частичных интервалов группировки будет = 119, так как 117,88 входит в этот последний интервал.
Получили границы интервалов группировки (карманы, как их называют в Excel) красивыми целыми числами. Занесите полученные результаты в столбец Excel, рис.7.
Рис. 7. Массив границ (карманов) группировки A57:A64
Теперь можно приступить к построению гистограммы.
В главном меню Excel выбрать Данные → Анализ данных → Гистограмма → ОК.
Далее необходимо заполнить поля ввода в диалоговом окне Гистограмма.
Входной интервал: 53 случайных чисел (вариант, значений признака) в ячейках $B$2: $B$54;
Интервал карманов: ввести массив границ интервалов группировки (карманов) A57:A64;
Выходной интервал: адрес ячейки, с которой начинается вывод результатов процедуры Гистограмма;
Вывод графика – поставьте галочку. OK.
Рис. 8. Диалоговое окно Гистограмма с заполненными полями.
Если в диалоговом окне Гистограмма поле ввода Интервал карманов не заполняется, то процедура вычисляет число интервалов группировки k и границы интервалов автоматически.
В результате выполнения процедуры Гистограмма появляется таблица, содержащая границы интервалов группировки (столбец – Карман) и частоту попадания признака выборки в k–ый интервал (столбец – Частота).
Справа от таблицы – график гистограммы.
Рис. 9. Фрагмент листа Excel с результатами процедуры Гистограмма
Принято столбики гистограммы строить без зазора.
Приведите гистограмму к виду как показано на рис. 10.
Для этого щелкните правой кнопкой мыши на столбике диаграммы и выберите Формат ряда данных → Без зазора → Нет заливки. Выберите цвет границ, стили границ и толщину линии границ.
Рис. 10. Гистограмма частот
При вычислении моды для интервального вариационного ряда необходимо определить модальный интервал (по максимальной частоте), а затем – значение моды по формуле
Модальный интервал
Рис 11. График гистограммы с модальным интервалом, интервалом предшествующим модальному и следующим за модальным интервалам.
Для рассматриваемого варианта:
= 107, = 110 - это границы модального интервала
= 8 – частота интервала, предшествующего модальному интервалу;
= 14 – частота модального интервала;
= 11 – частота интервала, следующего за модальным интервалом.
Среднее = 108,9134, Мода = 109 , Медиана = 109,5;
Медиану можно найти графическим способом, построив кумуляту.
Для построения кумуляты в таблице Карман-Частота добавьте столбец накопленных эмпирических частот . ()
Рис 12. Таблица Карман-Частота, полученная при построении гистограммы, с добавленным столбцом накопленных эмпирических частот.
Далее постройте график кумуляты.
Медиана соответствует варианте, стоящей в середине ранжированного ряда. Положение медианы определяется ее номером .
На оси графика кумуляты отложите . Найдите соответствующее значение варианты
Рис 13. График кумуляты с определенным графическим способом значением .
Приблизительное равенство оценок = 108,9134, = 109 и = 109,5 позволяет предположить, что распределения признаков генеральной совокупности имеет нормальный закон.
По виду гистограммы можно принять гипотезу о нормальном распределении признаков (случайных чисел) выборки.
Далее, для того чтобы убедиться в правильности выбранной гипотезы (по крайней мере визуально) надо, первое – построить график гипотетического нормального закона распределения, выбрав в качестве параметров (среднее и среднее квадратическое отклонение) их оценки (оценки среднего и стандартного отклонения), и совместить график гипотетического распределения с графиком гистограммы.
И, второе – используя критерий согласия Пирсона установить справедливость выбранной гипотезы.
5. Построение теоретического закона распределения признака
Для построения теоретического распределения и проверки согласия по критерию хи-квадрат Пирсона надо далее заполнить (дополнить двумя столбцами) таблицу, уже полученную в Excel в результате применения процедуры Гистограмма (рис. 14).
Границы интервалов
группировки
Эмпирические Теоретические
частоты частоты
Статистика критерия
Пирсона
Рис. 14. Таблица для построения теоретического распределения частоты .
– границы интервалов группировки (карманы)
– эмпирическая (наблюденная) частота, количество элементов выборки, попавших в i–ый интервал (частота – получена в результате процедуры Гистограмма);
Эта таблица в Excel (рис. 14.) аналогично той, что была дана в лекции (таблица 1)
Таблица №1
|
|
|
|
границы интервалов группировки карманы |
эмпирическая частота |
теоретическая частота |
статистика |
|
|
|
|
|
|
|
|
… |
… |
… |
… |
|
|
|
|
|
|
|
|
– теоретическая (ожидаемая) частота попадания элементов выборки в i-ый интервал группировки для принятой гипотезы о нормальном распределении генеральной совокупности.
В четвертом столбце вычисляется статистика хи-квадрат Пирсона
Теоретическая частота попадания признака в интервал определяется по формуле
.
Или ,
где накопленная частота – сумма частот признака, попавшего в промежуток
– теоретическая (ожидаемая) частота попадания элементов выборки в i–ый интервал группировки для принятой гипотезе о нормальном распределении генеральной совокупности в Excel вычисляется с использованием функцией НОРМРАСП.
Для вычисления необходимо вызвать Мастер функций → Статистические → НОРМРАСП и заполнить поля ввода, как показано на рис. 15.
Рис. 15. Диалоговое окно НОРМОАСП с заполненными полями ввода.
В поле x – внесите адрес ячейки верхней границы первого кармана, первого интервала группировки (y1 = 98)
В поля Среднее; Стандартное_откл – адреса соответствующих ячеек таблицы описательной статистики;
В поле Интегральная внесите 1 (что означает вычисление накопленных частот)
В строке формул появится запись
Это выражение в строке формул умножьте на объем выборки N = 53
В выделенную ячейку, таким образом, как показано на рис. 15, будет внесена формула
= (НОРМРАСП(y1; среднее; стандартное_откл; 1) * N для
вычисления теоретической частоты попадания признака в интервал .
НОРМРАСП(A70;E23;E27;1)
Рис. 16. Таблица для построения теоретического распределения частоты .
В ячейке появится теоретическое значение числа попаданий признак в промежуток (может быть и дробное).
Рис. 17. Таблица с вычисленным значением = НОРМРАСП(A70;$E$23;$E$27;1).
В следующую ячейку внесите формулу, используя процедуру НОРМРАСП.
= (НОРМРАСП(yi; среднее; стандартное_откл; 1) –
– НОРМРАСП(yi-1; среднее; стандартное_откл; 1)) * N.
В строке формул эта запись будет иметь следующий вид
Размножьте эту формулу в остальные ячейки столбца соответствующие всем оставшимся карманам (рис. 17).
Рис. 17. Таблица с вычисленными значениями теоретических частот
= (НОРМРАСП(A71; $E$23; $E$27; 1) – НОРМРАСП(A70; $E$23; $E$27; 1)) * 53.
В выделенную курсором ячейку (рис. 17.) внесите формулу для вычисления частоты попадания признака в промежуток .
=(1 – НОРМРАСП(yk; среднее; стандартное_откл; 1))*N
yk – верхняя граница последнего кармана
В строке формул появится запись
Окончательный вид таблицы с полностью заполненным результатами вычислений столбцом показан на рис. 18.
В нижней ячейке столбца вычислена сумма теоретических частот которая должна равняться объему выборки N = 53
Рис. 18. Таблица значений теоретических частот нормального распределения,
столбец
Теперь можно построить совместный график гистограммы частот и теоретического нормального распределения.
Щелкните правой кнопкой мыши по любому столбцу гистограммы → в открывшемся окне → Выбрать данные… в диалоговом окне Выбор источника данных выбрать Добавить → заполнить поля ввода диалогового окна Изменения ряда: