Файл: Лабораторная работа №1 Нефть - БРЕНТ ().docx

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 04.08.2021

Просмотров: 138

Скачиваний: 2

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

1



Лабораторная работа №1. Проверка гипотезы о нормальном распределении признака.



Лабораторная работа выполняется в Excel 2007.

Цель работы – дать навыки первичной обработки данных, построении гистограммы частот, подборе подходящего закона распределения и вычислении его параметров, проверка согласия между эмпирическим и гипотетическим законом распределения по критерию хи-квадрат Пирсона средствами Excel.



1. Ввод исходных данных


Исходные данные взять на ЯНДЕКС.

В правом нижнем углу выбрать Нефть.

Shape1





Рис. 1. Страница ЯНДЕКС ……..



В открывшемся окне появится график “Динамика цен на Нефть Brent, USD/баррель”.

На графике установите временной интервал просмотра данных – год.

Данные цен на нефть даны через неделю, следовательно, нужно снять и записать 53 отсчета, что совсем не трудно. Далее эти данные внести в таблицу Excel.

Отсчет времени – массив $A$2: $A$54 (1, 2, … , 53)

Цены на нефть - массив $B$2: $B$54 (рис. 3)






Рис. 2. График динамики цен на нефть за время январь 2012 – январь 2013, период отсчета – через неделю.



Варианты заданий:


варианта

Временной интервал

варианта

Временной интервал

1

январь 2005 - январь 2006

13

январь 2011 – январь 2012

2

январь 2006 - январь 2007

14

март 2011 – март 2012

3

январь 2007 - январь 2008

15

май 2011- май 2012

4

январь 2008 - январь 2009

16

июль 2011 – июль 2012

5

январь 2009 - январь 2010

17

сентябрь 2011 – сентябрь 2012

6

март 2009 – март 2010

18

ноябрь 2011 – ноябрь 2012

7

январь 2010 – январь 2011

19

Январь 2012 – январь 2013

8

март 2010 – март 2011

20

март 2012 – март 2013

9

май 2010- май 2011

21

май 2012- май 2013

10

июль 2010 – июль 2011

22

июль 2012 – июль 2013

11

сентябрь 2010 – сентябрь 2011

23

сентябрь 2012 – сентябрь 2013

12

ноябрь 2010 – ноябрь 2011

24





………………………………



Рис. 3. Таблица исходных данных



2. Построение графика динамики цен на нефть (поля рассеивания)


Для построения графика необходимо выделить оба столбца (вместе с названиями столбцов) → Вставка→Точечная (точки соединены прямыми линиями). Оформить график, как показано на рис. 4.



Рис. 4. График динамики цены на нефть





3. Определение параметров выборки, описательные статистики


В главном меню Excel выбрать: Данные → Анализ данных → Описательная статистика → ОК.

В появившемся окне Описательная статистика ввести:

Входной интервал – массив, состоящий из 53 чисел в ячейках $B$2: $B$54;

Группирование - по столбцам;

Выходной интервал – адрес ячейки, с которой начинается таблица Описательная статистика - $C$1(или адрес любой другой ячейки на свободном месте листа Excel);

Итоговая статистика – поставить галочку. ОК.




Рис. 5. Диалоговое окно Описательная статистика с заполненными полями ввода.


На листе Excel появится таблица – Столбец 1




Рис. 6. Таблица Столбец 1 с данными процедуры Описательная статистика.


Таблица содержит описательные статистики, в частности:


Среднее – оценка среднего значения выборки, = 108,9134;

Стандартное отклонение – оценка среднего квадратического отклонения, = 4,494833;

Медиана = 109,5;

Мода - #н/д, нет данных;

Эксцесс (-0,48275) - оценка эксцесса

Асимметричность (-0,09971) – оценка асимметрии.


Excel не может определить моду - нет данных. Для вычисления моды необходимо сначала построить гистограмму, что будет сделано далее.


Описательные статистики при решении задачи подбора теоретической кривой распределения полезны тем, что приблизительное равенство нулю оценок эксцесса и асимметрии, и приблизительное равенство оценок среднего медианы и моды дает предварительное основание выбрать в качестве основной гипотезы H0 распределения признаков генеральной совокупности - нормальный закон.


Интервал – размах выборки (R = 18,38);

Минимум – минимальное значение признака в выборке ();

Максимум – максимальное значение признака в выборке ().


Результаты процедуры Описательная статистика потребуются в дальнейшем при построении теоретического закона распределения.


4. Построение гистограммы частоты признака


Прежде чем воспользоваться процедурой Excel построения гистограммы необходимо найти границы интервалов группировки


Вычислим интервалы группировки.

В рассматриваемом варианте n = 53.

Число интервалов группировки k в Excel вычисляется по формуле


,

где, скобки означают – округление до целой части числа в меньшую сторону, следовательно. = 8.


Величина интервала группировки вычисляется по формуле


Тогда, так как , то

.



Строгого научного обоснования для определения числа интервалов группировки и их величины нет. Существует много эмпирических формул для определения числа k.

Разброс значений числа k (числа интервалов группировки), который дают эти формулы, позволяет исследователю выбрать удобные для вычисления границы частичных интервалов группировки. Так в рассматриваемом варианте исходных данных 99,5, а максимальное значение 117,88. Дробные величины неудобны для восприятия.

Тогда, пусть левая (нижняя) граница всего интервала будет равной = 98 (меньше 99,5), а величина интервала группировки ,

следовательно, = 98+3 = 101,

= 101+3 = 104,

=107,

= 110

= 113

= 116

= 119


Пусть верхняя граница последнего частичных интервалов группировки будет Shape2 = 119, так как 117,88 входит в этот последний интервал.



Получили границы интервалов группировки (карманы, как их называют в Excel) красивыми целыми числами. Занесите полученные результаты в столбец Excel, рис.7.


Рис. 7. Массив границ (карманов) группировки A57:A64

Теперь можно приступить к построению гистограммы.


В главном меню Excel выбрать Данные → Анализ данных → Гистограмма → ОК.

Далее необходимо заполнить поля ввода в диалоговом окне Гистограмма.


Входной интервал: 53 случайных чисел (вариант, значений признака) в ячейках $B$2: $B$54;

Интервал карманов: ввести массив границ интервалов группировки (карманов) ис 2 A57:A64;

Выходной интервал: адрес ячейки, с которой начинается вывод результатов процедуры Гистограмма;

Вывод графика – поставьте галочку. OK.


Рис. 8. Диалоговое окно Гистограмма с заполненными полями.


Если в диалоговом окне Гистограмма поле ввода Интервал карманов не заполняется, то процедура вычисляет число интервалов группировки k и границы интервалов автоматически.


В результате выполнения процедуры Гистограмма появляется таблица, содержащая границы интервалов группировки (столбец – Карман) и частоту попадания признака выборки в k–ый интервал (столбец Частота).


Справа от таблицы – график гистограммы.



Рис. 9. Фрагмент листа Excel с результатами процедуры Гистограмма


Принято столбики гистограммы строить без зазора.


Приведите гистограмму к виду как показано на рис. 10.

Для этого щелкните правой кнопкой мыши на столбике диаграммы и выберите Формат ряда данных → Без зазора → Нет заливки. Выберите цвет границ, стили границ и толщину линии границ.




Рис. 10. Гистограмма частот


При вычислении моды для интервального вариационного ряда необходимо определить модальный интервал (по максимальной частоте), а затем – значение моды по формуле



Модальный интервал

Shape4Shape3

Shape6Shape5



Shape8Shape7


Shape10Shape9

Shape12Shape11

Shape15Shape14Shape13


Shape19Shape18Shape17Shape16


Рис 11. График гистограммы с модальным интервалом, интервалом предшествующим модальному и следующим за модальным интервалам.


Для рассматриваемого варианта:


= 107, = 110 - это границы модального интервала


= 8 – частота интервала, предшествующего модальному интервалу;

= 14 – частота модального интервала;

= 11 – частота интервала, следующего за модальным интервалом.



Среднее = 108,9134, Мода = 109 , Медиана = 109,5;


Медиану можно найти графическим способом, построив кумуляту.


Для построения кумуляты в таблице Карман-Частота добавьте столбец накопленных эмпирических частот . ()





Рис 12. Таблица Карман-Частота, полученная при построении гистограммы, с добавленным столбцом накопленных эмпирических частот.





Далее постройте график кумуляты.



Медиана соответствует варианте, стоящей в середине ранжированного ряда. Положение медианы определяется ее номером .

На оси графика кумуляты отложите . Найдите соответствующее значение варианты



Shape21Shape20


Рис 13. График кумуляты с определенным графическим способом значением .



Приблизительное равенство оценок = 108,9134, = 109 и = 109,5 позволяет предположить, что распределения признаков генеральной совокупности имеет нормальный закон.


По виду гистограммы можно принять гипотезу о нормальном распределении признаков (случайных чисел) выборки.


Далее, для того чтобы убедиться в правильности выбранной гипотезы (по крайней мере визуально) надо, первое – построить график гипотетического нормального закона распределения, выбрав в качестве параметров (среднее и среднее квадратическое отклонение) их оценки (оценки среднего и стандартного отклонения), и совместить график гипотетического распределения с графиком гистограммы.

И, второе – используя критерий согласия Пирсона установить справедливость выбранной гипотезы.



5. Построение теоретического закона распределения признака


Для построения теоретического распределения и проверки согласия по критерию хи-квадрат Пирсона надо далее заполнить (дополнить двумя столбцами) таблицу, уже полученную в Excel в результате применения процедуры Гистограмма (рис. 14).





Границы интервалов

группировки

Shape22

Эмпирические Теоретические

частоты частоты

Shape23Shape24

Shape25


Статистика критерия

Пирсона

Рис. 14. Таблица для построения теоретического распределения частоты .


границы интервалов группировки (карманы)


эмпирическая (наблюденная) частота, количество элементов выборки, попавших в iый интервал (частота – получена в результате процедуры Гистограмма);



Эта таблица в Excel (рис. 14.) аналогично той, что была дана в лекции (таблица 1)





Таблица №1

границы интервалов группировки карманы

эмпирическая

частота

теоретическая

частота

статистика





теоретическая (ожидаемая) частота попадания элементов выборки в i-ый интервал группировки для принятой гипотезы о нормальном распределении генеральной совокупности.


В четвертом столбце вычисляется статистика хи-квадрат Пирсона


Теоретическая частота попадания признака в интервал определяется по формуле

.

Или ,



где накопленная частота – сумма частот признака, попавшего в промежуток




теоретическая (ожидаемая) частота попадания элементов выборки в i–ый интервал группировки для принятой гипотезе о нормальном распределении генеральной совокупности в Excel вычисляется с использованием функцией НОРМРАСП.


Для вычисления необходимо вызвать Мастер функций → Статистические → НОРМРАСП и заполнить поля ввода, как показано на рис. 15.




Рис. 15. Диалоговое окно НОРМОАСП с заполненными полями ввода.


В поле xвнесите адрес ячейки верхней границы первого кармана, первого интервала группировки (y1 = 98)

В поля Среднее; Стандартное_откл – адреса соответствующих ячеек таблицы описательной статистики;

В поле Интегральная внесите 1 (что означает вычисление накопленных частот)


В строке формул появится запись

Это выражение в строке формул умножьте на объем выборки N = 53




В выделенную ячейку, таким образом, как показано на рис. 15, будет внесена формула

= (НОРМРАСП(y1; среднее; стандартное_откл; 1) * N для

вычисления теоретической частоты попадания признака в интервал .


Shape26

НОРМРАСП(A70;E23;E27;1)


Рис. 16. Таблица для построения теоретического распределения частоты .


В ячейке появится теоретическое значение числа попаданий признак в промежуток (может быть и дробное).




Рис. 17. Таблица с вычисленным значением = НОРМРАСП(A70;$E$23;$E$27;1).



В следующую ячейку внесите формулу, используя процедуру НОРМРАСП.

= (НОРМРАСП(yi; среднее; стандартное_откл; 1)

НОРМРАСП(yi-1; среднее; стандартное_откл; 1)) * N.


В строке формул эта запись будет иметь следующий вид



Размножьте эту формулу в остальные ячейки столбца соответствующие всем оставшимся карманам (рис. 17).




Рис. 17. Таблица с вычисленными значениями теоретических частот

= (НОРМРАСП(A71; $E$23; $E$27; 1) НОРМРАСП(A70; $E$23; $E$27; 1)) * 53.


В выделенную курсором ячейку (рис. 17.) внесите формулу для вычисления частоты попадания признака в промежуток .

=(1 – НОРМРАСП(yk; среднее; стандартное_откл; 1))*N


ykверхняя граница последнего кармана


В строке формул появится запись


Окончательный вид таблицы с полностью заполненным результатами вычислений столбцом показан на рис. 18.

В нижней ячейке столбца вычислена сумма теоретических частот которая должна равняться объему выборки N = 53



Рис. 18. Таблица значений теоретических частот нормального распределения,

столбец


Теперь можно построить совместный график гистограммы частот и теоретического нормального распределения.


Щелкните правой кнопкой мыши по любому столбцу гистограммы в открывшемся окне → Выбрать данные… в диалоговом окне Выбор источника данных выбрать Добавить заполнить поля ввода диалогового окна Изменения ряда: