Файл: ЛР-6 - проверка согласия.docx

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 07.08.2021

Просмотров: 195

Скачиваний: 2

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

18


Лабораторная работа №6. Проверка гипотезы о нормальном распределении выборки по критерию Пирсона.


Лабораторная работа выполняется в Excel 2007.

Цель работы – дать навыки первичной обработки данных, построении гистограмм, подборе подходящего закона распределения и вычислении его параметров, проверка согласия между эмпирическим и гипотетическим законом распределения по критерию хи-квадрат Пирсона средствами Excel.


1. Формирование выборки нормально распределенных случайных чисел с заданными значениями математического ожидания и среднего квадратического отклонения.

В главном меню Excel выбрать: Данные → Анализ данных → Генерация случайных чисел → ОК.



Рис. 1. Диалоговое окно Анализ данных


В появившемся окне Генерация случайных чисел ввести:

Число переменных: 1;

Число случайных чисел: 100;

Распределение: Нормальное.

Параметры:

Среднее = 15 (математическое ожидание);

Стандартное отклонение = 2 (среднее квадратическое отклонение);

Случайное рассеивание: не заполнять (или заполнить по указанию преподавателя);

Выходной интервал: адрес первой ячейки столбца массива случайных чисел - $A$1. ОК.



Рис. 2. Диалоговое окно Генерация случайных чисел с заполненными полями ввода

В результате выполнения операции Генерация случайных чисел появится столбец $A$1: $A$100, содержащий 100 случайных чисел.


Рис. 3. Фрагмент листа Excel первых нескольких случайных чисел $A$1: $A$100.



2. Определение параметров выборки, описательные статистики


В главном меню Excel выбрать: Данные → Анализ данных → Описательная статистика → ОК.

В появившемся окне Описательная статистика ввести:

Входной интервал – 100 случайных чисел в ячейках $A$1: $A$100;

Группирование - по столбцам;

Выходной интервал – адрес ячейки, с которой начинается таблица Описательная статистика - $C$1;

Итоговая статистика – поставить галочку. ОК.



Рис. 4. Диалоговое окно Описательная статистика с заполненными полями ввода.


На листе Excel появится таблица – Столбец 1


Рис. 5. Таблица Столбец 1 с данными процедуры Описательная статистика.


Таблица содержит описательные статистики, в частности:

Среднее – оценка математического ожидания;

Стандартное отклонение – оценка среднего квадратического отклонения;

Эксцесс и Асимметричность – оценки эксцесса и асимметрии.


Приблизительное равенство нулю оценок эксцесса и асимметрии, и приблизительное равенство оценки среднего оценке медианы дает предварительное основание выбрать в качестве основной гипотезы H0 распределения элементов генеральной совокупности - нормальный закон.


Интервал – размах выборки;

Минимум – минимальное значение случайной величины в выборке;

Максимум – максимальное значение случайной величины в выборке.


В ячейке F15 - длина частичного интервала h, вычисленная следующим образом:


Число интервалов группировки k в Excel вычисляется автоматически по формуле

,

где, скобки означают – округление до целой части числа в меньшую сторону.


В рассматриваемом варианте n = 100, следовательно, k = 11. Действительно:



Эта формула занесена в ячейку F15: =($D$13-$D$12)/10


Результаты процедуры Описательная статистика потребуются в дальнейшем при построении теоретического закона распределения.


3. Построение гистограммы


В главном меню Excel выбрать Данные → Анализ данных → Гистограмма → ОК.

Далее необходимо заполнить поля ввода в диалоговом окне Гистограмма.

Входной интервал: 100 случайных чисел в ячейках $A$1: $A$100;

Интервал карманов: не заполнять;

Выходной интервал: адрес ячейки, с которой начинается вывод результатов процедуры Гистограмма;

Вывод графика – поставьте галочку.


Если поле ввода Интервал карманов не заполняется, то процедура вычисляет число интервалов группировки k и границы интервалов автоматически.


Рис. 6. Диалоговое окно Гистограмма.

В результате выполнения процедуры Гистограмма появляется таблица, содержащая границы xi интервалов группировки (столбец – Карман) и частоту попадания случайных величин выборки mi в i–ый интервал (столбец Частота).

Справа от таблицы – график гистограммы.




Рис. 7. Фрагмент листа Excel с результатами процедуры Гистограмма

По виду гистограммы можно предположить (принять гипотезу) о том, что выборка случайных чисел подчиняется нормальному закону распределения.

Далее, для того чтобы убедиться в правильности выбранной гипотезы (по крайней мере визуально) надо, первое – построить график гипотетического нормального закона распределения, выбрав в качестве параметров (математического ожидания и среднего квадратического отклонении) их оценки (среднее и стандартное отклонение), и совместить график гипотетического распределения с графиком гистограммы.

И, второе – используя критерий согласия Пирсона установить справедливость выбранной гипотезы.


4. Построение теоретического закона распределения


Для построения теоретического закона распределения совместно с гистограммой и проверки согласия по критерию хи-квадрат Пирсона надо заполнить таблицу, знакомую по лекции (см. ниже по тексту, таблица №1). Для построения этой таблицы надо воспользоваться таблицей карман – частота процедуры Гистограмма.


xiграницы интервалов группировки (карманы получены как результат выполнения процедуры Гистограмма);


miколичество элементов выборки, попавших в iый интервал (частота – получена в результате процедуры Гистограмма);


Таблица №1


xi

mi

n∙pi

карманы

частота

теоретическая частота

статистика U

x1

m1

n∙p1

x2

m2

n∙p2

xk

mk

n∙pk






Для построения этой таблицы в Excel к столбцам карман – частота процедуры Гистограмма надо добавить столбцы npi и


Теоретическая вероятность pi попадания элементов выборки в i-ый интервал группировки для принятой гипотезы о нормальном распределении генеральной совокупности равна pi = P(xi-1 < X < xi) = F(xi) – F(xi-1).

npi – теоретическая (ожидаемая) частота попадания элементов выборки в iый интервал группировки для принятой гипотезы о нормальном распределении генеральной совокупности.

В Excel эту величину можно вычислить, воспользовавшись функцией НОРМРАСП.


npi = (НОРМРАСП(xi; среднее; стандартное_откл; 1) –

НОРМРАСП(xi-1; среднее; стандартное_откл; 1)) * n.


статистика, являющаяся мерой расхождения между значениями эмпирической и теоретической плотности распределения;


4.1. Найдите сумму элементов выборки, попавших в карманы (n = 100), для контроля (ячейка D29, рис. 8).

Столбцу E18: E28 присвойте имя npi , поместив его в ячейку E17.

В ячейку E18 внесите формулу для вычисления значения функции нормального распределения F(x1 = 10,544) = P(– ∞ < Xx1), умноженную на число наблюдений n. В рассматриваемом примере n =100. В ячейку E18 будет получено теоретическое (ожидаемое) число значений случайной величины, попавших в интервал , npi = F(x1)∙100

=НОРМРАСП(C$18$;D$3$;D$7$;1)*100



Рис. 8. В ячейке E18 результаты вычислений функции НОРМРАСП(C$18$;D$3$;D$7$;1)*100


Функцию НОРМРАСП вызывается следующим образом. В главном меню Excel выбирается закладка Формулы → Вставить функцию → в диалоговом окне Мастер функций – шаг 1 из 2 в категории Статистические → НОРМРАСП. ОК.




Рис. 9. Окно Мастер функций для выбора функции НОРМРАСП из категории Статистические.


В раскрывшемся окне Аргументы функции НОРМРАСП заполните поля ввода как показано далее на рис. 10.


Shape1



Shape2Shape3



Рис. 10. Окно ввода параметров для получения функции нормального распределения


В поле X введите адрес ячейки, в которой находится граница первого интервала группировки C18 (верхняя ячейка столбца Карманы).


В поле Среднее введите адрес ячейки, в которой находится среднее значение выборки, полученное при выполнении процедуры Описательная статистикаD3.


В поле Стандартное_откл введите адрес ячейки, в которой находится значение стандартного отклонения выборки, полученное при выполнении процедуры Описательная статистика – D7.



В поле Интегральная введите единица 1. Единица в поле Интегральная означает вычисление функции распределения F(x). ОК.



В ячейку E19 поместите формулу для вычисления теоретического (гипотетического) числа случайных величин, попавших в интервал :

np2 = n ∙ [F(x2) – F(x1)] = n ∙ [P(x1 < Xx2)] = n ∙ [P(10,544 < X ≤ 11,5777)],


где p2 = F(x2) – F(x1) = P(x1 < Xx2) = P(10,544 < X ≤ 11,5777) - теоретическая вероятность попадания нормально распределенных случайных величин в промежуток .


В Excel в строку формул необходимо поместить формулу:


=(НОРМРАСП(C19;$D$3;$D$7;1) – НОРМРАСП(C18;$D$3;$D$7;1))*100







Рис. 11. В ячейке E19 показаны результаты вычислений функции

=(НОРМРАСП(C19;$D$3;$D$7;1) – НОРМРАСП(C18;$D$3;$D$7;1)) *100


Заполните диапазон ячеек Е20:Е27 результатами вычисления этой формулы, используя маркер заполнения.



Рис. 12. Столбец E19;E27 с результатами вычисления функции

npi = (НОРМРАСП(C32;$D$3;$D$7;1) – НОРМРАСП(C31;$D$3;$D$7;1)) *100



В ячейку E28 поместите формулу для вычисления теоретического (гипотетического) числа случайных величин, попавших в промежуток (x10; ∞ ):

P(x10 < x < ∞) = 1 – P(– ∞ < xx10) = 1 – F(x10) – вероятность попадания нормально распределенных случайных величин в промежуток (x10; ∞).


В Excel в строку формул необходимо поместить формулу:


=(1 – НОРМРАСП(C27;D3;D7;1))*100


Для этого сначала необходимо вызвать функции НОРМРАСП и заполнить поля ввода



Рис. 13. Диалоговое окно функции НОРМРАСП с заполненными полями ввода






Рис. 14. Столбец npi (E18;E28) содержит результаты вычисления теоретических значений числа случайных величин попавших в каждый частичный интервал (карман) npi


Для проверки правильности вычислений просуммируйте числа в ячейках столбца E18:E28.


В ячейке Е29 показана сумма содержимого ячеек Е31:Е40. Она должна быть равна n = 100.



Рис. 15. Таблицы распределения эмпирических частот mi – столбец Частота и теоретических частот npi – столбец npi


4.2. В графике Гистограмма частот добавьте кривую нормального распределения, как это вы умеете.




Рис. 16. Графики гистограммы эмпирических и теоретических частот, позволяющие по виду графиков выбрать в качестве гипотезы H0 нормальное распределение.



Для того чтобы сохранить графики гистограммы эмпирических и теоретических частот (рис. 16) необходимо скопировать таблицу на рис. 15 Карман – Частотаnpi в другое место таблицы.

4.3. Скопируйте таблицу Карман – Частотаnpi в свободные ячейки листа Excel, для чего, верхний левый угол копии разместите в ячейке C30, как показано далее на рис. 8.




Рис. 17. Фрагмент листа Excel с копией таблицы распределения эмпирических и теоретических частот по карманам


5. Проверка согласия эмпирического и теоретического законов распределения по критерию хи-квадрат Пирсона



Необходимо выполнить условие – в каждом кармане не менее 5 элементов (npi ≥ 5) для теоретических значений распределения частот. Объединим (просуммируем) две верхние ячейки (просуммируем ячейки E31 и E32) и две нижние ячейки (просуммируем ячейки E40 и E41), столбца npi , содержащего теоретические частоты.



Рис. 18. В столбце npi объединены ячейки E31 и E32 (результат суммирования – в ячейке E32) и ячейки E40 и E41 (результат суммирования – в ячейке E40).


Объединим две верхние ячейки D31 и D32 и две нижние ячейки столбца Частота, содержащего эмпирические (опытные) частоты.




Рис. 19. В столбце Частота объединены ячейки D31 и D32 (результат суммирования – в ячейке D32) и ячейки D40 и D41 (результат суммирования – в ячейке D40).


В ячейку F32 столбца помеченного именем U введите формулу ,

, в строку формул введите формулу =(D32-E32)^2)/E32.




Рис. 20. В столбце U в ячейки F32 значение статистики


Размножьте эту формулу в диапазоне ячеек F33;F40 .

В ячейке F41 получите сумму содержимого ячеек F33;F40.




Рис. 21. Таблицы с результатами вычисления статистики

В ячейке F41 получено значение статистики . U = 4,61255

Критическое значение статистики U, которая имеет распределение с шестью (число частичных интервалов – 1 – число параметров, 9 – 3 = 6) степенями свободы, определяется при помощи функции ХИ2ОБР.


Функцию ХИ2ОБР вызывается следующим образом. В главном меню Excel выбирается закладка Формулы → Вставить функцию → в диалоговом окне Мастер функций – шаг 1 из 2 в категории Статистические → ХИ2ОБР. ОК.



Рис. 22. Диалоговое окно выбора функции ХИ2ОБР


В диалоговом окне Аргументы функции ХИ2ОБР заполните поля как показано на рис. 23, предварительно выбрав ячейку для результата вычисления функции, например F43.



Рис. 23. Диалоговое окно функции ХИ2ОБР с заполненными полями ввода


Рис. 24. Таблица с окончательными результатами вычисления статистики

и критического значения = 12.5916


Значение статистики U = 4,61255 оказалось меньше критического значения =12.5916.

Вывод. Следовательно, гипотеза, состоящая в том, что генеральная совокупность подчиняется нормальному закону распределения, принимается.




Задание 1.


1.1. Измените границы интервалов группировки, выбрав в качестве первой (левой), округленную до целого в меньшую сторону первую границу, полученную автоматически при выполнении процедуры Гистограмма. Левая граница должна быть меньше минимального значения случайной величины в выборке. В рассматриваемом варианте получено автоматически значение первой (левой) границы - 10,544. Тогда новая первая (левая) граница будет равнее 10.

1.2. Измените величину частичного интервала группировки, округлив его до ближайшего целого. В рассматриваемом варианте получено автоматически h = 1,02372 . Тогда новое значение величины интервала группировки будет равно 1.