ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 07.08.2021
Просмотров: 195
Скачиваний: 2
Лабораторная работа №6. Проверка гипотезы о нормальном распределении выборки по критерию Пирсона.
Лабораторная работа выполняется в Excel 2007.
Цель работы – дать навыки первичной обработки данных, построении гистограмм, подборе подходящего закона распределения и вычислении его параметров, проверка согласия между эмпирическим и гипотетическим законом распределения по критерию хи-квадрат Пирсона средствами Excel.
1. Формирование выборки нормально распределенных случайных чисел с заданными значениями математического ожидания и среднего квадратического отклонения.
В главном меню Excel выбрать: Данные → Анализ данных → Генерация случайных чисел → ОК.
Рис. 1. Диалоговое окно Анализ данных
В появившемся окне Генерация случайных чисел ввести:
Число переменных: 1;
Число случайных чисел: 100;
Распределение: Нормальное.
Параметры:
Среднее = 15 (математическое ожидание);
Стандартное отклонение = 2 (среднее квадратическое отклонение);
Случайное рассеивание: не заполнять (или заполнить по указанию преподавателя);
Выходной интервал: адрес первой ячейки столбца массива случайных чисел - $A$1. ОК.
Рис. 2. Диалоговое окно Генерация случайных чисел с заполненными полями ввода
В результате выполнения операции Генерация случайных чисел появится столбец $A$1: $A$100, содержащий 100 случайных чисел.
Рис. 3. Фрагмент листа Excel первых нескольких случайных чисел $A$1: $A$100.
2. Определение параметров выборки, описательные статистики
В главном меню Excel выбрать: Данные → Анализ данных → Описательная статистика → ОК.
В появившемся окне Описательная статистика ввести:
Входной интервал – 100 случайных чисел в ячейках $A$1: $A$100;
Группирование - по столбцам;
Выходной интервал – адрес ячейки, с которой начинается таблица Описательная статистика - $C$1;
Итоговая статистика – поставить галочку. ОК.
Рис. 4. Диалоговое окно Описательная статистика с заполненными полями ввода.
На листе Excel появится таблица – Столбец 1
Рис. 5. Таблица Столбец 1 с данными процедуры Описательная статистика.
Таблица содержит описательные статистики, в частности:
Среднее – оценка математического ожидания;
Стандартное отклонение – оценка среднего квадратического отклонения;
Эксцесс и Асимметричность – оценки эксцесса и асимметрии.
Приблизительное равенство нулю оценок эксцесса и асимметрии, и приблизительное равенство оценки среднего оценке медианы дает предварительное основание выбрать в качестве основной гипотезы H0 распределения элементов генеральной совокупности - нормальный закон.
Интервал – размах выборки;
Минимум – минимальное значение случайной величины в выборке;
Максимум – максимальное значение случайной величины в выборке.
В ячейке F15 - длина частичного интервала h, вычисленная следующим образом:
Число интервалов группировки k в Excel вычисляется автоматически по формуле
,
где, скобки означают – округление до целой части числа в меньшую сторону.
В рассматриваемом варианте n = 100, следовательно, k = 11. Действительно:
Эта формула занесена в ячейку F15: =($D$13-$D$12)/10
Результаты процедуры Описательная статистика потребуются в дальнейшем при построении теоретического закона распределения.
3. Построение гистограммы
В главном меню Excel выбрать Данные → Анализ данных → Гистограмма → ОК.
Далее необходимо заполнить поля ввода в диалоговом окне Гистограмма.
Входной интервал: 100 случайных чисел в ячейках $A$1: $A$100;
Интервал карманов: не заполнять;
Выходной интервал: адрес ячейки, с которой начинается вывод результатов процедуры Гистограмма;
Вывод графика – поставьте галочку.
Если поле ввода Интервал карманов не заполняется, то процедура вычисляет число интервалов группировки k и границы интервалов автоматически.
Рис. 6. Диалоговое окно Гистограмма.
В результате выполнения процедуры Гистограмма появляется таблица, содержащая границы xi интервалов группировки (столбец – Карман) и частоту попадания случайных величин выборки mi в i–ый интервал (столбец – Частота).
Справа от таблицы – график гистограммы.
Рис. 7. Фрагмент листа Excel с результатами процедуры Гистограмма
По виду гистограммы можно предположить (принять гипотезу) о том, что выборка случайных чисел подчиняется нормальному закону распределения.
Далее, для того чтобы убедиться в правильности выбранной гипотезы (по крайней мере визуально) надо, первое – построить график гипотетического нормального закона распределения, выбрав в качестве параметров (математического ожидания и среднего квадратического отклонении) их оценки (среднее и стандартное отклонение), и совместить график гипотетического распределения с графиком гистограммы.
И, второе – используя критерий согласия Пирсона установить справедливость выбранной гипотезы.
4. Построение теоретического закона распределения
Для построения теоретического закона распределения совместно с гистограммой и проверки согласия по критерию хи-квадрат Пирсона надо заполнить таблицу, знакомую по лекции (см. ниже по тексту, таблица №1). Для построения этой таблицы надо воспользоваться таблицей карман – частота процедуры Гистограмма.
xi – границы интервалов группировки (карманы – получены как результат выполнения процедуры Гистограмма);
mi – количество элементов выборки, попавших в i–ый интервал (частота – получена в результате процедуры Гистограмма);
Таблица №1
-
xi
mi
n∙pi
карманы
частота
теоретическая частота
статистика U
x1
m1
n∙p1
x2
m2
n∙p2
…
…
…
…
xk
mk
n∙pk
Для построения этой таблицы в Excel к столбцам карман – частота процедуры Гистограмма надо добавить столбцы n∙pi и
Теоретическая вероятность pi попадания элементов выборки в i-ый интервал группировки для принятой гипотезы о нормальном распределении генеральной совокупности равна pi = P(xi-1 < X < xi) = F(xi) – F(xi-1).
n∙pi – теоретическая (ожидаемая) частота попадания элементов выборки в i–ый интервал группировки для принятой гипотезы о нормальном распределении генеральной совокупности.
В Excel эту величину можно вычислить, воспользовавшись функцией НОРМРАСП.
n∙pi = (НОРМРАСП(xi; среднее; стандартное_откл; 1) –
– НОРМРАСП(xi-1; среднее; стандартное_откл; 1)) * n.
– статистика, являющаяся мерой расхождения между значениями эмпирической и теоретической плотности распределения;
4.1. Найдите сумму элементов выборки, попавших в карманы (n = 100), для контроля (ячейка D29, рис. 8).
Столбцу E18: E28 присвойте имя n∙pi , поместив его в ячейку E17.
В ячейку E18 внесите формулу для вычисления значения функции нормального распределения F(x1 = 10,544) = P(– ∞ < X ≤ x1), умноженную на число наблюдений n. В рассматриваемом примере n =100. В ячейку E18 будет получено теоретическое (ожидаемое) число значений случайной величины, попавших в интервал , n∙pi = F(x1)∙100
=НОРМРАСП(C$18$;D$3$;D$7$;1)*100
Рис. 8. В ячейке E18 результаты вычислений функции НОРМРАСП(C$18$;D$3$;D$7$;1)*100
Функцию НОРМРАСП вызывается следующим образом. В главном меню Excel выбирается закладка Формулы → Вставить функцию → в диалоговом окне Мастер функций – шаг 1 из 2 в категории Статистические → НОРМРАСП. ОК.
Рис. 9. Окно Мастер функций для выбора функции НОРМРАСП из категории Статистические.
В раскрывшемся окне Аргументы функции НОРМРАСП заполните поля ввода как показано далее на рис. 10.
Рис. 10. Окно ввода параметров для получения функции нормального распределения
В поле X введите адрес ячейки, в которой находится граница первого интервала группировки C18 (верхняя ячейка столбца Карманы).
В поле Среднее введите адрес ячейки, в которой находится среднее значение выборки, полученное при выполнении процедуры Описательная статистика – D3.
В поле Стандартное_откл введите адрес ячейки, в которой находится значение стандартного отклонения выборки, полученное при выполнении процедуры Описательная статистика – D7.
В поле Интегральная введите единица 1. Единица в поле Интегральная означает вычисление функции распределения F(x). ОК.
В ячейку E19 поместите формулу для вычисления теоретического (гипотетического) числа случайных величин, попавших в интервал :
n∙p2 = n ∙ [F(x2) – F(x1)] = n ∙ [P(x1 < X ≤ x2)] = n ∙ [P(10,544 < X ≤ 11,5777)],
где p2 = F(x2) – F(x1) = P(x1 < X ≤ x2) = P(10,544 < X ≤ 11,5777) - теоретическая вероятность попадания нормально распределенных случайных величин в промежуток .
В Excel в строку формул необходимо поместить формулу:
=(НОРМРАСП(C19;$D$3;$D$7;1) – НОРМРАСП(C18;$D$3;$D$7;1))*100
Рис. 11. В ячейке E19 показаны результаты вычислений функции
=(НОРМРАСП(C19;$D$3;$D$7;1) – НОРМРАСП(C18;$D$3;$D$7;1)) *100
Заполните диапазон ячеек Е20:Е27 результатами вычисления этой формулы, используя маркер заполнения.
Рис. 12. Столбец E19;E27 с результатами вычисления функции
n∙pi = (НОРМРАСП(C32;$D$3;$D$7;1) – НОРМРАСП(C31;$D$3;$D$7;1)) *100
В ячейку E28 поместите формулу для вычисления теоретического (гипотетического) числа случайных величин, попавших в промежуток (x10; ∞ ):
P(x10 < x < ∞) = 1 – P(– ∞ < x ≤ x10) = 1 – F(x10) – вероятность попадания нормально распределенных случайных величин в промежуток (x10; ∞).
В Excel в строку формул необходимо поместить формулу:
=(1 – НОРМРАСП(C27;D3;D7;1))*100
Для этого сначала необходимо вызвать функции НОРМРАСП и заполнить поля ввода
Рис. 13. Диалоговое окно функции НОРМРАСП с заполненными полями ввода
Рис. 14. Столбец n∙pi (E18;E28) содержит результаты вычисления теоретических значений числа случайных величин попавших в каждый частичный интервал (карман) n∙pi
Для проверки правильности вычислений просуммируйте числа в ячейках столбца E18:E28.
В ячейке Е29 показана сумма содержимого ячеек Е31:Е40. Она должна быть равна n = 100.
Рис. 15. Таблицы распределения эмпирических частот mi – столбец Частота и теоретических частот npi – столбец n∙pi
4.2. В графике Гистограмма частот добавьте кривую нормального распределения, как это вы умеете.
Рис. 16. Графики гистограммы эмпирических и теоретических частот, позволяющие по виду графиков выбрать в качестве гипотезы H0 нормальное распределение.
Для того чтобы сохранить графики гистограммы эмпирических и теоретических частот (рис. 16) необходимо скопировать таблицу на рис. 15 Карман – Частота – n∙pi в другое место таблицы.
4.3. Скопируйте таблицу Карман – Частота – n∙pi в свободные ячейки листа Excel, для чего, верхний левый угол копии разместите в ячейке C30, как показано далее на рис. 8.
Рис. 17. Фрагмент листа Excel с копией таблицы распределения эмпирических и теоретических частот по карманам
5. Проверка согласия эмпирического и теоретического законов распределения по критерию хи-квадрат Пирсона
Необходимо выполнить условие – в каждом кармане не менее 5 элементов (n∙pi ≥ 5) для теоретических значений распределения частот. Объединим (просуммируем) две верхние ячейки (просуммируем ячейки E31 и E32) и две нижние ячейки (просуммируем ячейки E40 и E41), столбца n∙pi , содержащего теоретические частоты.
Рис. 18. В столбце n∙pi объединены ячейки E31 и E32 (результат суммирования – в ячейке E32) и ячейки E40 и E41 (результат суммирования – в ячейке E40).
Объединим две верхние ячейки D31 и D32 и две нижние ячейки столбца Частота, содержащего эмпирические (опытные) частоты.
Рис. 19. В столбце Частота объединены ячейки D31 и D32 (результат суммирования – в ячейке D32) и ячейки D40 и D41 (результат суммирования – в ячейке D40).
В ячейку F32 столбца помеченного именем U введите формулу ,
, в строку формул введите формулу =(D32-E32)^2)/E32.
Рис. 20. В столбце U в ячейки F32 значение статистики
Размножьте эту формулу в диапазоне ячеек F33;F40 .
В ячейке F41 получите сумму содержимого ячеек F33;F40.
Рис. 21. Таблицы с результатами вычисления статистики
В ячейке F41 получено значение статистики . U = 4,61255
Критическое значение статистики U, которая имеет распределение с шестью (число частичных интервалов – 1 – число параметров, 9 – 3 = 6) степенями свободы, определяется при помощи функции ХИ2ОБР.
Функцию ХИ2ОБР вызывается следующим образом. В главном меню Excel выбирается закладка Формулы → Вставить функцию → в диалоговом окне Мастер функций – шаг 1 из 2 в категории Статистические → ХИ2ОБР. ОК.
Рис. 22. Диалоговое окно выбора функции ХИ2ОБР
В диалоговом окне Аргументы функции ХИ2ОБР заполните поля как показано на рис. 23, предварительно выбрав ячейку для результата вычисления функции, например F43.
Рис. 23. Диалоговое окно функции ХИ2ОБР с заполненными полями ввода
Рис. 24. Таблица с окончательными результатами вычисления статистики
и критического значения = 12.5916
Значение статистики U = 4,61255 оказалось меньше критического значения =12.5916.
Вывод. Следовательно, гипотеза, состоящая в том, что генеральная совокупность подчиняется нормальному закону распределения, принимается.
Задание 1.
1.1. Измените границы интервалов группировки, выбрав в качестве первой (левой), округленную до целого в меньшую сторону первую границу, полученную автоматически при выполнении процедуры Гистограмма. Левая граница должна быть меньше минимального значения случайной величины в выборке. В рассматриваемом варианте получено автоматически значение первой (левой) границы - 10,544. Тогда новая первая (левая) граница будет равнее 10.
1.2. Измените величину частичного интервала группировки, округлив его до ближайшего целого. В рассматриваемом варианте получено автоматически h = 1,02372 . Тогда новое значение величины интервала группировки будет равно 1.