Файл: ЛР-6 - проверка согласия.docx

Скачать файл (0,76Мб)

Заказать решение

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 07.08.2021

Просмотров: 197

Скачиваний: 2

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Лабораторная работа №6. Проверка гипотезы о нормальном распределении выборки по критерию Пирсона.

Лабораторная работа выполняется в Excel 2007.

Цель работы – дать навыки первичной обработки данных, построении гистограмм, подборе подходящего закона распределения и вычислении его параметров, проверка согласия между эмпирическим и гипотетическим законом распределения по критерию хи-квадрат Пирсона средствами Excel.

1. Формирование выборки нормально распределенных случайных чисел с заданными значениями математического ожидания и среднего квадратического отклонения.

В главном меню Excel выбрать: Данные → Анализ данных → Генерация случайных чисел → ОК.

Рис. 1. Диалоговое окно Анализ данных

В появившемся окне Генерация случайных чисел ввести:

Число переменных: 1;

Число случайных чисел: 100;

Распределение: Нормальное.

Параметры:

Среднее = 15 (математическое ожидание);

Стандартное отклонение = 2 (среднее квадратическое отклонение);

Случайное рассеивание: не заполнять (или заполнить по указанию преподавателя);

Выходной интервал: адрес первой ячейки столбца массива случайных чисел - $A$1. ОК.

Рис. 2. Диалоговое окно Генерация случайных чисел с заполненными полями ввода

В результате выполнения операции Генерация случайных чисел появится столбец $A$1: $A$100, содержащий 100 случайных чисел.

Рис. 3. Фрагмент листа Excel первых нескольких случайных чисел $A$1: $A$100.

2. Определение параметров выборки, описательные статистики

В главном меню Excel выбрать: Данные → Анализ данных → Описательная статистика → ОК.

В появившемся окне Описательная статистика ввести:

Входной интервал – 100 случайных чисел в ячейках $A$1: $A$100;

Группирование - по столбцам;

Выходной интервал – адрес ячейки, с которой начинается таблица Описательная статистика - $C$1;

Итоговая статистика – поставить галочку. ОК.

Рис. 4. Диалоговое окно Описательная статистика с заполненными полями ввода.

На листе Excel появится таблица – Столбец 1

Рис. 5. Таблица Столбец 1 с данными процедуры Описательная статистика.

Таблица содержит описательные статистики, в частности:

Среднее – оценка математического ожидания;

Стандартное отклонение – оценка среднего квадратического отклонения;

Эксцесс и Асимметричность – оценки эксцесса и асимметрии.

Приблизительное равенство нулю оценок эксцесса и асимметрии, и приблизительное равенство оценки среднего оценке медианы дает предварительное основание выбрать в качестве основной гипотезы H₀ распределения элементов генеральной совокупности - нормальный закон.

Интервал – размах выборки;

Минимум – минимальное значение случайной величины в выборке;

Максимум – максимальное значение случайной величины в выборке.

В ячейке F15 - длина частичного интервала h, вычисленная следующим образом:

Число интервалов группировки k в Excel вычисляется автоматически по формуле

где, скобки означают – округление до целой части числа в меньшую сторону.

В рассматриваемом варианте n = 100, следовательно, k = 11. Действительно:

Эта формула занесена в ячейку F15: =($D$13-$D$12)/10

Результаты процедуры Описательная статистика потребуются в дальнейшем при построении теоретического закона распределения.

3. Построение гистограммы

В главном меню Excel выбрать Данные → Анализ данных → Гистограмма → ОК.

Далее необходимо заполнить поля ввода в диалоговом окне Гистограмма.

Входной интервал: 100 случайных чисел в ячейках $A$1: $A$100;

Интервал карманов: не заполнять;

Выходной интервал: адрес ячейки, с которой начинается вывод результатов процедуры Гистограмма;

Вывод графика – поставьте галочку.

Если поле ввода Интервал карманов не заполняется, то процедура вычисляет число интервалов группировки k и границы интервалов автоматически.

Рис. 6. Диалоговое окно Гистограмма.

В результате выполнения процедуры Гистограмма появляется таблица, содержащая границы x_i интервалов группировки (столбец – Карман) и частоту попадания случайных величин выборки m_i в i–ый интервал (столбец – Частота).

Справа от таблицы – график гистограммы.

Рис. 7. Фрагмент листа Excel с результатами процедуры Гистограмма

По виду гистограммы можно предположить (принять гипотезу) о том, что выборка случайных чисел подчиняется нормальному закону распределения.

Далее, для того чтобы убедиться в правильности выбранной гипотезы (по крайней мере визуально) надо, первое – построить график гипотетического нормального закона распределения, выбрав в качестве параметров (математического ожидания и среднего квадратического отклонении) их оценки (среднее и стандартное отклонение), и совместить график гипотетического распределения с графиком гистограммы.

И, второе – используя критерий согласия Пирсона установить справедливость выбранной гипотезы.

4. Построение теоретического закона распределения

Для построения теоретического закона распределения совместно с гистограммой и проверки согласия по критерию хи-квадрат Пирсона надо заполнить таблицу, знакомую по лекции (см. ниже по тексту, таблица №1). Для построения этой таблицы надо воспользоваться таблицей карман – частота процедуры Гистограмма.

x_i – границы интервалов группировки (карманы – получены как результат выполнения процедуры Гистограмма);

m_i – количество элементов выборки, попавших в i–ый интервал (частота – получена в результате процедуры Гистограмма);

Таблица №1

x_i	m_i	n∙p_i
карманы	частота	теоретическая частота	статистика U
x₁	m₁	n∙p₁
x₂	m₂	n∙p₂
…	…	…	…
x_k	m_k	n∙p_k

_{Для
построения этой таблицы в}Excel к столбцам карман – частота процедуры Гистограмма надо добавить столбцы n∙p_i и

Теоретическая вероятность p_i попадания элементов выборки в i-ый интервал группировки для принятой гипотезы о нормальном распределении генеральной совокупности равна p_i = P(x_i_-1 < X < x_i) = F(x_i) – F(x_i_-1).

n∙p_i – теоретическая (ожидаемая) частота попадания элементов выборки в i–ый интервал группировки для принятой гипотезы о нормальном распределении генеральной совокупности.

В Excel эту величину можно вычислить, воспользовавшись функцией НОРМРАСП.

n∙p_i = (НОРМРАСП(x_i; среднее; стандартное_откл; 1) –

– НОРМРАСП(x_i_-1; среднее; стандартное_откл; 1)) * n.

– статистика, являющаяся мерой расхождения между значениями эмпирической и теоретической плотности распределения;

4.1. Найдите сумму элементов выборки, попавших в карманы (n = 100), для контроля (ячейка D29, рис. 8).

Столбцу E18: E28 присвойте имя n∙p_i , поместив его в ячейку E17.

В ячейку E18 внесите формулу для вычисления значения функции нормального распределения F(x₁ = 10,544) = P(– ∞ < X ≤ x₁), умноженную на число наблюдений n. В рассматриваемом примере n =100. В ячейку E18 будет получено теоретическое (ожидаемое) число значений случайной величины, попавших в интервал , n∙p_i = F(x₁)∙100

=НОРМРАСП(C$18$;D$3$;D$7$;1)*100

Рис. 8. В ячейке E18 результаты вычислений функции НОРМРАСП(C$18$;D$3$;D$7$;1)*100

Функцию НОРМРАСП вызывается следующим образом. В главном меню Excel выбирается закладка Формулы → Вставить функцию → в диалоговом окне Мастер функций – шаг 1 из 2 в категории Статистические → НОРМРАСП. ОК.

Рис. 9. Окно Мастер функций для выбора функции НОРМРАСП из категории Статистические.

В раскрывшемся окне Аргументы функции НОРМРАСП заполните поля ввода как показано далее на рис. 10.

Shape1

Shape2 Shape3

Рис. 10. Окно ввода параметров для получения функции нормального распределения

В поле X введите адрес ячейки, в которой находится граница первого интервала группировки C18 (верхняя ячейка столбца Карманы).

В поле Среднее введите адрес ячейки, в которой находится среднее значение выборки, полученное при выполнении процедуры Описательная статистика – D3.

В поле Стандартное_откл введите адрес ячейки, в которой находится значение стандартного отклонения выборки, полученное при выполнении процедуры Описательная статистика – D7.

В поле Интегральная введите единица 1. Единица в поле Интегральная означает вычисление функции распределения F(x). ОК.

В ячейку E19 поместите формулу для вычисления теоретического (гипотетического) числа случайных величин, попавших в интервал :

n∙p₂ = n ∙ [F(x₂) – F(x₁)] = n ∙ [P(x₁ < X ≤ x₂)] = n ∙ [P(10,544 < X ≤ 11,5777)],

где p₂ = F(x₂) – F(x₁) = P(x₁ < X ≤ x₂) = P(10,544 < X ≤ 11,5777) - теоретическая вероятность попадания нормально распределенных случайных величин в промежуток .

В Excel в строку формул необходимо поместить формулу:

=(НОРМРАСП(C19;$D$3;$D$7;1) – НОРМРАСП(C18;$D$3;$D$7;1))*100

Рис. 11. В ячейке E19 показаны результаты вычислений функции

=(НОРМРАСП(C19;$D$3;$D$7;1) – НОРМРАСП(C18;$D$3;$D$7;1)) *100

Заполните диапазон ячеек Е20:Е27 результатами вычисления этой формулы, используя маркер заполнения.

Рис. 12. Столбец E19;E27 с результатами вычисления функции

n∙p_i = (НОРМРАСП(C32;$D$3;$D$7;1) – НОРМРАСП(C31;$D$3;$D$7;1)) *100

В ячейку E28 поместите формулу для вычисления теоретического (гипотетического) числа случайных величин, попавших в промежуток (x₁₀; ∞ ):

P(x₁₀ < x < ∞) = 1 – P(– ∞ < x ≤ x₁₀) = 1 – F(x₁₀) – вероятность попадания нормально распределенных случайных величин в промежуток (x₁₀; ∞).

В Excel в строку формул необходимо поместить формулу:

=(1 – НОРМРАСП(C27;D3;D7;1))*100

Для этого сначала необходимо вызвать функции НОРМРАСП и заполнить поля ввода

Рис. 13. Диалоговое окно функции НОРМРАСП с заполненными полями ввода

Рис. 14. Столбец n∙p_i (E18;E28) содержит результаты вычисления теоретических значений числа случайных величин попавших в каждый частичный интервал (карман) n∙p_i

Для проверки правильности вычислений просуммируйте числа в ячейках столбца E18:E28.

В ячейке Е29 показана сумма содержимого ячеек Е31:Е40. Она должна быть равна n = 100.

Рис. 15. Таблицы распределения эмпирических частот m_i – столбец Частота и теоретических частот np_i – столбец n∙p_i

4.2. В графике Гистограмма частот добавьте кривую нормального распределения, как это вы умеете.

Рис. 16. Графики гистограммы эмпирических и теоретических частот, позволяющие по виду графиков выбрать в качестве гипотезы H₀ нормальное распределение.

Для того чтобы сохранить графики гистограммы эмпирических и теоретических частот (рис. 16) необходимо скопировать таблицу на рис. 15 Карман – Частота – n∙p_i в другое место таблицы.

4.3. Скопируйте таблицу Карман – Частота – n∙p_i в свободные ячейки листа Excel, для чего, верхний левый угол копии разместите в ячейке C30, как показано далее на рис. 8.

Рис. 17. Фрагмент листа Excel с копией таблицы распределения эмпирических и теоретических частот по карманам

5. Проверка согласия эмпирического и теоретического законов распределения по критерию хи-квадрат Пирсона

Необходимо выполнить условие – в каждом кармане не менее 5 элементов (n∙p_i ≥ 5) для теоретических значений распределения частот. Объединим (просуммируем) две верхние ячейки (просуммируем ячейки E31 и E32) и две нижние ячейки (просуммируем ячейки E40 и E41), столбца n∙p_i , содержащего теоретические частоты.

Рис. 18. В столбце n∙p_i объединены ячейки E31 и E32 (результат суммирования – в ячейке E32) и ячейки E40 и E41 (результат суммирования – в ячейке E40).

Объединим две верхние ячейки D31 и D32 и две нижние ячейки столбца Частота, содержащего эмпирические (опытные) частоты.

Рис. 19. В столбце Частота объединены ячейки D31 и D32 (результат суммирования – в ячейке D32) и ячейки D40 и D41 (результат суммирования – в ячейке D40).

В ячейку F32 столбца помеченного именем U введите формулу ,

, в строку формул введите формулу =(D32-E32)^2)/E32.

Рис. 20. В столбце U в ячейки F32 значение статистики

Размножьте эту формулу в диапазоне ячеек F33;F40 .

В ячейке F41 получите сумму содержимого ячеек F33;F40.

Рис. 21. Таблицы с результатами вычисления статистики

В ячейке F41 получено значение статистики . U = 4,61255

Критическое значение статистики U, которая имеет распределение с шестью (число частичных интервалов – 1 – число параметров, 9 – 3 = 6) степенями свободы, определяется при помощи функции ХИ2ОБР.

Функцию ХИ2ОБР вызывается следующим образом. В главном меню Excel выбирается закладка Формулы → Вставить функцию → в диалоговом окне Мастер функций – шаг 1 из 2 в категории Статистические → ХИ2ОБР. ОК.

Рис. 22. Диалоговое окно выбора функции ХИ2ОБР

В диалоговом окне Аргументы функции ХИ2ОБР заполните поля как показано на рис. 23, предварительно выбрав ячейку для результата вычисления функции, например F43.

Рис. 23. Диалоговое окно функции ХИ2ОБР с заполненными полями ввода

Рис. 24. Таблица с окончательными результатами вычисления статистики

и критического значения = 12.5916

Значение статистики U = 4,61255 оказалось меньше критического значения =12.5916.

Вывод. Следовательно, гипотеза, состоящая в том, что генеральная совокупность подчиняется нормальному закону распределения, принимается.

Задание 1.

1.1. Измените границы интервалов группировки, выбрав в качестве первой (левой), округленную до целого в меньшую сторону первую границу, полученную автоматически при выполнении процедуры Гистограмма. Левая граница должна быть меньше минимального значения случайной величины в выборке. В рассматриваемом варианте получено автоматически значение первой (левой) границы - 10,544. Тогда новая первая (левая) граница будет равнее 10.

1.2. Измените величину частичного интервала группировки, округлив его до ближайшего целого. В рассматриваемом варианте получено автоматически h = 1,02372 . Тогда новое значение величины интервала группировки будет равно 1.

Смотрите также файлы

ЛР-5 РЕГРЕССИЯ.docx

ЛР-№4 Непрерывные распределения.docx

ЛР №3 - Распределение Пуассона.docx

ЛР №2 - Биномиальное распределение.docx

ЛР №1 - Дискретные случайные величины.docx

Файл: ЛР-6 - проверка согласия.docx

Смотрите также файлы

Информация

Списки файлов

Дополнительно