ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 07.04.2021
Просмотров: 1678
Скачиваний: 36
71
Теорема К. Пирсона.
Если гипотеза Н верна и p
i
0
> 0,
i=1,...,m, то при n
распределение статистики Х
2
асимптотически подчиняется распределению хи-квадрат с m-1
степенями свободы, т.е. Р{ X
2
< x / H }
F
m-1
(x)
P{
2
m-
1
< x }.
Порог
h
выберем из условия: вероятность ошибки
первого рода должна быть малой, равной выбираемому
значению
- уровню значимости:
P
{ отклонить
H
/
H
верна} =
P
{
X
2
h / H
}
P
{
2
m-
1
h
} =
, откуда
h = Q(
1
-
, n -
1
),
(8.7)
квантиль уровня 1-
распределения хи-квадрат с
m
-1
степенями свободы. Процедура (8.6) - (8.7) проверки
Н
может
быть записана иначе: гипотеза
Н
отклоняется, если:
P{
2
m-
1
X
2
}
,
(8.8)
т.е. если мала вероятность получения (при справедливости
Н
)
такого же расхождения, как в опыте (т.е.
X
2
), или ещѐ
большего. Вероятность слева в (8.8) называется минимальным
уровнем значимости (при любом значении
, большем
P
{
X
2
m-
1
X
2
}, гипотеза, очевидно, отклоняется).
Замечание
.
Теорему Пирсона можно применять, если все ожидаемые
частоты удовлетворяют условию:
np
i
0
10,
i=
1
, ...,m.
Если
m
порядка десяти и более, то достаточно выполнения
данного: условия:
np
i
0
4,
i=
1
, ...,m
.
Если рассмотренные условия не выполняется, то необходимо
некоторые исходы
А
i
объединять.
Проверка сложной гипотезы о вероятностях
Пусть
A
1
, ..., A
m
-
m
исходов некоторого опыта,
n
- число независимых повторений опыта,
72
1
,...,
m
- числа появлений исходов.
Проверяемая гипотеза
Н
предполагает, что вероятности
исходов
P(A
i
)
являются известными функциями
p
i
(a) k
-
мерного параметра
a = (a
1
,...,a
k
)
, т.е.
Н: Р(А
i
) = p
i
(a),
i =
1
, ..., m,
но значение
а
неизвестно. Для проверки
гипотезы
Н
определим статистику
~
X
(
np (a))
np (a)
a
i
i
i
i
m
2
min
2
1
(8.9)
По теореме Фишера
, если
Н
верна, то при
n
распределение статистики
Х
2
асимптотически подчиняется
распределению
хи-квадрат
с числом степеней свободы
f = m
-
1-
k,
и потому
отклоняем
Н,
если
~
X
2
h,
(8.10)
где
h = Q
(1
-
, f
) - квантиль уровня 1-
распределения
хи-
квадрат
с числом степеней свободы
f
; такой порог
обеспечивает выбранный уровень
вероятности
P
(отклонить
Н / Н
) ошибки 1-го рода. Если (8.10) не выполняется, делаем
вывод, что
наблюдения не противоречат гипотезе
.
Распределению
хи-квадрат
с
f = m–
1–
k
степенями свободы
асимптотически подчиняется также статистика
~
X
(
np (a))
np (a)
i
i
i
i
m
2
2
1
, (8.11)
где
a
- оценка максимального правдоподобия для
а
, и потому
в (8.10) может быть использована статистика (8.11) вместо
(8.9). Процедура (8.10) может быть записана иначе: если
P{
f
2
X
2
}
,
то гипотеза
Н
отклоняется.
73
Проверка гипотезы о типе распределения
Пусть требуется проверить гипотезу о том, что выборка
x
1
, ..., x
n
извлечена из совокупности, распределенной по
некоторому закону, известному с точностью до
k
-мерного
параметра
а=
(
а
1
,...,а
k
).
Оказываются
теоретически
обоснованными следующие действия: разобьем весь диапазон
наблюдений на
m
интервалов, определим значения
i
-число
наблюдений в
i
-м интервале, получим значение оценки
a
минимизацией
(8.9)
или
методом
максимального
правдоподобия, определим вероятности
p
i
(
a
)
попадания в
i
-й
интервал, вычислим (8.9) или (8.11) и примем решение по
(8.10).
Проверка гипотезы о независимости признаков (таблица
сопряженности признаков)
Предположим, имеется большая совокупность объектов,
каждый из которых обладает двумя признаками
А
и
В
; признак
А
имеет
m
уровней:
A
1
, ...,
A
m
, а признак
В
–
k
уровней:
B
1
, ...,
B
k
. Пусть уровень
А
i
встречается с вероятностью
P(A
i
),
а
уровень
B
j
- c вероятностью
P
(
B
j
). Признаки
А
и
В
независимы,
если
P(A
i
B
j
) = P(A
i
)
P(B
j
), i =
1
, ..., m, j =
1
, ..., k
т.е. вероятность встретить комбинацию
A
i
B
j
равна
произведению вероятностей. Пусть признаки определены на
n
объектах, случайно извлеченных из совокупности;
ij
- число
объектов, имеющих комбинацию
A
i
B
j
,
ij
j=
k
i=
m
1
1
=
n
. По
совокупности наблюдений {
ij
} (таблица
m
k
) требуется
проверить гипотезу
Н
о независимости признаков
А
и
В
.
Задача сводится к случаю с неизвестными параметрами; ими
являются вероятности
P(A
i
), i =
1
, ..., m; P(B
j
), j =
1
, ..., k,
74
всего
(m-
1
) + (k-
1
)
; их оценки:
n
n
)
(A
P
i
k
j
ij
i
1
,
n
n
)
(B
P
j
m
i
ij
j
1
(в
обозначениях
точка
означает
суммирование
по
соответствующему индексу), и статистика (8.9) принимает
вид:
m
i
k
j
j
i
ij
m
i
k
j
ij
n
n
)
B
(
P
)
A
(
P
n
X
~
j
i
1
1
2
1
1
2
2
1
..(8.12)
Если гипотеза
Н
верна, то по теореме Фишера
~
X
2
асимптотически распределена по закону хи-квадрат с числом
степеней свободы
f = mk -
1
- (m -
1
) - (k -
1
) = (m -
1
)(k -
1
),
и потому, если
}
{
X
~
P
f
2
2
, (8.13)
то гипотезу о независимости признаков следует отклонить.
Ясно, что по (8.12) - (8.13) можно проверять независимость
двух случайных величин, разбив диапазоны их значений на
m
и
k
частей.
Проверка гипотезы об однородности выборок
Пусть имеется
m
выборок объемами
n
1
,...,
n
m
,
извлеченных из различных совокупностей. Измеряемая
величина в каждой из выборок может иметь
k
уровней
B
1
, ...,
B
k
. Требуется проверить гипотезу о том, что исходные
совокупности распределены одинаково. Обозначим
ij
- число
наблюдений в
i
-й
выборке, имеющих уровень
B
j
,
ij
j
i
i
n
. Имеем таблицу
m
k
наблюдений аналогично
предыдущему пункту. Можно показать, что для проверки
гипотезы справедлива процедура (8.12) - (8.13).
75
Задания к лабораторной работе
1. Необходимо проверить гипотезу о нормальном законе
распределения.
Проверим гипотезу о нормальном законе распределения
диаметров валов, выточенных на одном станке, по выборке
объема
n
= 200; измерения приведены в прил. 2. Оценками для
а
(среднего) и
(стандартного отклонения) являются:
n
i
i
x
n
x
1
1
и
2
1
=
1
-
1
)
x
x
(
n
s
n
i
i
.
Шаг 1.
Для начала результаты измерения диаметров
валов, взятых из
приложения 2,
занесем в таблицу с одним
столбцом (
d
) и 200 строками; соответствующий файл назовем,
8_1.sta
Шаг 2.
Теперь необходимо в Меню выбора основных
модулей обработки информации в программном обеспечении
STATISTICA6.0 выбрать Статистика(Statistics)►
Distribution
Fitting
(подбор распределения)
.
В появившемся окне выбрать
поле Continuous Distributions: Normal и нажать ОК.
Шаг 3.
В окне Fitting Continuous Distributions выбрать
Variable:
d
и перейти на вкладку Options. Далее в поле Plot
distribution:
Frequency
d
istribution
(частоты распределения) и
отказываемся от теста Колмогорова-Смирнова. Для получения
конечного результата нажать кнопку Summary. Перед вами
сформированная таблица частот, в которой нам нужны
столбцы
observed frequency
(наблюдаемые частоты) и
expected
frequency
(ожидаемые частоты). Сравним графически
наблюдаемые и ожидаемые частоты построением 2D
Histogram. Наблюдаем некоторое различие.
В таблице приведено значение статистики (8.11) Chi-
Square:
12.55864, количество степеней свободы d.f. = 3,
которое получилось при объединении интервалов для
выполнения условий (4.5):
f
= 6 - 1 - 2 = 3. Приведено