ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 07.04.2021
Просмотров: 1665
Скачиваний: 36
51
Проверка гипотез о равенстве распределений.
Критерии однородности
Постановка задачи. Пусть
X
=(X
1
,...,X
n
) - выборка из
распределения
L
(
) с некоторой неизвестной функцией
распределения F
1
(x), а
Y =(Y
1
,...,Y
m
)
-
выборка из
распределения
L
(
) с неизвестной функцией распределения
F
2
(x). Требуется проверить гипотезу однородности H
0
:
F
1
(x)
F
2
(x). Рассмотрим несколько способов построения
критерия однородности для этой гипотезы.
8.3. Критерий однородности Колмогорова - Смирнова
Этот критерий применяют в случае непрерывных
распределений. Он использует статистику
D
nm
n
m
F
x
F
x
nm
x
n
n
sup
( )
( )
1
2
, (8.4)
где F
1n
(x) и F
2n
(x) - эмпирические функции распределения,
построенные по выборкам
X
и
Y
соответственно.
Эмпирическая
функция
распределения
является
оптимальной
оценкой
для
теоретической
функции
распределения и с увеличением объема выборки они
сближаются, поэтому, когда справедлива гипотеза H
0
функции
F
1n
(x) и F
2ь
(x) оценивают одну и ту же неизвестную функцию
распределения. В этих случаях статистика D
nm
не должна
отклоняться существенно от нуля. Смирнов Н.В. доказал
теорему.
Теорема.8.3. Если F
1
(x) и F
2
(x) непрерывные функции, то
при справедливости гипотезы H
0
, статистика D
nm
не зависит от
вида распределения и при n
и m
,
n
m
, 0<
<
,
случайная величина
nm
n m
D
nm
распределена по закону
Колмогорова. ▓
52
Отсюда следует критерий проверки гипотезы H
0
:
1)
вычисляется значение статистики (8.4) ~ d
экс
;
2)
с заданным уровнем значимости
находится квантиль
распределения Колмогорова K
1-
;
3)
решение принимается следующим образом.
d
экс
K
1-
1
d
экс
<K
1-
0
P(D
nm
k
кр
H
0
)=
, отсюда
1-P(D
nm
<k
кр
H
0
)=
.
Другими словами: F
k
D
kp
nm
(
)
1
k
kp
=K
1-
.
8.4. Критерий однородности хи - квадрат
Критерий однородности
2
используют для проверки
однородности дискретных данных, т.е. когда в опытах
наблюдается некоторый переменный признак, принимающий
конечное число различных значений Известно, что к такой
схеме можно свести любую другую модель, применяя
предварительно метод группировки данных. Поэтому
критерий
2
применим к анализу любых данных, т.е. является
универсальным.
Пусть имеется k серий опытов, состоящих из
наблюдений за случайной величиной
, которая может
принимать одно из m возможных значений (
- дискретная
случайная величина). Серии наблюдений характеризуются
выборками
X =(X
1
,...,X
n1
) ~ F
1
(u)
Y =(Y
1
,...,Y
n2
) ~ F
2
(u)
...............................
Z =(Z
1
,...,Z
nk
) ~ F
k
(u).
F
1
(u), F
2
(u),...,F
k
(u) - предполагаемые функции распределения.
Требуется проверить гипотезу H
0
о том, что все наблюдения
производились над одной и той же случайной величиной
H
0
: F
1
(u)=F
2
(u)=...=F
k
(u)
53
против альтернативы H
1
: хотя бы одно распределение не равно
остальным.
Необходимо построить правило, позволяющее на основе
значений выборок принять или отвергнуть H
0
.
Для решения используется статистика
G
n
n
ij
i
j
j
k
i
m
2
1
1
1
, (8.5)
где
ij
- число появлений i-го значения в j-ой серии,
ij
ij
j
k
1
- число появлений i-го значения во всех сериях;
n
j
- объем j-ой серии;
n=
n
j
j
k
1
- общий объем всех выборок.
При n
(при увеличении объема выборок) статистика
(8.5) будет иметь распределение
2
с (m-1)(k-1) степенями
свободы, т.е. G
F
n
m
k
(
)(
)
1
1
2
при справедливости основной
гипотезы. Отсюда следует критерий проверки гипотезы:
1) вычисляется g
экс
;
2) при заданном уровне значимости ищется g
kp
по таблицам
распределения
2
:
g
kp
=
1
1
1
2
,(
)(
)
m
k
;
3) решение принимается следующим образом:
g
экс
g
kp
1
g
экс
<g
kp
0 .
Замечание.
Критерий
2
применяется для непрерывной случайной
величин
, тогда область возможных значений
можно
разбить на подинтервалы и
ij
будет числом значений в j-той
серии, попавших в i-ый подинтервал.
Пример.
Два игрока бросали монету по 100 раз. У
первого - герб выпал 57 раз; у второго - 48. Проверить
54
гипотезу о том, что монеты идентичны, при уровне
значимости 0.05.
Решение. Предполагаем, что исследуется случайная
величина
, показывающая число выпавших гербов при одном
подбрасывании.
0
1
1-p
p
У первого игрока р=р
1
; у второго - p=p
2
.
H
0
: p
1
=p
2
H
1
: p
1
p
2
k=2 - число игроков; m=2 - число возможных значений
св.
; n
1
=n
2
=100; n=n
1
+n
2
=200
11
=57
12
=48
-
выпадение герба;
21
=43
22
=52
-
выпадение решки;
1
=57+48 -
число появлений герба во всех опытах;
2
=43+52 -
число появлений решки во всех опытах.
1)
Находим g
экс
=200
11
2
1 1
12
2
2
1
21
2
1
2
22
2
2
2
1
16
n
n
n
n
.
2)
По таблицам [7]определяем g
kp
=
0 95 1
2
.
,
=3.8.
3)
Решение принимается по следующей схеме:
g
экс
>g
kp
1
- справедлива альтернатива, т.е.
монеты не идентичны.
8.5. Непараметрические критерии проверки гипотез
Любой критерий, служащий для проверки гипотез
относительно распределения случайной величины, является
функцией от наблюдаемых значений этой случайной
величины. Такие критерии называются параметрическими.
Существуют критерии, вид распределения которых не зависит
от распределения генеральной совокупности. Такие критерии
называются непараметрическими.
55
Предположим,
что
имеются
две
генеральные
совокупности
и
, соответствующие непрерывным
случайным величинам X и Y. Функции распределения этих
совокупностей обозначим так:
}
{
)
(
x
X
P
x
F
,
}
{
)
(
y
Y
P
y
G
.
Необходимо проверить гипотезу: X и Y имеют одно и то же
распределение
)
(
)
(
:
x
G
x
F
H
0
для
всех
x.
Альтернативные гипотезы таковы:
)
(
)
(
:
x
G
x
F
H
1
; или
)
(
)
(
:
x
G
x
F
H
1
; или
)
(
)
(
:
x
G
x
F
H
1
.
Проверка производится по 2-м независимым выборкам
разного объема из этих совокупностей.
Рассмотрим непараметрические критерии Вилкоксона,
Манна-Уитни и знаков. Именно эти критерии реализованы в
пакете STATISTICA в модуле ―Nonparametric Statistics‖. Эти
критерии используются для проверки и других гипотез.
Критерий Вилкоксона
Это ранговый критерий. Рассмотри что это такое.
Элементы выборки ранжируются, т.е. располагаются в порядке
неубывания.
Определение. Рангом элемента выборки называется ее
порядковый
номер
в
полученной
ранжированной
последовательности. ▓
Если встречаются одинаковые элементы, то каждому из них
приписывается средний ранг. Критерии, основанные на рангах
элементов (а не на самих значениях элементов) называются
ранговыми.
Итак, имеются две выборки:
n
X
X
X
,..,
,
2
1
и
m
Y
Y
Y
,..,
,
2
1
. Объединим их в одну последовательность из n+m
элементов и ранжируем ее. Подсчитаем сумму рангов
порядковых
номеров
элементов
первой
выборки