ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 06.04.2021
Просмотров: 1009
Скачиваний: 1
16
при n
к вероятности этого события], F
n
(x)
P
F(x), т.е.
имеет место равенство (1.6) ▓
Замечание.
Если объем выборки большой, то значение
эмпирической функции распределения в каждой точке х
может служить приближенным значением (
оценкой
)
теоретической функции распределения в этой точке. Функцию
F
n
(x) назвают еще
статистическим аналогом
для F(x).
Более глубокие свойства эмпирической функции
распределения проявляются, если рассматривать ее поведение
не в отдельной фиксированной точке х, а в произвольной
конечной совокупности точек x
1
<x
2
<...<x
n
. В частности, важно
знать отклонения эмпирической функции распределения F
n
(x)
от F(x) на всей оси. Известен результат, принадлежащий
Гливенко В.И.
Теорема 1.2 (Гливенко): В условиях теоремы 1.1
P
F x
F x
n
x
n
lim sup
( )
( )
0
1
(1.7)
Другими словами, соотношение (1.7) означает, что
отклонение D
n
= D
n
(
X
)=
sup
( )
( )
x
n
F x
F x
эмпирической функции распределения от F(x) на всей оси с
вероятностью 1 будет сколь угодно мало при n
(при
достаточно большом объеме выборки).
Рассмотрим теорему, которая позволяет для больших n
оценивать вероятности заданных отклонений случайной
величины. D
n
от 0.
Теорема 1.3 (Колмогорова): Если функция F(x)
непрерывна, то при любом фиксированном t>0
lim
( )
( )
n
n
i
i t
i
P nD
t
K t
e
1
2
2 2
(1.8)
Предельную функцию распределения К(х) можно с хорошим
приближением использовать для практических расчетов уже
при n
20. Теорему Колмогорова применяют для того, чтобы
17
определить границы, в которых с заданной вероятностью
находится теоретическая функция распределения F(x), если
она неизвестна. Пусть для заданного
(0,1) число t
определяется уравнением K(t
)=
.
Тогда из (1.8) имеем:
)
(
,
)
(
)
(
)
(
)
(
t
K
n
t
x
F
x
F
n
t
x
F
P
t
D
n
P
n
n
n
n
Таким образом, при n
с вероятностью, близкой к
,
значения функции F(x) для всех х удовлетворяют
неравенствам
F x
t
n
F x
F x
t
n
n
n
( )
( )
( )
Так как 0
F(x)
1, эти неравенства можно уточнить:
max , ( )
( ) min
( )
,
0
1
F x
t
n
F x
F x
t
n
n
n
.
Область, определяемая этими нижней и верхней
границами, называется
асимптотической
-доверительной
зоной
для теоретической функции распределения. Для
определения числовых значений t
при различных
можно
воспользоваться табулированными значениями функции K(t).
Теорема 1.4 (Смирнова): Пусть F
1n
(x) и F
2m
(x) - две
эмпирические функции распределения, построенные на основе
двух независимых выборок объемом n и m из одного и того же
распределения
L
(
), и D
n,m
=
sup
( )
( )
x
n
m
F x
F
x
1
2
.
Тогда, если теоретическая функция распределения F(x)
непрерывна, то для любого фиксированного t>0
lim
(
)
( )
,
,
n m
n m
P
nm
n m D
t
K t
,
где функция K(t) определена равенством (1.8).
18
Эту
теорему
используют
для
проверки
гипотезы
(предположения) о том, что две выборки получены из одного и
того же распределения.
1.3. Гистограмма и полигон частот
Итак, эмпирическая функция распределения – удобный
способ представления статистических данных (выборки
X
).
Он позволяет делать выводы о распределении наблюдаемой
случайной величины
, когда оно неизвестно. По
эмпирической функции распределения. F
n
(x) при n
со
сколь угодно высокой точностью можно восстановить
неизвестную теоретическую функцию распределения F(x).
Рассмотрим
другие
способы
представления
статистических данных. Пусть наблюдаемая случайная
величина
дискретна и принимает значения x
1
,x
2
,...
Представление о законе распределения
дадут частоты
r
/n,
где
r
- число элементов выборки
X
=(X
1
,...,X
n
), принявших
значение x
r
:
r
i
r
i
n
I X
x
(
)
1
.
В этом случае, по теореме Бернулли, при n
r
P
r
n
P
x
(
), r = 1,2,...
Пусть
- непрерывная случайная величина и имеет
непрерывную плотность распределения f(x). Рассмотренную
методику применим для оценивания неизвестной плотности.
Это осуществляется с помощью
метода группировки
наблюдений
(или метода группировки данных), который
состоит в следующем.
Пусть {
r
} - некоторое разбиение области
возможных
значений
:
=
r
r
,
i
j
=
, i
j и
r
=
I
j
n
1
(X
j
r
) - число
19
выборочных точек [элементов выборки
X
=(X
1
,X
2
,...,X
n
)],
попавших в интервал
r
. Тогда при n
, по теореме Бернулли,
r
P
n
P(
r
)=
f x dx
r
( )
.
По теореме о среднем значении, последний интеграл
равен
r
f(x
r
), где x
r
некоторая внутренняя точка интервала
r
,
а
r
- его длина. Обычно интервалы выбираются одинаковой
длины, и если длина интервала мала, то в качестве x
r
берут
середину интервала. Поэтому можно считать
r
n
r
f(x
r
)
или
r
r
n
f x
( )
. (1.9)
Построим
теперь
кусочно-постоянную
функцию
f x
n
r
r
( )
, при x
r
, r=1,2,..., называемую
гистограммой
.
При n
и достаточно мелком разбиении {
r
} гистограмма
f
n
(x) будет оценкой f(x) - теоретической плотности. Если
плотность достаточно гладкая функция, то ее лучше
приблизить кусочно-линейными графиками. Оценка гладких
f(x) основама на построении
полигона частот
. Полигон частот
- это ломанная, которую строят так: если построена
гистограмма, то ординаты, соответствующие средним точкам
интервалов, последовательно соединяют отрезками прямых.
Такой кусочно-линейный график является статистическим
аналогом (оценкой) теоретической плотности (рис. 1.2.).
f
n
(x)
1
2
3
x
Рис. 1.2
20
Высота определяется формулой (1.9), а основание -
длина интервала разбиения.
1.4. Определения и свойства выборочных
характеристик
Пусть
X
=(X
1
,X
2
,...,X
n
) - выборка из распределения
L
(
).
F(x) и F
n
(x) - соответственно теоретическая и эмпирическая
функции распределения. Точно так же, как функции F(x)
ставят
в
соответствие
F
n
(x),
любой
теоретической
характеристике
g
g x dF x
( ) ( )
можно
поставить
в
соответствие
ее
статистический
аналог
G=G(
X
),
определяемый по формуле
G
g x dF x
n
g X
i
i
n
( ) ( )
(
)
1
1
.
Случайную величину G называют
эмпирической
или
выборочной
характеристикой
,
соответствующей
теоретической характеристике g. Таким образом, выборочная
характеристика - это среднее арифметическое значение
функции g(x) для элементов выборки
X
. Если g(x)=x
k
, то G -
выборочный момент k-го порядка
, обозначается A
k
A
A
A X
n
X
k
k
k
i
k
i
n
*
( )
1
1
,
(1.10)
(значение начального момента k-го порядка
k
i
k
i
n
n
x
*
1
1
).
При k=1 величину A
k
называют
выборочным средним
и
обозначают
X A
n
X
i
i
n
1
1
1
.
Значения случайных величин A
k
и
X
для данной реализации
x
выборки
X
обозначают строчными буквами a
k
и
x
= a
1
.
Выборочным центральным моментом k-го порядка
называют случайную величину