ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 06.04.2021
Просмотров: 1007
Скачиваний: 1
11
пространством
R
n
или его частью, (если
X
- непрерывна), либо
состоять из конечного или счетного числа точек в
R
n
(если
случайная величина
X
- дискретна).
Под статистической моделью эксперимента в данном
случае понимается набор (
X
,
P
), где
P
- класс допустимых
распределений случайных величин
X
, заданных на
X
.
Распределение вероятностей любой случайной величины
однозначно определяется ее функцией распределения, поэтому
статистическая модель задается обычно в терминах
допустимых функций распределения выборки
X
.
Итак, статистическая модель определяется выборочным
пространством
X
и семейством функций распределения
F
,
которому принадлежит неизвестная функция распределения
F
X
(x
1
,...,x
n
)=P(X
1
x
1
,...,X
n
<x
n
),
-
<
x
1
,...,x
n
<+
выборки
X
=(X
1
,...,X
n
).
Часто бывает ситуация, когда компоненты X
1
,...,X
n
независимы и все распределены так же, как и некоторая
случайная величина
. Это соответствует эксперименту, в
котором проводятся повторные независимые наблюдения над
случайной величиной
. Здесь F
Xi
(x
i
)=F
(x
i
) для всех i=1,...,n и
F
X
(
x
)=F
(x
1
)... F
(x
n
).
Такую модель можно задать в терминах функции
распределения F
и тогда
X
=(X
1
,...,X
n
) - выборка из
распределения случайной величины
. Множество возможных
значений
с распределением F
называют
генеральной
совокупностью
(или просто
совокупностью
), а
X
- выборкой
из этой совокупности. Обозначение таково:
X
=(X
1
,...,X
n
) есть
выборка из
L
(
), где
L
(
)– распределение
.
Если функции распределения из класса
F
заданы с
точностью до значений некоторого параметра
с множеством
возможных значений
, то такая модель обозначается
F
={F(x,
),
}, и называется
параметрической.
12
Известен тип распределения наблюдаемой случайной
величины в этом случае, но не известен параметр, от которого
зависит распределение. Параметр
может быть как
скалярным, так и векторным; множество
называется
параметрическим.
Пусть известно, что
L
(
) - нормальное распределение с
известной дисперсией и неизвестным средним. Тогда
статистическая модель имеет вид
F
={F(x,
),
,
=(-
,
)},
где функция распределения F(x,
) имеет плотность
f x
x
( , )
exp
(
)
1
2
2
2
2
, -
<x<
.
Если и дисперсия неизвестна, то статистическая модель имеет
вид
F
={F(x,
),
=(
1
,
2
)
}, где
={(
1
,
2
): -
<
1
<
,
0<
2
<
} и F(x,
) имеет плотность
f x
x
( , )
exp
(
)
1
2
2
2
1
2
2
2
, -
<x<
.
Модель
F
={F
} называется абсолютно непрерывной или
дискретной, если таковыми являются все составляющие класс
F
функции распределения. Рассматриваются только эти
модели.
Будем использовать единое обозначение f
(x)=f(x) (для
параметрических моделей f(x,
)) как для плотности
распределения случайной величины
в случае непрерывной
модели, так и для вероятности Р(
=х) в случае дискретной
модели.
1.1. Порядковые статистики и вариационный ряд
выборки
Пусть
X
=(X
1
,...,X
n
)
– выборка объема n из
распределения
L
(
) и
x
=(x
1
,...,x
n
) – наблюдавшееся значение
X
. Каждой реализации
x
выборки
X
можно поставить в
соответствие упорядоченную последовательность
x
(1)
x
(2)
...
x
(n)
(1.1)
13
где x
(1)
=min(x
1
,...,x
n
), x
(2)
- второе по величине значение среди
x
1
,...,x
n
и т.д., x
n
=max(x
1
,...,x
n
).
Обозначим через X
(k)
случайную величину, которая для
каждой реализации
x
выборки
X
принимает значение х
(k)
,
k=1,...,n.
Так
по
выборке
X
определяют
новую
последовательность
случайных
величин
X
(1)
,...,X
(n)
,
называемых
порядковыми статистиками
выборки; при этом
X
(k)
- k-тая
порядковая статистика
, а X
(1)
и X
(n)
-
экстремальные значения выборки.
Из определения порядковых статистик следует, что они
удовлетворяют неравенствам
X
(1)
X
(2)
...
X
(n)
(1.2)
Последовательность (1.2) называют
вариационным
рядом
выборки. Симметричные относительно концов
элементы последовательности (2) X
(m)
и X
(n-m+1)
иногда
называют соответственно m-м
наименьшим
и m-м
наибольшим
значениями выборки (m=1,2,...); при m=1
получаем
экстремальные
значения
выборки.
Итак,
вариационный ряд
- это расположенные в порядке
возрастания их величин элементы выборки. Отметим, что
реализацией
последовательности
(1.2)
является
последовательность (1.1).
1.2. Эмпирическая функция распределения
Распределение выборки
(эмпирическое распределение)
– это распределение вероятностей, которое определяется по
выборке для оценивания истинного распределения.
Определим для каждого действительного х случайную
величину
n
(x),
равную
числу
элементов
выборки
X
=(X
1
,...,X
n
), значения которых не превосходят х, т.е.
n
i
i
n
x
I X
x
( )
(
)
1
, (1.3)
14
где I(A) - индикатор события А {I(A)=1, если А имеет место, и
0 - в противном случае}. Положим F
n
(x)=
n
x
n
( )
.
Функция
F
n
(x)
называется
эмпирической
функцией
распределения
(э.ф.р.), соответствующей выборке
X
.
Функцию распределения F(x) наблюдаемой случайной
величины
называют
теоретической
функцией
распределения.
По своему определению эмпирическая функция
распределения – случайная функция: для каждого х
R
1
значение F
n
(x) есть случайная величина, реализациями которой
являются числа 0, 1/n, 2/n,..., (n-1)/n, n/n=1, при этом
P(F
n
(x)=k/n)=P(
n
(x)=k).
Из определения
n
(х) следует, что
L
(
n
(х))=B
i
(n,p), где
p=P(
x)=F(x). Поэтому
P(F
n
(x)=k/n)=C
n
k
F
k
(x)(1-F(x))
n-k
, k=0,1,...,n. (1.4)
Итак, эмпирическая функция распределения (как и
вариационный ряд) - некоторая сводная характеристика
выборки. Для каждой реализации
x
выборки
X
функция F
n
(x)
однозначно определена и обладает всеми свойствами функции
распределения: изменяется от 0 до 1, не убывает и непрерывна
справа. Она кусочно-постоянна и возрастает только в точках
последовательности (1.1). Если все компоненты вектора
x
различны (в последовательности (1.1) все неравенства
строгие), то F
n
(x) задается соотношениями
.
x
x
,
1
;
x
<
x
<
x
,
;
x
<
x
,
0
)
(
(n)
1)
+
(k
(k)
(1)
n
k
x
F
n
k=1,...,n-1
В этом случае величина скачка равна 1/n и типичный график
функции F
n
(x) представлен на рис.1.1.
15
F
n
(x)
1
1/n
x
(1)
x
(2)
x
(3) . . .
x
(n-1)
x
(n)
Рис. 1.1
В общем виде
эмпирическую функцию распределения
можно записать в виде
F x
n
I X
x
n
I X
x
n
k
k
n
i
i
n
( )
(
)
(
)
( )
1
1
1
1
.
(1.5)
В представлении (1.5) видна зависимость F
n
(x) от выборки
X
.
Эмпирическая
функция
распределения
играет
фундаментальную роль в обработке данных. Важное свойство
эмпирической функции распределения состоит в том, что при
увеличении объема выборки n происходит сближение F
n
(x) с
F(x).
Теорема 1.1: Пусть F
n
(x) - эмпирическая функция
распределения, построенная по выборке
X
=(X
1
,...,X
n
) из
распределения
L
(
), и F(x) - функция распределения
. Тогда
для любого х (-
<x<+
) и любого
>0
lim
( )
( )
n
n
P F x
F x
1
(1.6)
Доказательство: Из (1.4) следует, что F
n
(x)
-
относительная частота события {
x} – («успеха») в n
испытаниях Бернулли с вероятностью «успеха» F(x). Но по
теореме Бернулли [относительная частота произвольного
события в n независимых испытаниях сходится по вероятности