ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 06.04.2021

Просмотров: 967

Скачиваний: 1

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
background image

 

16 

 

при  n



  к  вероятности  этого  события],  F

n

(x)

P

 

F(x),  т.е. 

имеет место равенство (1.6) ▓ 

Замечание.

 Если объем выборки большой, то значение 

эмпирической  функции  распределения    в  каждой  точке  х 
может  служить  приближенным  значением  (

оценкой

теоретической функции распределения в этой точке. Функцию 
F

n

(x) назвают еще 

статистическим аналогом 

для F(x). 

Более  глубокие  свойства  эмпирической  функции 

распределения  проявляются, если рассматривать ее поведение 
не  в  отдельной  фиксированной  точке  х,  а  в  произвольной 
конечной совокупности точек x

1

<x

2

<...<x

n

. В частности, важно 

знать отклонения эмпирической функции распределения  F

n

(x) 

от  F(x)  на  всей  оси.  Известен  результат,  принадлежащий 
Гливенко В.И. 

Теорема 1.2 (Гливенко):  В условиях теоремы 1.1 

 

P

F x

F x

n

x

n

lim sup

( )

( )

  



 

0

1

                  (1.7) 

Другими  словами,  соотношение  (1.7)  означает,  что 

отклонение D

n

= D

n

(

X

)=

sup

( )

( )

 

x

n

F x

F x

 

эмпирической  функции  распределения    от  F(x)  на  всей  оси  с 
вероятностью  1  будет  сколь  угодно  мало  при  n



  (при 

достаточно большом объеме выборки).  

Рассмотрим  теорему,  которая  позволяет  для  больших  n 

оценивать  вероятности  заданных  отклонений  случайной 
величины. D

n

 от 0. 

Теорема  1.3  (Колмогорова):  Если  функция  F(x) 

непрерывна, то при любом фиксированном t>0 

lim

( )

( )

n

n

i

i t

i

P nD

t

K t

e





 

1

2

2 2

   (1.8) 

Предельную  функцию  распределения  К(х)  можно  с  хорошим 
приближением  использовать  для  практических  расчетов  уже 
при  n

20.  Теорему  Колмогорова  применяют  для  того,  чтобы 


background image

 

17 

 

определить  границы,  в  которых  с  заданной  вероятностью 
находится  теоретическая  функция  распределения  F(x),  если 
она  неизвестна.  Пусть  для  заданного 



(0,1)  число  t

 

определяется уравнением   K(t

)=

Тогда из (1.8) имеем: 

 





)

(

 

 

,

)

(

)

(

)

(

)

(

t

K

n

t

x

F

x

F

n

t

x

F

P

t

D

n

P

n

n

n

n

 

Таким  образом,  при  n



  с  вероятностью,  близкой  к 

значения  функции  F(x)  для  всех  х  удовлетворяют 
неравенствам 

F x

t

n

F x

F x

t

n

n

n

( )

( )

( )

 

Так как 0

F(x)

1, эти неравенства можно уточнить: 

max , ( )

( ) min

( )

,

0

1

F x

t

n

F x

F x

t

n

n

n





 







Область,  определяемая  этими  нижней  и  верхней 

границами,  называется 

асимптотической 

-доверительной 

зоной

  для  теоретической  функции  распределения.  Для 

определения  числовых  значений  t

  при  различных 

  можно 

воспользоваться табулированными значениями функции K(t). 

Теорема  1.4  (Смирнова):  Пусть  F

1n

(x)  и  F

2m

(x)  -  две 

эмпирические функции распределения, построенные на основе 
двух независимых выборок объемом n и m из одного и того же 
распределения 

L

(

), и  D

n,m

=

sup

( )

( )

 

x

n

m

F x

F

x

1

2

Тогда,  если  теоретическая  функция  распределения  F(x) 
непрерывна, то для любого фиксированного t>0 

lim

(

)

( )

,

,

n m

n m

P

nm

n m D

t

K t





 

где функция K(t) определена равенством (1.8). 


background image

 

18 

 

Эту 

теорему 

используют 

для 

проверки 

гипотезы 

(предположения) о том, что две выборки получены из одного и 
того же распределения. 
 

1.3. Гистограмма и полигон частот 
 

Итак,  эмпирическая  функция  распределения  –  удобный 

способ  представления  статистических  данных  (выборки 

X

). 

Он  позволяет  делать  выводы  о  распределении  наблюдаемой 
случайной  величины 

,  когда  оно  неизвестно.  По 

эмпирической  функции  распределения.  F

n

(x)  при  n



  со 

сколь  угодно  высокой  точностью  можно  восстановить 
неизвестную теоретическую функцию распределения F(x). 

Рассмотрим 

другие 

способы 

представления 

статистических  данных.  Пусть  наблюдаемая  случайная 
величина 

  дискретна  и  принимает  значения  x

1

,x

2

,... 

Представление  о  законе  распределения 

  дадут  частоты 

r

/n, 

где 

r

  -  число  элементов  выборки 

X

=(X

1

,...,X

n

),  принявших 

значение x

r

r

i

r

i

n

I X

x

(

)

1

         В этом случае, по теореме Бернулли, при n



 

r

P

r

n

P

x

 

(

),   r = 1,2,...

 

Пусть 

  -  непрерывная  случайная  величина  и  имеет 

непрерывную  плотность  распределения  f(x).  Рассмотренную 
методику  применим  для  оценивания  неизвестной  плотности. 
Это  осуществляется  с  помощью 

метода  группировки 

наблюдений

  (или  метода  группировки  данных),  который 

состоит в следующем. 

Пусть  {

r

}  -  некоторое  разбиение  области 

  возможных 

значений 

=

r

r

i



j

=

,  i

j  и 

r

=

I

j

n

1

(X

j



r

)  -  число 


background image

 

19 

 

выборочных  точек  [элементов  выборки 

X

=(X

1

,X

2

,...,X

n

)], 

попавших в интервал 

r

. Тогда при n



, по теореме Бернулли, 

   

 

r

P

n

 

P(



r

)=

f x dx

r

( )

По  теореме  о  среднем  значении,  последний  интеграл 

равен 



r

f(x

r

), где x

r

 некоторая внутренняя точка интервала 

r

а 



r

 - его длина. Обычно интервалы выбираются одинаковой 

длины,  и  если  длина  интервала  мала,  то  в  качестве  x

r

  берут 

середину  интервала.  Поэтому  можно  считать   

r

n

 

r

f(x

r

или 

r

r

n

f x

( )

.                                          (1.9) 

Построим 

теперь 

кусочно-постоянную 

функцию 

f x

n

r

r

( )

,  при  x



r

,  r=1,2,...,  называемую 

гистограммой

При  n



  и  достаточно  мелком  разбиении  {

r

}  гистограмма 

f

n

(x)  будет  оценкой  f(x)  -  теоретической  плотности.  Если 

плотность  достаточно  гладкая  функция,  то  ее  лучше 
приблизить  кусочно-линейными  графиками.  Оценка  гладких 
f(x) основама на построении 

полигона частот

. Полигон частот 

-  это  ломанная,  которую  строят  так:  если  построена 
гистограмма,  то  ординаты,  соответствующие  средним  точкам 
интервалов,  последовательно  соединяют  отрезками  прямых. 
Такой  кусочно-линейный  график  является  статистическим 
аналогом (оценкой) теоретической плотности (рис. 1.2.). 

 

f

n

(x)  

 
 

 

1

     

2

      

3

                   

 

Рис. 1.2 


background image

 

20 

 

Высота  определяется  формулой  (1.9),  а  основание  - 

длина интервала разбиения. 

 

1.4. Определения и свойства выборочных 

характеристик 

Пусть 

X

=(X

1

,X

2

,...,X

n

)  -  выборка  из  распределения 

L

(

). 

F(x)  и  F

n

(x)  -  соответственно  теоретическая  и  эмпирическая 

функции  распределения.  Точно  так  же,  как    функции  F(x) 
ставят 

в 

соответствие 

F

n

(x), 

любой 

теоретической 

характеристике 

g

g x dF x

( ) ( )

 

можно 

поставить 

в 

соответствие 

ее 

статистический 

аналог 

G=G(

X

), 

определяемый по формуле 

G

g x dF x

n

g X

i

i

n

( ) ( )

(

)

1

1

Случайную  величину  G  называют 

эмпирической 

или 

выборочной 

характеристикой

соответствующей 

теоретической  характеристике  g.  Таким  образом,  выборочная 
характеристика  -  это  среднее  арифметическое  значение 
функции g(x) для элементов выборки 

X

. Если g(x)=x

k

, то G - 

выборочный момент k-го порядка

, обозначается A

k

 

A

A

A X

n

X

k

k

k

i

k

i

n

*

( )

1

1

 

(1.10) 

(значение начального момента k-го порядка 

k

i

k

i

n

n

x

*

1

1

). 

При  k=1  величину  A

k

  называют 

выборочным  средним

  и 

обозначают 

X A

n

X

i

i

n

1

1

1

Значения  случайных  величин  A

k

  и 

X

  для  данной  реализации 

x

 выборки 

X

 обозначают строчными буквами a

k

 и 

x

= a

1

Выборочным  центральным  моментом  k-го  порядка 

называют случайную величину