Файл: А.В. Бирюков Индуктивная статистика.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 02.06.2024

Просмотров: 49

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

6

Аналогичным образом решается задача для M выборок с объемами N . В этом случае решение дает статистика

C =

12 (D12 + ... DM2 )

3(MN +1).

MN 2 (MN +1)

Если найденное значение статистики меньше критического (табл. 9), то все выборки принадлежат одной и той же генеральной совокупности.

 

 

 

 

 

 

Таблица 9

M 1

2

3

4

5

6

7

C

6,0

7,8

9,5

11

13

14

M 1

8

9

10

11

12

13

C

16

17

18

20

21

22

M 1

14

15

16

17

18

19

C

24

25

26

28

29

30

M 1

20

21

22

23

24

25

C

31

33

34

35

36

37

Приведем пример сравнения двух выборок по критерию Вилкоксона. Имеются выборки: 1) 1, 1, 3, 4, 5; 2) 1, 2, 6, 7, 8. Элементы объединенной совокупности

1, 1, 1`, 2`, 3, 4, 5, 6`, 7`, 8`

 

имеют ранги 2, 2, 2, 4, 5, 6, 7, 8, 9, 10. При этом C1 =18 ,

C2 = 7 . Иско-

мая статистика C = 7 больше критического значения,

которое при

N = 5 равно 4. Следовательно, обе данные выборки принадлежат одной генеральной совокупности.

3. КОРРЕЛЯЦИЯ

Рассмотрим две случайные величины X и Z , которые из некоторых априорных соображений будем считать связанными друг с другом. Отвлекаясь от истинного характера этой взаимосвязи, остановимся лишь на близости этой зависимости к линейной, называемой корреляцией.

3.1. Коэффициент корреляции

Пусть имеются результаты одновременного наблюдения за двумя случайными величинами


7

(X k , Z k ), k =1,2,...N .

Вычислим статистику

C = (XZ X Z )S 1 S 2 ,

называемую выборочным коэффициентом корреляции. Здесь XZ - среднее произведение, а S1 и S2 – выборочные стандарты.

Эта статистика может принимать значения в интервале от -1 до +1. Если найденное значение превосходит критическое (табл. 10), то корреляция между случайными величинами значима.

N

 

 

 

 

Таблица 10

6

8

10

15

20

C

0,71

0,63

0,58

0,48

0,42

N

30

40

50

70

90

C

0,35

0,30

0,27

0,23

0,20

3.2. Ранговая корреляция

Пусть, как и прежде, имеются пары наблюдений

(X k , Zk ), k =1,2,...N .

Значения Xk и Zk независимо друг от друга расположим по воз-

растанию и ранжируем, приписывая ранги 1, 2, 3 и т.д. в порядке возрастания элементов выборок. Разность рангов у соответствующих друг

другу элементов Xk и Zk обозначим через Ek . Далее вычислим статистику Спирмена

C = 1 6(E12 + ... + EN2 )N (N 2 1).

Корреляция признается значимой, если найденное значение статистики превосходит критическое (табл. 11).

N

 

 

 

 

 

Таблица 11

6

8

10

12

14

16

C

0,77

0,60

0,55

0,50

0,46

0,42

N

18

20

22

24

26

28

C

0,40

0,38

0,36

0,34

0,33

0,32


8

3.3. Адекватность регрессии

Если при проверке гипотезы о корреляции оказалось, что корреляция значима, то правомерно искать линейную зависимость между X и Z , называемую регрессией или регрессионной моделью. Используя метод наименьших квадратов, найдем эту модель в виде

Z = Z +W (X X ),

где угловой коэффициент регрессии равен

W = (XZ X Z )(X 2 X 2 ).

Здесь X , Z – выборочные средние; XZ - среднее произведение;

X 2 – средний квадрат; X 2 – квадрат среднего.

Для проверке адекватности найденной модели необходимо найти две дисперсии – остаточную дисперсию S 2 , характеризующую точ-

ность модели, и дисперсию воспроизводимости S02 , характеризующую

уровень шума, т.е. совокупное влияние случайных факторов. Для вычисления последней необходимо иметь дублирующие (параллельные) наблюдения, т.е. значения Z при фиксированном значении X . Диспер-

сия параллельных наблюдений равна S02 .

Для вычисления остаточной дисперсии найдем сумму квадратов разностей между экспериментальными и вычисленными по модели

значениями Z . Разделив эту сумму на N 2 , где N – число пар на-

блюдений (объем выработки), получим остаточную дисперсию S 2 . Если при сравнении по какому-либо критерию (Пиллаи или Фи-

шера) окажется, что различие между дисперсиями S 2 и S02 незначимо, то найденная регрессионная модель адекватна.

4. ФАКТОРНЫЙ АНАЛИЗ

Рассмотрим некоторый сложный процесс с выходным параметром X . Таким процессом является, например, работа какого-либо предприятия, эффективность которой характеризуется выходным параметром – себестоимостью выпускаемой продукции.

На вариацию значений выходного параметра влияет множество различных факторов. Из некоторых априорных соображений (напри-


F1 , F2 , F3

9

мер, из предыдущего опыта) выделим из множества факторов основную группу, подлежащую изучению. Ограничимся случаем, когда основная группа состоит из двух факторов F , G . Кроме них на выходной параметр оказывает влияние множество случайных факторов. Поэтому общая дисперсия значений выходного параметра является суммой факторных дисперсий и дисперсии случайности, т.е.

S 2 = S12 + S 22 + S 02 .

Задача факторного анализа состоит в представлении общей дисперсии в виде такой суммы, а также в оценке силы влияния каждого фактора. Рассмотрим последовательно факторный анализ с одним и двумя основными факторами.

4.1. Однофакторный анализ

Для конкретности допустим, что фактор F варьируется на трех уровнях и на каждом уровне имеется по три параллельных на-

блюдения. Тогда соответствующая матрица значений выходного параметра имеет вид

X11

X 21

X 31

X12

X 22

X 32

X13

X 23

X 33

Здесь первый индекс у элемента матрицы соответствует уровню фактора. Введем следующие обозначения:

U1 ,U2 ,U3 – сумма элементов в столбцах матрицы;

Q – сумма квадратов всех элементов матрицы;

Q1 = (U12 +U 22 +U 32 )3 ;

P – квадрат суммы всех элементов матрицы, деленный на 9; SF2 – вспомогательная дисперсия.

Тогда имеют место следующие формулы:

S02 =(Q Q1 ) 6 ;

SF2 =(Q1 P) 2.

Если различие между дисперсиями SF2 и S02 , проверяемое по како- му-либо критерию, оказывается значимым, то исследуемый фактор