Файл: А.В. Бирюков Индуктивная статистика.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 02.06.2024

Просмотров: 51

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

10

значимо влияет на выходной параметр. При этом факторная дисперсия, определяющая силу этого влияния, равна

S12 = (SF2 S02 )3 .

4.2. Двухфакторный анализ

Рассмотрим влияние на выходной параметр двух факторов F и G , варьируемых на трех уровнях. При этом матрица наблюдений имеет тот же вид, что и раньше. Однако теперь второму индексу элемента матрицы соответствует номер уровня фактора G . Так, например, наблюдение X 23 получено при условии, что фактор F имел второй уро-

вень, а фактор G – третий уровень.

В дополнение к предыдущим величинам рассмотрим величины V1 ,V2 ,V3 , равные суммам элементов строк матрицы, и величину

Q2 = (V12 +V22 +V32 )3 .

Пусть SG2 – вспомогательная дисперсия. Тогда имеют место следующие формулы:

S02 = (Q + P Q1 Q2 )4 ,

SG2 = (Q2 P)2 .

Относительно фактора F вопрос решается как и прежде. Фактор G признается значимым (значимо влияющим на выходной параметр), если дисперсия SG2 значимо превышает дисперсию случайности S02 . При этом факторная дисперсия равна

S22 = (SG2 S02 )3 .

5. ВРЕМЕННЫЕ РЯДЫ

Рассмотрим переменную величину X (t) , зависящую от времени t . Последовательность значений этой переменной X1 , X 2 ,..., X n через рав-

ные промежутки времени называется временным рядом.

Временной ряд можно рассматривать состоящим из двух компонент – из временного тренда и случайной компоненты. Одной из целей


11

анализа временного ряда является разложение его на составляющие компоненты для отдельного их изучения.

Временной тренд объясняется наличием постоянных факторов, действующих в одном и том же направлении. Краткосрочные колебания относительно этого долгосрочного движения происходят из-за совокупности случайных возмущений, обусловливающих появление случайного остатка ряда.

5.1. Критерии случайности

Простейшей гипотезой, которую можно выдвинуть относительно колеблющегося ряда, является предположение, что эти колебания случайны. В случайных рядах наблюдения независимы и могут следовать в любом порядке. Простой критерий случайности временного ряда состоит в подсчете числа поворотных точек, т.е. пиков и впадин. Пик – это член ряда, который больше двух соседних, а впадина – член ряда, который меньше двух соседних.

Если временной ряд случайный, то число его поворотных точек есть нормально распределенная случайная величина со средним значением 2(n 2)3 и дисперсией (16n 29)90 , где n – число элементов ряда. Поэтому временной ряд можно считать случайным, если отклонение фактически наблюдаемого числа поворотных точек от генерального среднего не превышает двух стандартов.

Другой критерий случайности ряда основан на подсчете числа точек роста, т.е. таких членов ряда, для которых предыдущий член меньше данного, а последующий больше данного. У случайного ряда число точек роста является нормально распределенной случайной величиной со средним значением (n 1)2 и дисперсией (n +1)12 . Поэтому данный ряд случайный, если наблюдаемое число точек роста отклоняется от генерального среднего не более чем на два стандарта.

5.2. Выделение временного тренда

Обнаружить наличие или отсутствие временного тренда можно

следующим образом. Для данного ряда

X1 ,..., X n подсчитаем число всех

случаев, в которых X k > X i при

k > i .

Для случайного ряда среднее

число таких случаев равно n(n 1)

4 . Если фактическое число рассмат-


12

риваемых случаев значимо превышает это среднее, то имеется возрастающий тренд, а если оно значимо меньше среднего, то имеется убывающий тренд.

При наличии тренда естественно возникает вопрос об аппроксимации функции X (t) полиномом некоторой степени. В подавляющем большинстве случаев оказываются достаточными полиномы первой и второй степени. Для исследования временного ряда в этом плане рассмотрим разностные ряды

Z1 = X2 X1 , Z2 = X3 X2 ,..., Zn1 = Xn Xn1 ;

V1 = Z2 Z1 ,V2 = Z3 Z2 ,...,Vn2 = Zn1 Zn2 .

Обозначим дисперсию исходного временного ряда через S2 , а дисперсию разностных рядов – соответственно через S12 и S22 . Сравниваем дисперсии S2 и S12 2 по какому-либо критерию (Пиллаи или Фишера). Если окажется, что они отличаются незначимо, то временной тренд отсутствует, т.е. данный ряд является случайным. Если же дисперсии отличаются значимо, то выполняем следующий этап исследования, а именно сравниваем дисперсии S12 2 и S22 6 . При незначимом их отличии друг от друга делаем заключение: временной тренд является линейным. В этом случае функцию X (t) легко найти методом наименьших квадратов. Если же эти дисперсии отличаются значимо, то описание временного тренда дает полином второй степени.

6. СТАТИСТИЧЕСКИЕ ИСПЫТАНИЯ

Как уже отмечалось, индуктивная статистика предполагает наличие репрезентативной выборки. Такую выборку можно получить либо путем проведения физических опытов и непосредственных наблюдений, либо методом статистических испытаний (методом Монте-Карло). Рассмотрим применение метода на примере изучения случайных графов.

Пусть имеется граф A(n, m) с n вершинами и m ребрами. Две вершины графа называются смежными, если они соединены ребром. Допустим, что вероятность смежности любых двух вершин равна P . Тогда число ребер m становится случайной величиной, имеющей биноминальное распределение.


13

Число вершин графа называется его порядком. Рассмотрим, например, граф десятого порядка, у которого вероятность смежности вершин равна 0,2; 0,3; …; 0,8. Компьютерное моделирование случайности осуществим путем выбора значений вероятности из равномерного распределения на отрезке от 0 до 1.

У данного графа число всех пар вершин составляет n(n 1)2 = 45 . Для каждой пары вершин генерируем вероятность. Если она окажется меньше заданной, то вершины являются смежными, т.е. соединенные ребром. Для каждой заданной вероятности испытание повторим 100 раз.

В серии параллельных испытаний будем фиксировать: наименьшее и наибольшее число ребер M1 , M1 ; количество связных графов C ; наибольшее число связных компонент N . Соответствующие результаты испытаний приведены в табл. 12.

Таблица 12

P

M1

M1

C

N

0,2

4

16

21

6

0,3

8

20

68

3

0,4

10

26

93

2

0,5

14

28

98

2

0,6

19

34

99

2

0,7

24

38

100

1

0,8

27

42

100

1

Как видно из таблицы, начиная с вероятности 0,7 все графы в серии параллельных испытаний становятся связными. О симметричности выборочных распределений говорит тот факт, что все средние значения случайной величины m практически совпадают с центрами соответствующих интервалов.

7. ПЛАНИРОВАНИЕ ЭКСПЕРИМЕНТА

Рассмотрим метод построения многофакторной регрессионной модели путем такого планирования эксперимента, когда все факторы варьируются на двух уровнях – верхнем (+1) и нижнем (-1). Конкретизируем это рассмотрение на примере двух факторов X1 и X 2 , влияющих на выходной параметр Z .


14

При планировании эксперимента натуральные значения факторов переводятся в кодирование по формулам:

(2 X1 A1 B1 )(B1 A1 ), X1 (A1 , B1 ),

(2 X 2 A2 B2 )(B2 A2 ), X 2 (A2 , B2 ),

где интервалы (A1 , B1 ) и (A2 , B2 ) охватывают весь рабочий диапазон изменения значений факторов.

На концах интервалов, как нетрудно видеть, факторы принимают кодированные значения (+1) и (-1), которые для простоты обычно обозначают знаками (+) и (-). Поэтому план двухфакторного эксперимента можно представить матрицей

X1

X 2

X1 X 2

Z

1)

+

+

+

Z1

2)

-

+

-

Z2

3)

+

-

-

Z3

4)

-

-

+

Z4

Эта матрица содержит четыре опыта, проведенные при всех комбинациях уровней факторов. Так, например, опыт №3 проведен при условии, что первый фактор находится на верхнем уровне, а второй – на нижнем уровне.

В матрице имеется также столбец, соответствующий произведению факторов, и столбец значений выходного параметра. Такой эксперимент, называемый полным факторным экспериментом, позволяет построить регрессионную модель вида

Z = H0 +H1 X1 +H2 X2 +H12 X1 X2 ,

где коэффициенты H1 , H 2 называются линейными эффектами факторов, а коэффициент H12 – эффектом парного взаимодействия факторов.

Коэффициенты модели (функции отклика) вычисляются по формулам

H 0 = (Z1 + Z2 + Z3 + Z4 ) 4 ,

H1 = (Z1 Z2 + Z3 Z4 ) 4 ,

H 2

= (Z1 + Z2 Z3 Z4 ) 4 ,

H3

= (Z1 Z2 Z3 + Z4 ) 4 .

Построенная таким образом функция отклика всегда имеет нулевую остаточную дисперсию, т.е. всегда является адекватной.