Файл: А.В. Бирюков Методы анализа и обработки наблюдений.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 02.06.2024

Просмотров: 60

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

10

 

 

 

 

 

Таблица 12

n

6

8

10

15

20

r

0,71

0,63

0,58

0,48

0,42

n

30

40

50

70

90

r

0,35

0,30

0,27

0,23

0,20

 

5.2. Коэффициент ранговой корреляции Спирмена

Пусть имеются пары наблюдений (xi, yi), i=1,2,…,n. Значения xi и yi независимо друг от друга расположим по возрастанию и ранжируем, приписывая ранги 1,2,3 и т.д. в порядке возрастания элементов выборок.

Разность рангов у соответствующих друг другу значений xi и yi обозначим через λI (от ранга xi вычитается ранг yi). Тогда статистика Спирмена r0 [-1;1] имеет вид:

n

r0 =16λi2 / n(n2 1) (5.2)

i=1

Корреляция признается значимой (неслучайной), если найденное значение статистики (5.2) превосходит критическое (табл.13).

Таблица 13

n

6

8

10

12

14

16

r0

0,77

0,60

0,55

0,50

0,46

0,42

n

18

20

22

24

26

28

r0

0,40

0,38

0,36

0,34

0,33

0,32

5.3. Метод наименьших квадратов

При наличии зависимости между случайными величинами х, у естественно искать ее аналитическое выражение у=f(x), называемое уравнением регрессии или регрессионной моделью. Если имеются экспериментальные данные (xi, yi), i=1,2,…, n, т.е. n точек с координатами xi, yi, то через них требуется провести линию так, чтобы сумма квадратов отклонений экспериментальных значений yi от расчетных f(xi) была бы минимальной. Другими словами, требуется найти значения параметров функции y=f(x), при которых величина


11

Q = n [yi f (xi )]2

(5.3)

i=1

 

достигает минимума.

Решение этой задачи осуществляется известными методами поиска минимума функции нескольких переменных. Для этого частные производные от Q по параметрам приравниваются к нулю и решается получившаяся система уравнений относительно параметров.

5.4. Линейная регрессия

Метод наименьших квадратов хорошо иллюстрирует поиск линейной регрессии y=кх+в c двумя параметрами к и в. Для нее величина (5.3) имеет вид:

 

 

Q = n (yi кxi в)2

(5.4)

 

 

i=1

 

Приравнивая к нулю частные производные от Q по параметрам к и

в, получим систему уравнений

 

n

(xi yi кx2 вxi )= 0 ,

 

i=1

i

 

n (yi кx2 в)= 0

(5.5)

i=1

 

i

 

 

 

 

Разделим обе части этих уравнений на объем выборки n и перейдем к средним значениям:

 

__

_

_

 

 

xyкx2

вx = 0 ,

 

 

_ _

 

 

(5.6)

 

yкx в = 0,

_

_

 

 

__

где x ,

y - средние значения величин x, y;

xy - среднее произведение;

_

x2 - средний квадрат.

Второе из уравнений (5.6) показывает, что искомая прямая прохо-

_ _

дит через точку с координатами ( x , y ). Исключая из системы уравне-

ний параметр в, окончательно получим:

_ _

y y = к(x x) ,


 

12

 

 

 

 

 

 

 

 

__

_ _

 

_

_

2

 

к =

 

 

 

 

2

x

 

(5.7)

xyx y

/ x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5.5. Адекватность регрессионной модели

Регрессионная модель y=f(x) адекватна, если она пригодна для прогнозирования величины y по значению величины х. Проверка модели на адекватность основывается на сравнении остаточной дисперсии S2 с

дисперсией случайности S02 . Остаточная дисперсия с числом степеней

свободы f1=n-к имеет вид:

 

n [yi f (xi )]2

 

 

S 2 =

1

,

(5.8)

 

 

n кi=1

 

 

где n – объем выборки, к – число параметров модели.

Для вычисления дисперсии случайности необходимо иметь параллельные наблюдения, т.е. несколько значений yi при фиксированном значении xi. Пусть m – число параллельных наблюдений, а y0 – среднее значение y в группе параллельных наблюдений. Тогда дисперсия случайности с числом степеней свободы f2=m-1 имеет вид:

S02 =

1

m (yi y0 )2.

(5.9)

 

 

m 1i=1

 

Регрессионная модель признается адекватной, если остаточная дисперсия не превосходит дисперсию случайности при их сравнении по какому-либо критерию (например, по критерию Пиллаи). Такое сравне-

ние проводится лишь в случае S 2 > S02. Если же S 2 < S02 , то регрессионная модель адекватна.

6.Временные ряды

6.1.Случайность временного ряда

Временным рядом длины n называется числовая последовательность z1, z2,…, zn, полученная в результате наблюдений за некоторой величиной z через равные промежутки времени. Если значения z подвержены колебаниям, то возникает вопрос, не являются ли эти колебания случайными.

Простейший критерий случайности временного ряда основан на подсчете числа поворотных точек m, т.е. числа пиков и впадин на гра-


13

фическом изображении ряда. Для случайного ряда величина m имеет нормальное распределение с параметрами

_

(6.1)

m = 2(n 2) / 3, σ 2 = (16n 29) / 90,

_

где m , σ2 – среднее и дисперсия случайной величины m. Следовательно, с надежностью 0,95 временной ряд можно считать случайным, т.е. не зависящим от времени, если

_

(6.2)

m m 2σ

6.2. Временной тренд

Временным трендом называется зависимость величины z от времени t, выраженная некоторой функцией z=z(t). Поскольку любую дифференцируемую функцию можно с желаемой точностью аппроксимировать полиномом, то временной тренд обычно представляют в полиномиальном виде. Чаще всего для этого используются полиномы первой или второй степени.

Если временной ряд содержит полиномиальный тренд с наложенной на него случайной компонентой, то было бы естественно исследовать, нельзя ли исключить тренд путем рассмотрения разностных рядов вида

(z2-z1), (z3-z2),…, (zn-zn-1)

(6.3)

Второй разностный ряд получается из первого аналогичным обра-

зом и т.д. Обозначим дисперсию К-го разностного ряда через S2(к) и

рассмотрим вспомогательную дисперсию

 

D(к) = S 2 (к)(к!)2 /(2к)!

(6.4)

С увеличением порядка разностного ряда дисперсия (6.4) убывает. Если начиная с некоторого значения порядка К=К0 это убывание становится незначимым (при сравнении дисперсий, например, по критерию Пиллаи), то число К0-1 равно степени полинома, описывающего временной тренд. При этом разностный ряд порядка К0 является случайным (несодержащим тренд), а его дисперсия S20) есть дисперсия случайности, т.е. дисперсия случайной компоненты временного ряда.

На практике, как было отмечено, для описания временного тренда достаточными оказываются полиномы z=at+в и z=at2+вt+c. Их коэффициенты легко найти методом наименьших квадратов.


14

6.3. Автокорреляция

Для временного ряда z1, z2,…, zn естественным является вопрос о коррелированности значений (z1, z2), (z2, z3),…, (zn-1, zn). Ответ на этот вопрос дает вычисление соответствующего коэффициента корреляции r1. Если окажется, что найденное значение r1, меньше критического, то корреляция между членами ряда отсутствует, т.е. ряд является случайным.

В общем случае можно исследовать корреляцию для пар значений

(z1, zк), (z2, zк+1) и т.д., вычисляя коэффициент корреляции rк. Набор значений rк называют коррелограммой временного ряда, которая со-

держит важную информацию о временных рядах.

7. Планирование эксперимента

Спланированный эксперимент позволяет получить во много раз больше информации об изучаемом объекте по сравнению с пассивными наблюдениями. Здесь мы рассмотрим два случая планирования эксперимента: изучение объекта по схеме «черного ящика» методами дисперсионного анализа и планирование с целью построения многофакторной регрессионной модели.

7.1.Дисперсионный анализ

Рассмотрим некоторый объект, изучение которого детерминированными методами невозможно. Пусть Х – выходной параметр, т.е. основная характеристика объекта, подлежащая изучению. Вариация значений выходного параметра обусловлена влиянием многих факторов. Из каких-либо априорных соображений выделим из них группу основных факторов, а остальные отнесем к случайным.

Для конкретизации дальнейшей схемы рассуждений будем считать основными факторы А,В,С,Д. Сила влияния каждого из них на выход-

ной параметр определяется факторными дисперсиями S12 , S22 , S32 , S42 , а совокупное влияние случайных факторов – дисперсией S02 . Задача пла-

нирования эксперимента состоит в разложении общей дисперсии выходного параметра S2 на сумму факторных дисперсий и дисперсии случайности, т.е.

S2= S 2

+ S 2

+ S 2

+ S 2

+ S 2

(7.1)

1

2

3

4

0