ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 02.06.2024
Просмотров: 67
Скачиваний: 0
10
|
|
|
|
|
Таблица 12 |
n |
6 |
8 |
10 |
15 |
20 |
r |
0,71 |
0,63 |
0,58 |
0,48 |
0,42 |
n |
30 |
40 |
50 |
70 |
90 |
r |
0,35 |
0,30 |
0,27 |
0,23 |
0,20 |
|
5.2. Коэффициент ранговой корреляции Спирмена |
Пусть имеются пары наблюдений (xi, yi), i=1,2,…,n. Значения xi и yi независимо друг от друга расположим по возрастанию и ранжируем, приписывая ранги 1,2,3 и т.д. в порядке возрастания элементов выборок.
Разность рангов у соответствующих друг другу значений xi и yi обозначим через λI (от ранга xi вычитается ранг yi). Тогда статистика Спирмена r0 [-1;1] имеет вид:
n
r0 =1−6∑λi2 / n(n2 −1) (5.2)
i=1
Корреляция признается значимой (неслучайной), если найденное значение статистики (5.2) превосходит критическое (табл.13).
Таблица 13
n |
6 |
8 |
10 |
12 |
14 |
16 |
r0 |
0,77 |
0,60 |
0,55 |
0,50 |
0,46 |
0,42 |
n |
18 |
20 |
22 |
24 |
26 |
28 |
r0 |
0,40 |
0,38 |
0,36 |
0,34 |
0,33 |
0,32 |
5.3. Метод наименьших квадратов
При наличии зависимости между случайными величинами х, у естественно искать ее аналитическое выражение у=f(x), называемое уравнением регрессии или регрессионной моделью. Если имеются экспериментальные данные (xi, yi), i=1,2,…, n, т.е. n точек с координатами xi, yi, то через них требуется провести линию так, чтобы сумма квадратов отклонений экспериментальных значений yi от расчетных f(xi) была бы минимальной. Другими словами, требуется найти значения параметров функции y=f(x), при которых величина
11
Q = ∑n [yi − f (xi )]2 |
(5.3) |
i=1 |
|
достигает минимума.
Решение этой задачи осуществляется известными методами поиска минимума функции нескольких переменных. Для этого частные производные от Q по параметрам приравниваются к нулю и решается получившаяся система уравнений относительно параметров.
5.4. Линейная регрессия
Метод наименьших квадратов хорошо иллюстрирует поиск линейной регрессии y=кх+в c двумя параметрами к и в. Для нее величина (5.3) имеет вид:
|
|
Q = ∑n (yi −кxi −в)2 |
(5.4) |
|
|
i=1 |
|
Приравнивая к нулю частные производные от Q по параметрам к и |
|||
в, получим систему уравнений |
|
||
∑n |
(xi yi −кx2 −вxi )= 0 , |
|
|
i=1 |
i |
|
|
∑n (yi −кx2 −в)= 0 |
(5.5) |
||
i=1 |
|
i |
|
|
|
|
Разделим обе части этих уравнений на объем выборки n и перейдем к средним значениям:
|
__ |
_ |
_ |
|
|
xy−кx2 |
−вx = 0 , |
|
|
|
_ _ |
|
|
(5.6) |
|
y−кx −в = 0, |
|||
_ |
_ |
|
|
__ |
где x , |
y - средние значения величин x, y; |
xy - среднее произведение; |
_
x2 - средний квадрат.
Второе из уравнений (5.6) показывает, что искомая прямая прохо-
_ _
дит через точку с координатами ( x , y ). Исключая из системы уравне-
ний параметр в, окончательно получим:
_ _
y − y = к(x − x) ,
|
12 |
|
|
|
|
|
|
|
|
__ |
_ _ |
|
_ |
_ |
2 |
|
|
к = |
|
|
|
|
2 |
− x |
|
(5.7) |
xy− x y |
/ x |
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
5.5. Адекватность регрессионной модели
Регрессионная модель y=f(x) адекватна, если она пригодна для прогнозирования величины y по значению величины х. Проверка модели на адекватность основывается на сравнении остаточной дисперсии S2 с
дисперсией случайности S02 . Остаточная дисперсия с числом степеней
свободы f1=n-к имеет вид: |
|
∑n [yi − f (xi )]2 |
|
|
S 2 = |
1 |
, |
(5.8) |
|
|
||||
|
n −кi=1 |
|
|
где n – объем выборки, к – число параметров модели.
Для вычисления дисперсии случайности необходимо иметь параллельные наблюдения, т.е. несколько значений yi при фиксированном значении xi. Пусть m – число параллельных наблюдений, а y0 – среднее значение y в группе параллельных наблюдений. Тогда дисперсия случайности с числом степеней свободы f2=m-1 имеет вид:
S02 = |
1 |
∑m (yi − y0 )2. |
(5.9) |
|
|||
|
m −1i=1 |
|
Регрессионная модель признается адекватной, если остаточная дисперсия не превосходит дисперсию случайности при их сравнении по какому-либо критерию (например, по критерию Пиллаи). Такое сравне-
ние проводится лишь в случае S 2 > S02. Если же S 2 < S02 , то регрессионная модель адекватна.
6.Временные ряды
6.1.Случайность временного ряда
Временным рядом длины n называется числовая последовательность z1, z2,…, zn, полученная в результате наблюдений за некоторой величиной z через равные промежутки времени. Если значения z подвержены колебаниям, то возникает вопрос, не являются ли эти колебания случайными.
Простейший критерий случайности временного ряда основан на подсчете числа поворотных точек m, т.е. числа пиков и впадин на гра-
13
фическом изображении ряда. Для случайного ряда величина m имеет нормальное распределение с параметрами
_ |
(6.1) |
m = 2(n −2) / 3, σ 2 = (16n −29) / 90, |
_
где m , σ2 – среднее и дисперсия случайной величины m. Следовательно, с надежностью 0,95 временной ряд можно считать случайным, т.е. не зависящим от времени, если
_ |
(6.2) |
m −m ≤ 2σ |
6.2. Временной тренд
Временным трендом называется зависимость величины z от времени t, выраженная некоторой функцией z=z(t). Поскольку любую дифференцируемую функцию можно с желаемой точностью аппроксимировать полиномом, то временной тренд обычно представляют в полиномиальном виде. Чаще всего для этого используются полиномы первой или второй степени.
Если временной ряд содержит полиномиальный тренд с наложенной на него случайной компонентой, то было бы естественно исследовать, нельзя ли исключить тренд путем рассмотрения разностных рядов вида
(z2-z1), (z3-z2),…, (zn-zn-1) |
(6.3) |
Второй разностный ряд получается из первого аналогичным обра- |
|
зом и т.д. Обозначим дисперсию К-го разностного ряда через S2(к) и |
|
рассмотрим вспомогательную дисперсию |
|
D(к) = S 2 (к)(к!)2 /(2к)! |
(6.4) |
С увеличением порядка разностного ряда дисперсия (6.4) убывает. Если начиная с некоторого значения порядка К=К0 это убывание становится незначимым (при сравнении дисперсий, например, по критерию Пиллаи), то число К0-1 равно степени полинома, описывающего временной тренд. При этом разностный ряд порядка К0 является случайным (несодержащим тренд), а его дисперсия S2(К0) есть дисперсия случайности, т.е. дисперсия случайной компоненты временного ряда.
На практике, как было отмечено, для описания временного тренда достаточными оказываются полиномы z=at+в и z=at2+вt+c. Их коэффициенты легко найти методом наименьших квадратов.
14
6.3. Автокорреляция
Для временного ряда z1, z2,…, zn естественным является вопрос о коррелированности значений (z1, z2), (z2, z3),…, (zn-1, zn). Ответ на этот вопрос дает вычисление соответствующего коэффициента корреляции r1. Если окажется, что найденное значение r1, меньше критического, то корреляция между членами ряда отсутствует, т.е. ряд является случайным.
В общем случае можно исследовать корреляцию для пар значений
(z1, zк), (z2, zк+1) и т.д., вычисляя коэффициент корреляции rк. Набор значений rк называют коррелограммой временного ряда, которая со-
держит важную информацию о временных рядах.
7. Планирование эксперимента
Спланированный эксперимент позволяет получить во много раз больше информации об изучаемом объекте по сравнению с пассивными наблюдениями. Здесь мы рассмотрим два случая планирования эксперимента: изучение объекта по схеме «черного ящика» методами дисперсионного анализа и планирование с целью построения многофакторной регрессионной модели.
7.1.Дисперсионный анализ
Рассмотрим некоторый объект, изучение которого детерминированными методами невозможно. Пусть Х – выходной параметр, т.е. основная характеристика объекта, подлежащая изучению. Вариация значений выходного параметра обусловлена влиянием многих факторов. Из каких-либо априорных соображений выделим из них группу основных факторов, а остальные отнесем к случайным.
Для конкретизации дальнейшей схемы рассуждений будем считать основными факторы А,В,С,Д. Сила влияния каждого из них на выход-
ной параметр определяется факторными дисперсиями S12 , S22 , S32 , S42 , а совокупное влияние случайных факторов – дисперсией S02 . Задача пла-
нирования эксперимента состоит в разложении общей дисперсии выходного параметра S2 на сумму факторных дисперсий и дисперсии случайности, т.е.
S2= S 2 |
+ S 2 |
+ S 2 |
+ S 2 |
+ S 2 |
(7.1) |
1 |
2 |
3 |
4 |
0 |
|