ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 24.10.2023

Просмотров: 261

Скачиваний: 5

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

30
Глава 2. Множественная линейная регрессия
т. е. имеет место совокупное воздействие факторов друг на друга. Наличие муль- тиколлинеарности факторов может означать, что некоторые факторы будут всегда действовать в унисон. В результате вариация в исходных данных перестает быть полностью независимой и нельзя оценить воздействие каждого фактора в отдель- ности.
Для оценки мультиколлинеарности факторов может использоваться определи- тель матрицы парных коэффициентов корреляции между факторами (межфактор- ная корреляция).
R =
⎡⎢
⎢⎢
⎢⎢
⎢⎢

r
x
1
r
x
1
r
x
1
r
x
2
. . . r
x
1
r
x
m
r
x
2
r
x
1
r
x
2
r
x
2
. . . r
x
2
r
x
m
. . .
. . .
. . .
. . .
r
x
m
r
x
1
r
x
m
r
x
2
. . . r
x
m
r
x
m
⎤⎥
⎥⎥
⎥⎥
⎥⎥

=
⎡⎢
⎢⎢
⎢⎢
⎢⎢

1
r
x
1
r
x
2
. . . r
x
1
r
x
m
r
x
2
r
x
1 1
. . . r
x
2
r
x
m
. . .
. . .
. . .
. . .
r
x
m
r
x
1
r
x
m
r
x
2
. . .
1
⎤⎥
⎥⎥
⎥⎥
⎥⎥

.
Чем ближе к нулю определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность между факторами и тем ненадежнее результаты множественной регрессии. С другой стороны, чем ближе к единице определитель матрицы межфакторной корреляции, тем меньше мультиколлинеарность факторов.
Для преодоления явления линейной зависимости между факторами использу- ются такие подходы, как:
ˆ исключение из модели одного или нескольких коррелированных факторов;
ˆ увеличение объема выборки;
ˆ преобразование факторов, при котором уменьшается корреляция между ними.
Например, для модели
̂y = a + b
1
x
1
+ b
2
x
2
+ b
3
x
3
возможным путем учета внутренней корреляции факторов является переход к совмещенным уравнениям регрессии, т. е. к уравнениям, которые отражают не только влияние факторов, но и их взаимодействие.
̂y = a + b
1
x
1
+ b
2
x
2
+ b
3
x
3
+ b
12
x
1
x
2
+ b
13
x
1
x
3
+ b
23
x
2
x
3
.
Рассматриваемое уравнение включает взаимодействие первого порядка (вза- имодействие двух факторов). Возможно включение в модель и взаимодействий более высокого порядка, если будет доказана их статистическая значимость, но,
как правило, взаимодействия третьего и более высоких порядков оказываются ста- тистически незначимыми.
Отбор факторов, включаемых в регрессию, является одним из важнейших эта- пов практического использования методов регрессии. Подходы к отбору факторов на основе показателей корреляции могут быть разные. Они приводят построение уравнения множественной регрессии соответственно к разным методикам. В зави- симости от того, какая методика построения уравнения регрессии принята, меня- ется алгоритм ее решения на ЭВМ. Следует также учитывать ограничение, накла- дываемое на количество факторов, имеющимся числом наблюдений. Количество наблюдений должно превышать количество факторов более чем в 6–7 раз.


2.3 Оценка параметров уравнения множественной линейной регрессии
31
2.3 Оценка параметров уравнения множественной линейной регрессии
Рассмотрим линейную модель множественной регрессии:
y = a + b
1
x
1
+ b
2
x
2
+ . . . + b
m
x
m
+ ε.
Для оценки параметров уравнения множественной линейной регрессии при- меняется метод наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значе- ний результативного признака y от расчетных
̂y минимальна:
Q =
n

i=1
(y
i

̂y
x
i
)
2
→ min.
С учетом формулы уравнения множественной линейной регрессии величина Q
определена как функция неизвестных параметров a и b
i
Q
(a, b
1
, b
2
, . . ., b
m
) =
n

i=1
(y
i
a b
1
x
1
b
2
x
2
. . . b
m
x
m
)
2
.
Необходимым условием минимизации функции Q является равенство нулю частных производных первого порядка по каждому из параметров b
i
. Результатом является следующая система уравнений:
⎧⎪⎪⎪⎪
⎪⎪⎪⎪⎪
⎪⎪⎪⎪⎪
⎨⎪⎪⎪
⎪⎪⎪⎪⎪
⎪⎪⎪⎪⎪
⎪⎩
Q
a
= −2
n

i=1
(y
i
a b
1
x
1
b
2
x
2
. . . b
m
x
m
),
Q
b
1
= −2b
1
n

i=1
(y
i
a b
1
x
1
b
2
x
2
. . . b
m
x
m
),
. . .,
Q
b
m
= −2b
m
n

i=1
(y
i
a b
1
x
1
b
2
x
2
. . . b
m
x
m
).
После выполнения преобразований приходим к системе линейных нормаль- ных уравнений для нахождения параметров линейного уравнения множественной регрессии:
⎧⎪⎪⎪⎪
⎪⎪⎪
⎨⎪⎪⎪
⎪⎪⎪⎪

na + b
1
x
1
+ b
2
x
2
+ . . . + b
m
x
m
=
y,
a
x
1
+ b
1
x
2 1
+b
2
x
1
x
2
+ . . . + b
m
x
1
x
m
=
yx
1
,
. . .,
a
x
m
+ b
1
x
1
x
m
+ b
2
x
2
x
m
+ . . . + b
m
x
2
m
=
yx
m
.
Пример 2.1
Построить уравнение множественной регрессии, выражающее оценку стоимо- сти группы небольших офисных зданий в деловом районе. Данные представлены в таблице 2.2.


32
Глава 2. Множественная линейная регрессия
Таблица 2.2 – Исходные данные для примера 2.1
Общая
площадь
в квадратных
метрах (x
1
)
Коли-
чество
офисов
(x
2
)
Количество входов
(0,5 входа означает
вход только для
доставки коррес-
понденции) (x
3
)
Время
эксплуатации
здания
в годах (x
4
)
Оценочная
цена
здания
под офис (y)
2310 2
2 20 142 000 2333 2
2 12 144 000 2356 3
1,5 33 151 000 2379 3
2 43 150 000 2402 2
3 53 139 000 2425 4
2 23 169 000 2448 2
1,5 99 126 000 2471 2
2 34 142 900 2494 3
3 23 163 000 2517 4
4 55 169 000 2540 2
3 22 149 000
Запишем систему нормальных уравнений для четырехфакторной модели:
⎧⎪⎪⎪⎪
⎪⎪⎪⎪⎪
⎪⎨
⎪⎪⎪⎪⎪
⎪⎪⎪⎪⎪

na + b
1
x
1
+ b
2
x
2
+ b
3
x
3
+ b
4
x
4
=
y,
a
x
1
+ b
1
x
2 1
+b
2
x
1
x
2
+ b
3
x
1
x
3
+ b
4
x
1
x
4
=
yx
1
,
a
x
2
+ b
1
x
1
x
2
+b
2
x
2 2
+ b
3
x
1
x
3
+ b
4
x
1
x
4
=
yx
2
,
a
x
3
+ b
1
x
1
x
3
+b
2
x
2
x
3
+ b
3
x
2 3
+ b
4
x
1
x
4
=
yx
3
,
a
x
4
+ b
1
x
1
x
4
+b
2
x
2
x
4
+ b
3
x
3
x
4
+ b
4
x
2 4
=
yx
4
.
Вычислив соответствующие суммы, получаем:
⎧⎪⎪⎪⎪
⎪⎪⎪⎪⎪
⎪⎪⎪⎪
⎨⎪⎪⎪
⎪⎪⎪⎪⎪
⎪⎪⎪⎪⎪

11 ⋅ a + 26 675 ⋅ b
1
+ 29 ⋅ b
2
+ 26 ⋅ b
3
+ 417 ⋅ b
4
=
1 644 900,
26 675 ⋅ a + 64 745 065 ⋅ b
1
+ 70 463 ⋅ b
2
+ 63 418 ⋅ b
3
+
+1 015 365 ⋅ b
4
=
3 992 189 900,
29 ⋅ a + 70 463 ⋅ b
1
+ 83 ⋅ b
2
+ 70,5 ⋅ b
3
+ 1089 ⋅ b
4
=
4 429 800,
26 ⋅ a + 63 418 ⋅ b
1
+ 70,5 ⋅ b
2
+ 67,5 ⋅ b
3
+ 976 ⋅ b
4
=
3 940 300,
417 ⋅ a + 1 015 365 ⋅ b
1
+ 1089 ⋅ b
2
+ 976 ⋅ b
3
+ 21 815 ⋅ b
4
=
60 909 600.
Решение данной системы уравнений можно выполнить различными способами.
1. Вычислим оценки параметров модели
̂y = a + b
1
x
1
+ b
2
x
2
+ b
3
x
3
+ b
4
x
4
,
решая систему методом определителей:
a =

a

=
3,93346 ⋅ 10 15 75 183 958 894
=
52 317,8;
b
1
=

b
1

=
2,07819 ⋅ 10 12 75 183 958 894
=
27,64;


2.3 Оценка параметров уравнения множественной линейной регрессии
33
b
2
=

b
2

=
9,42038 ⋅ 10 14 75 183 958 894
=
12 529,8;
b
3
=

b
3

=
1,9196 ⋅ 10 14 75 183 958 894
=
2553,21;
b
4
=

b
4

=
−1,76109 ⋅ 10 13 75 183 958 894
= −234,24.
2. Оценим параметры модели
̂y = a + b
1
x
1
+ b
2
x
2
+ b
3
x
3
+ b
4
x
4
с помощью матричных операций. Введем обозначения:
B =
⎡⎢
⎢⎢
⎢⎢
⎢⎢

a
b
1
. . .
b
m
⎤⎥
⎥⎥
⎥⎥
⎥⎥

,
Y =
⎡⎢
⎢⎢
⎢⎢
⎢⎢

y
1
y
2
. . .
y
n
⎤⎥
⎥⎥
⎥⎥
⎥⎥

,
X =
⎡⎢
⎢⎢
⎢⎢
⎢⎢

1
x
11
. . . x
m1 1
x
12
. . . x
m2
. . . . . . . . .
. . .
1
x
1n
. . . x
mn
⎤⎥
⎥⎥
⎥⎥
⎥⎥

,
где B — матрица-столбец, размерностью
(m+1×1) параметров уравнения регрессии;
Y — матрица-столбец размерностью
(n×1) наблюдений зависимой переменной; X
матрица размерностью
(m+1×n) исходных значений независимых переменных x
ji
,
в которой первый столбец из единиц можно рассматривать как значение «фиктив- ной» переменной при коэффициенте a.
В этих обозначениях уравнение регрессии записывается следующим образом:
Y = XB + ε,
где
ε = Y XB — вектор-столбец остатков регрессии.
По условию применения метода наименьших квадратов минимизируется функ- ционал Q =
∑ ε
2
i
, который можно записать как произведение вектора-строки
ε

на вектор-столбец
ε:
Q =
ε

⋅ ε =
(Y X B)


(Y X B).
Дифференцирование Q по вектору B приводит к выражению:
Q
B
= −2 ⋅ X

Y + 2 ⋅
(X

X
)
−1
B,
которое приравнивается к нулю. В результате последующих преобразований полу- чаем выражение для вычисления параметров уравнения регрессии:
B =
(X

X
)
−1
X

Y.
Здесь X

— транспонированная матрица X ;
(X

X
)
−1
— матрица, обратная к X

X .

34
1   2   3   4   5   6   7   8   9   ...   13

Глава 2. Множественная линейная регрессия
Для таблицы 2.1 определим матрицы:
B =
⎡⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎢

a
b
1
b
2
b
3
b
4
⎤⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎥

,
Y =
⎡⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎣
142 000 144 000 151 000 150 000 139 000 169 000 126 000 142 900 163 000 169 000 149 000
⎤⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎦
,
X =
⎡⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎣
1 2310 2 2
20 1
233 2
2 12 1 2356 3 1,5 33 1 2379 3 2
43 1 2402 2 3
53 1 2425 4 2
23 1 2448 2 1,5 99 1 2471 2 2
34 1 2494 3 3
23 1 2517 4 4
55 1 2540 2 3
22
⎤⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎦
.
С использованием матричных операций вычисляем:
X

X =
⎡⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎢

11 26 675 29 26 417 26 675 6,5 ⋅ 10 7
70 463 63 418 10 115 365 29 70 463 83 70,5 1089 26 63 418 70,5 67,5 976 417 1 015 365 1089 976 21 815
⎤⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎥

,
(X

X
)
−1
=
⎡⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎣
158,97
−0,0701
−0,0319 3,96351 0,04831
−0,0701 3,1 ⋅ 10
−5
−0,0001 −0,0019 −2 ⋅ 10
−5
−0,0319
−0,0001 0,1699
−0,0465 0,00031 3,96351
−0,0019
−0,0465 0,29894 0,00171 0,04831
−2 ⋅ 10
−5 0,00031 0,00171 0,00019
⎤⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎦
,
B =
(X

X
)
−1
X

Y =
⎡⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎢

52 317,8 27,64 12 529,8 2553,21
−234,24
⎤⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎥

.
В итоге получаем уравнение регрессионной модели:
̂y = 52 317,8 + 27,64 ⋅ x
1
+ 12 529, 8 ⋅ x
2
+ 2553, 21 ⋅ x
3
− 234, 24 ⋅ x
4
.
2.4 Регрессионная модель в стандартизованном масштабе
Независимые переменные x
i
имеют различный экономический смысл, разные единицы измерения и масштаб. Если требуется определить степень относительно- го влияния отдельных факторов x
i
на изменение результативной переменной y, то переменные x
i
следует привести к сопоставимому виду. Это можно осуществить,

2.4 Регрессионная модель в стандартизованном масштабе
35
вводя так называемые «стандартизованные» переменные t
y
, t
x
1
, t
x
2
, . . ., t
x
m
с помо- щью соотношений:
t
y
=
y y
σ
y
,
t
x
i
=
x
i
x
i
σ
x
i
,
(i = 1, 2, .. ., m).
Стандартизованные переменные обладают следующими свойствами:
1) средние значения равны нулю (t
y
, t
x
i
=
0);
2) среднеквадратичные отклонения равны единице (
σ
t
y
=
σ
t
xi
=
1).
Уравнение регрессии в стандартизованных переменных принимает вид:
t
y
=
β
1
t
x
1
+ β
2
t
x
2
+ . . . + β
m
t
x
m
+ ε.
Величины
β
i
называются стандартизованными коэффициентами. Их связь c ко- эффициентами «чистой» регрессии b
i
задается соотношениями:
b
i
=
β
i

σ
y
σ
x
i
или
β
i
=
b
i

σ
x
i
σ
y
.
Стандартизованные коэффициенты регрессии показывают, на сколько с.к.о.
(средних квадратичных отклонений) изменится в среднем результат y, если соот- ветствующий фактор x
i
изменится на одно с.к.о. при неизменном среднем уровне других факторов. В силу того, что все переменные заданы как центрированные и нормированные, стандартизованные коэффициенты регрессии
β
i
можно сравни- вать между собой, что позволяет ранжировать факторы по силе их воздействия на результат. Большее относительное влияние на изменение результативной перемен- ной y оказывает тот фактор, которому соответствует большее по модулю значение коэффициента
β
i
. Рассмотренный смысл стандартизованных коэффициентов ре- грессии позволяет использовать их при отсеве факторов: из модели исключаются факторы с наименьшим значением
β
i
. В этом основное достоинство стандартизо- ванных коэффициентов регрессии в отличие от коэффициентов «чистой» регрес- сии, которые несравнимы между собой.
Метод наименьших квадратов можно применять и для вычисления стандар- тизованных коэффициентов
β
i
. При этом система нормальных уравнений МНК
принимает вид:
⎧⎪⎪⎪⎪
⎪⎪⎪
⎨⎪⎪⎪
⎪⎪⎪⎪

r
yx
1
=
β
1
+ β
2
r
x
2
x
1
+ β
3
r
x
3
x
1
+ . . . + β
m
r
x
m
x
1
,
r
yx
2
=
β
1
r
x
1
x
2
+ β
2
+ β
3
r
x
3
x
2
+ . . . + β
m
r
x
m
x
2
,
. . .,
r
yx
m
=
β
1
r
x
1
x
m
+ β
2
r
x
2
x
m
+ β
3
r
x
3
x
m
+ . . . + β
m
,
где r
yx
i
и r
x
i
x
j
— коэффициенты парной и межфакторной корреляции.