ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 24.10.2023
Просмотров: 261
Скачиваний: 5
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
30
Глава 2. Множественная линейная регрессия
т. е. имеет место совокупное воздействие факторов друг на друга. Наличие муль- тиколлинеарности факторов может означать, что некоторые факторы будут всегда действовать в унисон. В результате вариация в исходных данных перестает быть полностью независимой и нельзя оценить воздействие каждого фактора в отдель- ности.
Для оценки мультиколлинеарности факторов может использоваться определи- тель матрицы парных коэффициентов корреляции между факторами (межфактор- ная корреляция).
R =
⎡⎢
⎢⎢
⎢⎢
⎢⎢
⎣
r
x
1
r
x
1
r
x
1
r
x
2
. . . r
x
1
r
x
m
r
x
2
r
x
1
r
x
2
r
x
2
. . . r
x
2
r
x
m
. . .
. . .
. . .
. . .
r
x
m
r
x
1
r
x
m
r
x
2
. . . r
x
m
r
x
m
⎤⎥
⎥⎥
⎥⎥
⎥⎥
⎦
=
⎡⎢
⎢⎢
⎢⎢
⎢⎢
⎣
1
r
x
1
r
x
2
. . . r
x
1
r
x
m
r
x
2
r
x
1 1
. . . r
x
2
r
x
m
. . .
. . .
. . .
. . .
r
x
m
r
x
1
r
x
m
r
x
2
. . .
1
⎤⎥
⎥⎥
⎥⎥
⎥⎥
⎦
.
Чем ближе к нулю определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность между факторами и тем ненадежнее результаты множественной регрессии. С другой стороны, чем ближе к единице определитель матрицы межфакторной корреляции, тем меньше мультиколлинеарность факторов.
Для преодоления явления линейной зависимости между факторами использу- ются такие подходы, как:
исключение из модели одного или нескольких коррелированных факторов;
увеличение объема выборки;
преобразование факторов, при котором уменьшается корреляция между ними.
Например, для модели
̂y = a + b
1
⋅ x
1
+ b
2
⋅ x
2
+ b
3
⋅ x
3
возможным путем учета внутренней корреляции факторов является переход к совмещенным уравнениям регрессии, т. е. к уравнениям, которые отражают не только влияние факторов, но и их взаимодействие.
̂y = a + b
1
⋅ x
1
+ b
2
⋅ x
2
+ b
3
⋅ x
3
+ b
12
x
1
x
2
+ b
13
x
1
x
3
+ b
23
x
2
x
3
.
Рассматриваемое уравнение включает взаимодействие первого порядка (вза- имодействие двух факторов). Возможно включение в модель и взаимодействий более высокого порядка, если будет доказана их статистическая значимость, но,
как правило, взаимодействия третьего и более высоких порядков оказываются ста- тистически незначимыми.
Отбор факторов, включаемых в регрессию, является одним из важнейших эта- пов практического использования методов регрессии. Подходы к отбору факторов на основе показателей корреляции могут быть разные. Они приводят построение уравнения множественной регрессии соответственно к разным методикам. В зави- симости от того, какая методика построения уравнения регрессии принята, меня- ется алгоритм ее решения на ЭВМ. Следует также учитывать ограничение, накла- дываемое на количество факторов, имеющимся числом наблюдений. Количество наблюдений должно превышать количество факторов более чем в 6–7 раз.
2.3 Оценка параметров уравнения множественной линейной регрессии
31
2.3 Оценка параметров уравнения множественной линейной регрессии
Рассмотрим линейную модель множественной регрессии:
y = a + b
1
⋅ x
1
+ b
2
⋅ x
2
+ . . . + b
m
⋅ x
m
+ ε.
Для оценки параметров уравнения множественной линейной регрессии при- меняется метод наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значе- ний результативного признака y от расчетных
̂y минимальна:
Q =
n
∑
i=1
(y
i
−
̂y
x
i
)
2
→ min.
С учетом формулы уравнения множественной линейной регрессии величина Q
определена как функция неизвестных параметров a и b
i
Q
(a, b
1
, b
2
, . . ., b
m
) =
n
∑
i=1
(y
i
− a − b
1
⋅ x
1
− b
2
⋅ x
2
− . . . − b
m
⋅ x
m
)
2
.
Необходимым условием минимизации функции Q является равенство нулю частных производных первого порядка по каждому из параметров b
i
. Результатом является следующая система уравнений:
⎧⎪⎪⎪⎪
⎪⎪⎪⎪⎪
⎪⎪⎪⎪⎪
⎨⎪⎪⎪
⎪⎪⎪⎪⎪
⎪⎪⎪⎪⎪
⎪⎩
∂Q
∂a
= −2
n
∑
i=1
(y
i
− a − b
1
⋅ x
1
− b
2
⋅ x
2
− . . . − b
m
⋅ x
m
),
∂Q
∂b
1
= −2b
1
n
∑
i=1
(y
i
− a − b
1
⋅ x
1
− b
2
⋅ x
2
− . . . − b
m
⋅ x
m
),
. . .,
∂Q
∂b
m
= −2b
m
n
∑
i=1
(y
i
− a − b
1
⋅ x
1
− b
2
⋅ x
2
− . . . − b
m
⋅ x
m
).
После выполнения преобразований приходим к системе линейных нормаль- ных уравнений для нахождения параметров линейного уравнения множественной регрессии:
⎧⎪⎪⎪⎪
⎪⎪⎪
⎨⎪⎪⎪
⎪⎪⎪⎪
⎩
na + b
1
∑ x
1
+ b
2
∑ x
2
+ . . . + b
m
∑ x
m
=
∑ y,
a
∑ x
1
+ b
1
∑ x
2 1
+b
2
∑ x
1
x
2
+ . . . + b
m
∑ x
1
x
m
=
∑ yx
1
,
. . .,
a
∑ x
m
+ b
1
∑ x
1
x
m
+ b
2
∑ x
2
x
m
+ . . . + b
m
∑ x
2
m
=
∑ yx
m
.
Пример 2.1
Построить уравнение множественной регрессии, выражающее оценку стоимо- сти группы небольших офисных зданий в деловом районе. Данные представлены в таблице 2.2.
32
Глава 2. Множественная линейная регрессия
Таблица 2.2 – Исходные данные для примера 2.1
Общая
площадь
в квадратных
метрах (x
1
)
Коли-
чество
офисов
(x
2
)
Количество входов
(0,5 входа означает
вход только для
доставки коррес-
понденции) (x
3
)
Время
эксплуатации
здания
в годах (x
4
)
Оценочная
цена
здания
под офис (y)
2310 2
2 20 142 000 2333 2
2 12 144 000 2356 3
1,5 33 151 000 2379 3
2 43 150 000 2402 2
3 53 139 000 2425 4
2 23 169 000 2448 2
1,5 99 126 000 2471 2
2 34 142 900 2494 3
3 23 163 000 2517 4
4 55 169 000 2540 2
3 22 149 000
Запишем систему нормальных уравнений для четырехфакторной модели:
⎧⎪⎪⎪⎪
⎪⎪⎪⎪⎪
⎪⎨
⎪⎪⎪⎪⎪
⎪⎪⎪⎪⎪
⎩
na + b
1
∑ x
1
+ b
2
∑ x
2
+ b
3
∑ x
3
+ b
4
∑ x
4
=
∑ y,
a
∑ x
1
+ b
1
∑ x
2 1
+b
2
∑ x
1
x
2
+ b
3
∑ x
1
x
3
+ b
4
∑ x
1
x
4
=
∑ yx
1
,
a
∑ x
2
+ b
1
∑ x
1
x
2
+b
2
∑ x
2 2
+ b
3
∑ x
1
x
3
+ b
4
∑ x
1
x
4
=
∑ yx
2
,
a
∑ x
3
+ b
1
∑ x
1
x
3
+b
2
∑ x
2
x
3
+ b
3
∑ x
2 3
+ b
4
∑ x
1
x
4
=
∑ yx
3
,
a
∑ x
4
+ b
1
∑ x
1
x
4
+b
2
∑ x
2
x
4
+ b
3
∑ x
3
x
4
+ b
4
∑ x
2 4
=
∑ yx
4
.
Вычислив соответствующие суммы, получаем:
⎧⎪⎪⎪⎪
⎪⎪⎪⎪⎪
⎪⎪⎪⎪
⎨⎪⎪⎪
⎪⎪⎪⎪⎪
⎪⎪⎪⎪⎪
⎩
11 ⋅ a + 26 675 ⋅ b
1
+ 29 ⋅ b
2
+ 26 ⋅ b
3
+ 417 ⋅ b
4
=
1 644 900,
26 675 ⋅ a + 64 745 065 ⋅ b
1
+ 70 463 ⋅ b
2
+ 63 418 ⋅ b
3
+
+1 015 365 ⋅ b
4
=
3 992 189 900,
29 ⋅ a + 70 463 ⋅ b
1
+ 83 ⋅ b
2
+ 70,5 ⋅ b
3
+ 1089 ⋅ b
4
=
4 429 800,
26 ⋅ a + 63 418 ⋅ b
1
+ 70,5 ⋅ b
2
+ 67,5 ⋅ b
3
+ 976 ⋅ b
4
=
3 940 300,
417 ⋅ a + 1 015 365 ⋅ b
1
+ 1089 ⋅ b
2
+ 976 ⋅ b
3
+ 21 815 ⋅ b
4
=
60 909 600.
Решение данной системы уравнений можно выполнить различными способами.
1. Вычислим оценки параметров модели
̂y = a + b
1
⋅ x
1
+ b
2
⋅ x
2
+ b
3
⋅ x
3
+ b
4
⋅ x
4
,
решая систему методом определителей:
a =
∆
a
∆
=
3,93346 ⋅ 10 15 75 183 958 894
=
52 317,8;
b
1
=
∆
b
1
∆
=
2,07819 ⋅ 10 12 75 183 958 894
=
27,64;
2.3 Оценка параметров уравнения множественной линейной регрессии
33
b
2
=
∆
b
2
∆
=
9,42038 ⋅ 10 14 75 183 958 894
=
12 529,8;
b
3
=
∆
b
3
∆
=
1,9196 ⋅ 10 14 75 183 958 894
=
2553,21;
b
4
=
∆
b
4
∆
=
−1,76109 ⋅ 10 13 75 183 958 894
= −234,24.
2. Оценим параметры модели
̂y = a + b
1
⋅ x
1
+ b
2
⋅ x
2
+ b
3
⋅ x
3
+ b
4
⋅ x
4
с помощью матричных операций. Введем обозначения:
B =
⎡⎢
⎢⎢
⎢⎢
⎢⎢
⎣
a
b
1
. . .
b
m
⎤⎥
⎥⎥
⎥⎥
⎥⎥
⎦
,
Y =
⎡⎢
⎢⎢
⎢⎢
⎢⎢
⎣
y
1
y
2
. . .
y
n
⎤⎥
⎥⎥
⎥⎥
⎥⎥
⎦
,
X =
⎡⎢
⎢⎢
⎢⎢
⎢⎢
⎣
1
x
11
. . . x
m1 1
x
12
. . . x
m2
. . . . . . . . .
. . .
1
x
1n
. . . x
mn
⎤⎥
⎥⎥
⎥⎥
⎥⎥
⎦
,
где B — матрица-столбец, размерностью
(m+1×1) параметров уравнения регрессии;
Y — матрица-столбец размерностью
(n×1) наблюдений зависимой переменной; X —
матрица размерностью
(m+1×n) исходных значений независимых переменных x
ji
,
в которой первый столбец из единиц можно рассматривать как значение «фиктив- ной» переменной при коэффициенте a.
В этих обозначениях уравнение регрессии записывается следующим образом:
Y = XB + ε,
где
ε = Y − XB — вектор-столбец остатков регрессии.
По условию применения метода наименьших квадратов минимизируется функ- ционал Q =
∑ ε
2
i
, который можно записать как произведение вектора-строки
ε
′
на вектор-столбец
ε:
Q =
ε
′
⋅ ε =
(Y − X ⋅ B)
′
⋅
(Y − X ⋅ B).
Дифференцирование Q по вектору B приводит к выражению:
∂Q
∂B
= −2 ⋅ X
′
⋅ Y + 2 ⋅
(X
′
⋅ X
)
−1
⋅ B,
которое приравнивается к нулю. В результате последующих преобразований полу- чаем выражение для вычисления параметров уравнения регрессии:
B =
(X
′
⋅ X
)
−1
X
′
⋅ Y.
Здесь X
′
— транспонированная матрица X ;
(X
′
⋅ X
)
−1
— матрица, обратная к X
′
⋅ X .
34
1 2 3 4 5 6 7 8 9 ... 13
Глава 2. Множественная линейная регрессия
Для таблицы 2.1 определим матрицы:
B =
⎡⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎢
⎣
a
b
1
b
2
b
3
b
4
⎤⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎥
⎦
,
Y =
⎡⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎣
142 000 144 000 151 000 150 000 139 000 169 000 126 000 142 900 163 000 169 000 149 000
⎤⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎦
,
X =
⎡⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎣
1 2310 2 2
20 1
233 2
2 12 1 2356 3 1,5 33 1 2379 3 2
43 1 2402 2 3
53 1 2425 4 2
23 1 2448 2 1,5 99 1 2471 2 2
34 1 2494 3 3
23 1 2517 4 4
55 1 2540 2 3
22
⎤⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎦
.
С использованием матричных операций вычисляем:
X
′
⋅ X =
⎡⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎢
⎣
11 26 675 29 26 417 26 675 6,5 ⋅ 10 7
70 463 63 418 10 115 365 29 70 463 83 70,5 1089 26 63 418 70,5 67,5 976 417 1 015 365 1089 976 21 815
⎤⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎥
⎦
,
(X
′
⋅ X
)
−1
=
⎡⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎣
158,97
−0,0701
−0,0319 3,96351 0,04831
−0,0701 3,1 ⋅ 10
−5
−0,0001 −0,0019 −2 ⋅ 10
−5
−0,0319
−0,0001 0,1699
−0,0465 0,00031 3,96351
−0,0019
−0,0465 0,29894 0,00171 0,04831
−2 ⋅ 10
−5 0,00031 0,00171 0,00019
⎤⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎦
,
B =
(X
′
⋅ X
)
−1
X
′
⋅ Y =
⎡⎢
⎢⎢
⎢⎢
⎢⎢
⎢⎢
⎣
52 317,8 27,64 12 529,8 2553,21
−234,24
⎤⎥
⎥⎥
⎥⎥
⎥⎥
⎥⎥
⎦
.
В итоге получаем уравнение регрессионной модели:
̂y = 52 317,8 + 27,64 ⋅ x
1
+ 12 529, 8 ⋅ x
2
+ 2553, 21 ⋅ x
3
− 234, 24 ⋅ x
4
.
2.4 Регрессионная модель в стандартизованном масштабе
Независимые переменные x
i
имеют различный экономический смысл, разные единицы измерения и масштаб. Если требуется определить степень относительно- го влияния отдельных факторов x
i
на изменение результативной переменной y, то переменные x
i
следует привести к сопоставимому виду. Это можно осуществить,
2.4 Регрессионная модель в стандартизованном масштабе
35
вводя так называемые «стандартизованные» переменные t
y
, t
x
1
, t
x
2
, . . ., t
x
m
с помо- щью соотношений:
t
y
=
y − y
σ
y
,
t
x
i
=
x
i
− x
i
σ
x
i
,
(i = 1, 2, .. ., m).
Стандартизованные переменные обладают следующими свойствами:
1) средние значения равны нулю (t
y
, t
x
i
=
0);
2) среднеквадратичные отклонения равны единице (
σ
t
y
=
σ
t
xi
=
1).
Уравнение регрессии в стандартизованных переменных принимает вид:
t
y
=
β
1
⋅ t
x
1
+ β
2
⋅ t
x
2
+ . . . + β
m
⋅ t
x
m
+ ε.
Величины
β
i
называются стандартизованными коэффициентами. Их связь c ко- эффициентами «чистой» регрессии b
i
задается соотношениями:
b
i
=
β
i
⋅
σ
y
σ
x
i
или
β
i
=
b
i
⋅
σ
x
i
σ
y
.
Стандартизованные коэффициенты регрессии показывают, на сколько с.к.о.
(средних квадратичных отклонений) изменится в среднем результат y, если соот- ветствующий фактор x
i
изменится на одно с.к.о. при неизменном среднем уровне других факторов. В силу того, что все переменные заданы как центрированные и нормированные, стандартизованные коэффициенты регрессии
β
i
можно сравни- вать между собой, что позволяет ранжировать факторы по силе их воздействия на результат. Большее относительное влияние на изменение результативной перемен- ной y оказывает тот фактор, которому соответствует большее по модулю значение коэффициента
β
i
. Рассмотренный смысл стандартизованных коэффициентов ре- грессии позволяет использовать их при отсеве факторов: из модели исключаются факторы с наименьшим значением
β
i
. В этом основное достоинство стандартизо- ванных коэффициентов регрессии в отличие от коэффициентов «чистой» регрес- сии, которые несравнимы между собой.
Метод наименьших квадратов можно применять и для вычисления стандар- тизованных коэффициентов
β
i
. При этом система нормальных уравнений МНК
принимает вид:
⎧⎪⎪⎪⎪
⎪⎪⎪
⎨⎪⎪⎪
⎪⎪⎪⎪
⎩
r
yx
1
=
β
1
+ β
2
⋅ r
x
2
x
1
+ β
3
⋅ r
x
3
x
1
+ . . . + β
m
⋅ r
x
m
x
1
,
r
yx
2
=
β
1
⋅ r
x
1
x
2
+ β
2
+ β
3
⋅ r
x
3
x
2
+ . . . + β
m
⋅ r
x
m
x
2
,
. . .,
r
yx
m
=
β
1
⋅ r
x
1
x
m
+ β
2
⋅ r
x
2
x
m
+ β
3
⋅ r
x
3
x
m
+ . . . + β
m
,
где r
yx
i
и r
x
i
x
j
— коэффициенты парной и межфакторной корреляции.