ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 24.10.2023

Просмотров: 255

Скачиваний: 5

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

12

Глава 1. Парная регрессия
Рис. 1.2 – Линия регрессии с минимальной дисперсией остатков
После несложных преобразований получается следующая система линейных уравнений для оценки параметров a и b:
⎧⎪⎪
⎨⎪⎪

a n + b ⋅ ∑ x = ∑ y,
a ⋅ ∑ x + b ⋅ ∑ x
2
=
x y.
Решение системы уравнений позволяет найти оценки параметров a и b:
b =
x y x y
x
2

(x)
2
=
cov
(x, y)
σ
2
x
,
a = y b x,
где cov
(x, y) — выборочное значение корреляционного момента (ковариация), опре- деленного по формуле cov
(x, y) = x y x y; σ
2
x
— выборочное значение дисперсии величины x, определяемой по формуле
σ
2
x
=
x
2

(x)
2
;
x =
1
n

n

i=1
x
i
;
y =
1
n

n

i=1
y
i
;
x y =
1
n

n

i=1
x
i
y
i
;
x
2
=
1
n

n

i=1
x
2
i
.
Параметр b называется коэффициентом регрессии. Его величина показывает среднее изменение результата с изменением фактора на одну единицу.
Возможность четкой экономической интерпретации коэффициента регрессии сделала линейное уравнение регрессии достаточно распространенным в экономет- рических исследованиях.
Формально a — значение y при x = 0. Если признак-фактор x не может иметь ну- левого значения, то вышеуказанная трактовка свободного члена a не имеет смысла,
т. е. параметр a может не иметь экономического содержания.
1.2.2 Исследование уравнения линейной регрессии
Оценка тесноты связи и качества модели линейной регрессии.
Уравнение регрессии всегда дополняется показателем тесноты связи. При ис- пользовании линейной регрессии в качестве такого показателя выступает линей- ный коэффициент корреляции r
xy
, который можно рассчитать по следующей фор- муле:
r
xy
=
b
σ
x
σ
y
=
cov
(x, y)
σ
x
⋅ σ
y
.

1.2 Линейная модель парной регрессии
13
Линейный коэффициент корреляции находится в пределах: −1 ⩽ r
xy

1. Чем ближе абсолютное значение r
xy
к единице, тем сильнее линейная связь между фак- торами (при r
xy
= ±1 наблюдается строгая функциональная зависимость). Но сле- дует иметь в виду, что близость абсолютной величины линейного коэффициента корреляции к нулю еще не означает отсутствия связи между признаками. При дру- гой (нелинейной) спецификации модели связь между признаками может оказаться достаточно тесной.
Для оценки качества подбора линейной функции рассчитывается квадрат ли- нейного коэффициента корреляции r
2
xy
, называемый коэффициентом детерминации:
r
2
xy
=
σ
2
объясн
σ
2
y
=
1 −
σ
2
ост
σ
2
y
,
где
σ
2
y
=
1
n

n

i=1
(y
i
y
)
2
=
y
2
y
2
;
σ
2
oбъяcн
=
1
n

n

i=1
y
i
y
)
2
;
σ
2
ocт
=
1
n

n

i=1
(y
i

̂y
i
)
2
Коэффициент детерминации характеризует долю дисперсии ре- зультативного признака y, объясняемую регрессией, в общей дис- персии результативного признака.
Соответственно, величина 1 − r
2
xy
характеризует долю дисперсии y, вызванную влиянием остальных, не учтенных в модели факторов.
Чтобы иметь общее суждение о качестве модели из относительных отклонений по каждому наблюдению, определяют среднюю ошибку аппроксимации:
A =
1
n

n

i=1

y
i

̂y
x
i
y
i
∣ ⋅ 100%.
Средняя ошибка аппроксимации не должна превышать 8–10%. Чем выше по- казатель детерминации или чем ниже средняя ошибка аппроксимации, тем лучше модель описывает исходные данные.
Оценка значимости уравнения линейной регрессии и существенности па-
раметров линейной регрессии.
После того как найдено уравнение линейной регрессии, проводится оценка значимости как уравнения в целом, так и отдельных его параметров.
Проверить значимость уравнения регрессии — значит установить, соответству- ет ли математическая модель, выражающая зависимость между переменными, экс- периментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной.
Оценка значимости уравнения регрессии в целом производится на основе F- критерия Фишера, которому предшествует дисперсионный анализ. В математи- ческой статистике дисперсионный анализ рассматривается как самостоятельный инструмент статистического анализа. В эконометрике он применяется как вспомо- гательное средство для изучения качества регрессионной модели.
Согласно основной идее дисперсионного анализа общая сумма квадратов от- клонений переменной y от среднего значения y раскладывается на две части —
«объясненную» и «необъясненную»:


14
Глава 1. Парная регрессия

(y y)
2
=

y
x
y
)
2
+ ∑
(y −̂y
x
)
2
,
где

(y y)
2
— общая сумма квадратов отклонений;

y
x
y
)
2
— сумма квадра- тов отклонений, объясненная регрессией (или факторная сумма квадратов откло- нений);

(y −̂y
x
)
2
— остаточная сумма квадратов отклонений, характеризующая влияние неучтенных в модели факторов.
Схема дисперсионного анализа имеет вид, представленный в таблице 1.1 (n
число наблюдений; m — число параметров при переменной x).
Определение дисперсии на одну степень свободы приводит дисперсии к срав- нимому виду. Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим величину F-критерия Фишера:
F =
S
2
фaкт
S
2
ocт
.
Таблица 1.1 – Схема дисперсионного анализа
Компоненты
дисперсии
Сумма
квадратов
Число степеней
свободы
Дисперсия на одну
степень свободы
Общая

(y y)
2
n − 1
S
2
общ
=
n

i=1
(y y)
2
n − 1
Факторная

y
x
y
)
2
m
S
2
факт
=
n

i=1
y
x
y
)
2
m
Остаточная

(y −̂y
x
)
2
n m − 1
S
2
ост
=
n

i=1
(y −̂y
x
)
2
n m − 1
Фактическое (вычисленное) значение F-критерия Фишера сравнивается с таб- личным значением F
тaбл
(α, k
1
, k
2
) при уровне значимости α и степенях свободы
k
1
=
m и k
2
=
n m − 1. При этом, если фактическое значение F-критерия больше табличного, то признается статистическая значимость уравнения в целом.
Для парной линейной регрессии m = 1, поэтому
F =
S
2
фaкт
S
2
ocт
=

y
x
y
)
2

(y −̂y
x
)
2

(n − 2).
Величина F-критерия связана с коэффициентом детерминации r
2
xy
следующим соотношением:
F =
r
2
xy
1 − r
2
xy

(n − 2).
В регрессионном анализе оценивается значимость не только уравнения в це- лом, но и отдельных его параметров. С этой целью по каждому из параметров определяется его стандартная ошибка: m
b
и m
a


1.2 Линейная модель парной регрессии
15
Стандартная ошибка коэффициента регрессии определяется по формуле:
m
b
=
¿
Á
Á
À
S
2
ocт

(x x)
2
=
S
ocт
σ
x


n
,
где S
2
ocт
=
n

i=1
(y −̂y
x
)
2
n m − 1
— остаточная дисперсия на одну степень свободы.
Величина стандартной ошибки совместно с t-распределением Стьюдента при
n − 2 степенях свободы применяется для проверки существенности коэффициента регрессии и для расчета его доверительного интервала.
Для оценки существенности коэффициента регрессии определяется фактиче- ское значение t-критерия Стьюдента: t
b
=
b
/m
b
. Вычисленное значение
(t
b
) срав- нивается с табличным значением при определенном уровне значимости
α и числе степеней свободы
(n−2). Здесь проверяется нулевая гипотеза H
0
: b = 0, предполага- ющая несущественность статистической связи между y и x. Если t
b
>
t
тaбл
(α, n−2),
то гипотеза H
0
: b = 0 должна быть отклонена, а статистическая связь y и x счита- ется установленной. В случае t
b
<
t
тaбл
(α, n − 2) нулевая гипотеза не может быть отклонена, и влияние y на x признается несущественным.
Интервальная оценка (доверительный интервал) для коэффициента b с на- дежностью (доверительной вероятностью), равной
γ, определяется выражением:
b ± t
тaбл
m
b
. Поскольку знак коэффициента регрессии указывает на рост резуль- тативного признака y при увеличении признака-фактора x
(b > 0), уменьшение результативного признака y при увеличении признака-фактора x
(b < 0) или его независимость от независимой переменной x
(b = 0) (рис. 1.3), то границы дове- рительного интервала для коэффициента регрессии не должны содержать проти- воречивых результатов, например −1,5 ⩽ b ⩽ 0,8. Такого рода запись указывает, что истинное значение коэффициента регрессии одновременно содержит как положи- тельные, так и отрицательные величины, что противоречит виду рассматриваемой зависимости между двумя переменными.
Рис. 1.3 – Наклон линии регрессии в зависимости от значения параметра b
Процедура оценивания существенности параметра a не отличается от рассмот- ренной выше для коэффициента регрессии. Стандартная ошибка параметра a опре- деляется по формуле:


16
Глава 1. Парная регрессия
m
a
=
S
ocт


n

i=1
x
2
i
σ
x
n
.
Вычисляется t-критерий: t
a
=
a
/m
a
. Его величина сравнивается с табличным значением критерия Стьюдента при n − 2 степенях свободы.
Интервальная оценка (доверительный интервал) для коэффициента a с надеж- ностью (доверительной вероятностью), равной
γ = 1−α, определяется выражением:
a ± t
тaбл
m
a
Построение интервальных оценок для функции парной линейной регрессии.
Интервальная оценка (доверительный интервал) для вычисленного значения
̂y
i
при заданном значении x
i
с надежностью (доверительной вероятностью), равной
γ = 1 − α, определяется выражением
̂y
i
± t
тaбл
m
̂
y
i
.
Стандартная ошибка вычисленного значения
̂y
i
определяется по формуле:
m
̂
y
i
=
S
ocт

¿
Á
Á
À
1 +
1
n
+
(x
i
x
)
2
n ⋅ σ
2
x
.
В прогнозных расчетах по уравнению регрессии определяется предсказывае- мое
̂y
p
значение как точечный прогноз
̂y
x
при x = x
p
, т. е. путем подстановки в урав- нение регрессии
̂y
x
=
a + b x соответствующего значения x. Прогнозный расчет дополняется вычислением средней ошибки прогнозируемого значения
̂y
p
, т. е. m
̂
y
p
,
и соответственно интервальной оценкой прогнозируемого значения
̂y
p
:
̂y
i
± t
тaбл
m
̂
y
i
Рассмотрим пример построения парной линейной регрессии.
Пример 1.1
Известны данные об уровне механизации работ X (%) и производительности труда Y (т/час) для 14 однотипных предприятий (табл. 1.2). Требуется оценить регрессию X на Y [2].
Таблица 1.2 – Данные наблюдений
y
i
20 24 28 30 31 33 34 37 38 40 41 43 45 48
x
i
32 30 36 40 41 47 56 54 60 55 61 67 69 76
Предположим, что связь между механизацией работ и производительностью труда линейная. Для подтверждения нашего предположения построим поле корре- ляции (рис. 1.4).
По графику видно, что точки выстраиваются в некоторую прямую линию.
Для удобства дальнейших вычислений составим вспомогательную таблицу 1.3.
Рассчитаем параметры линейного уравнения парной регрессии.
̂y
x
=
a + b x.