ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 07.12.2023
Просмотров: 587
Скачиваний: 7
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
227
раметрами
α и β. Разброс значений у|х в точке х задается стандартным отклонением
σ
y|x
. Оценим эти параметры.
ОЦЕНКА ПАРАМЕТРОВ УРАВНЕНИЯ РЕГРЕСИИ ПО
ВЫБОРКЕ
В реальной жизни редко удается получить данные обо всей сово- купности, и исследователю приходится довольствоваться вы- борками. Допустим, мы располагали бы данными не о всех мар- сианах, а только о десяти. На рис. 8.ЗА они показаны черными кружками среди 190 своих собратьев. На рис. 8.3Б данные пока- заны так, как их видит исследователь, изучивший эту выборку.
Что можно сказать о совокупности, основываясь на этих выбо- рочных данных?
Похоже, что в этом случае исследователю повезло. Зависи- мость веса от роста в выборке выглядит примерно так же, как и в совокупности в целом. Но ведь выборка может вводить в заблуждение. Вспомним пример с рис. 1.2. В выборке из 5 чело- век диурез отчетливо увеличивался с ростом дозы препарата (рис
1.2А), тогда как на самом деле никакой зависимости не было
(рис 1.2Б). Какова вероятность ошибочного заключения? Как мы скоро увидим, эта задача сводится к оценке параметров урав-
нения регрессии
α и β по выборке.
Метод наименьших квадратов
Сейчас нам предстоит оценить параметры уравнения регрессии
α и β. Обозначим их выборочные оценки соответственно а и b.
Найти наилучшие оценки этих параметров — это то же самое,
что провести наилучшую прямую через имеющиеся точки, по- скольку у =а + bх — это уравнение прямой. Какую прямую счи- тать наилучшей? Посмотрим на рис. 8.4. На нем изображены 4
прямые. Прямая I явно не годится — все точки оказались по одну сторону от нее. Прямая II немного лучше, она хотя бы пересекает область, где находятся наши точки. Однако она слишком круто устремляется вверх. Какая из прямых III и IV является лучшей,
сказать трудно. Почему прямая II кажется лучше прямой I, а прямая III — лучше прямой II? Очевидно, прямая тем лучше,
АНАЛИЗ ЗАВИСИМОСТЕЙ
228
Рис. 8.3. А. Случайная выборка объемом 10 из совокупности марсиан.
ГЛАВА 8
229
Рис. 8.3. Б. Такой эта выборка представляется исследователю, который не может на- блюдать всю совокупность.
АНАЛИЗ ЗАВИСИМОСТЕЙ
230
чем ближе она ко всем точкам выборки. Иными словами, лучше та прямая, относительно которой разброс точек минимален.
С оценкой разброса мы уже сталкивались в гл. 2. Там мы использовали средний квадрат отклонения от среднего. Посту- пим аналогичным образом. Определим расстояние по вертика- ли от каждой точки до прямой (рис. 8.5). Возведем полученные величины в квадрат и сложим. Возведение в квадрат потребова- лось, чтобы отклонения, равные по абсолютной величине, но разные по знаку, вносили один и тот же вклад.
Сумма квадратов отклонений от прямой IV меньше, чем от прямой III. Следовательно, прямая IV лучше представляет зави- симость у от х. Более того, можно доказать, что для прямой IV
сумма квадратов отклонений выборочных значений зависимой переменной минимальна. Способ нахождения линии, сумма квад- ратов расстояний от которой до всех точек выборки минимальна,
называется методом наименьших квадратов, саму линию мы будем называть прямой регрессии. Здесь мы не будем останавли- ваться на выводе формул* и сообщим сразу результат.
Напомним, что мы ищем параметры уравнения регрессии:
ˆ
y a bx
= +
Тогда коэффициент сдвига
( )
(
)
(
)(
)
(
)
(
)
2 2
2
Y
X
X
XY
a
n
X
X
−
=
−
∑ ∑
∑ ∑
∑
∑
и коэффициент наклона
(
) (
)( )
(
)
(
)
2 2
,
n
XY
X
Y
b
n
X
X
−
=
−
∑
∑ ∑
∑
∑
где X и Y — значения независимой и зависимой переменных у п
членов выборки**.
* Интересующихся выводом этих формул отсылаем к книге: S. A. Glantz.
Mathematics for biomedical applications. University of California Press,
Berkely, 1979, pp. 322–325.
** Вычисления можно упростить, если сначала вычислить b, а уже потом найти а по формуле a Y bX
= −
, где Y и X — выборочные средние для переменных у и х.
ГЛАВА 8
231
Рис. 8.4. Провести прямую через десять точек можно по-разному. Прямые I и II явно не годятся, прямые III и IV выглядят лучше.
АНАЛИЗ ЗАВИСИМОСТЕЙ
232
Рис. 8.5. Найдем расстояние по вертикали от каждой точки до прямой III (А) и IV (Б).
Сумма квадратов расстояний до прямой IV меньше, чем до прямой III. Рядом с прямой
IV серым цветом показана линия средних с рис. 8.2. Как видим, прямые достаточно близки.
ГЛАВА 8
233
Рис. 8.5. Окончание
АНАЛИЗ ЗАВИСИМОСТЕЙ
234
Таблица. 8.1. Расчет параметров уравнения регрессии
X
Y
Х
2
XY
31 7,8 961 241,8 32 8,3 1024 265,6 33 7,6 1089 250,8 34 9,1 1156 309,4 35 9,6 1225 336,0 35 9,8 1225 343,0 40 11,8 1600 472,0 41 12,1 1681 496,1 42 14,7 1764 617,4 46 13,0 2116 598,0 369 103,8 13841 3930,1
Рассчитаем параметры уравнения регрессии для нашей вы- борки из 10 марсиан. Вспомогательные величины для вычисле- ний приведены в табл. 8.1. Объем выборки п = 10,
ΣX = 369,
ΣY = 103,8, ΣX
2
=13841 и
ΣXY = 3930,1. Подставим эти числа в формулы для коэффициентов регрессии:
2 103,8 13841 369 3930,1 6,0 10 13841 369
a
×
−
×
=
= −
×
−
и
2 10 3930,1 369 103,8 0,44.
10 13841 369
b
×
−
×
=
=
×
−
Таким образом, прямая регрессии имеет вид:
ˆ
6,0 0, 44 .
y
x
= −
+
Именно это уравнение задает прямую IV.
Разброс значений вокруг прямой регрессии
Мы получили а и b — оценки коэффициентов регрессии
α и β.
Хорошо бы получить также оценку разброса значений вокруг прямой регрессии. При каждом значении X стандартное откло- нение постоянно и равно
σ
y|x
. Выборочной оценкой
σ
y|x
служит
ГЛАВА 8
235
(
)
2
|
,
2
y x
Y
a bX
s
n
− +
=
−
∑
где а + bХ — значение уравнения регрессии в точке X,
Y – (а + bХ) — расстояние от точки до прямой регрессии,
Σ обоз- начает суммирование квадратов этих расстояний. Не будем объ- яснять, почему сумма квадратов отклонений должна быть поде- лена на п – 2, а не на п или п – 1. Скажем только, что причина аналогична той, по которой в оценке стандартного отклонения делитель равен п – 1.
Величина s
y|x
называется остаточным стандартным откло-
нением (соответственно
2
|
y x
s , называется остаточной диспер-
сией). Связь s
y|x
со стандартными отклонениями
S
Y
и s
X
зависи- мой и независимой переменных определяется формулой
(
)
2 2 2
|
1 2
y x
Y
X
n
s
s
b s
n
−
=
−
−
Для рассмотренной нами выборки s
X
= 5,0, s
Y
= 2,4. Тогда
(
)
2 2
2
|
9 2,4 0,44 5,0 1,02.
8
y x
s
=
−
×
=
Как видим, оценка s
y|x
оказалась близкой к истинному зна- чению
σ
y|x
, равному 1,0 г.
1 ... 15 16 17 18 19 20 21 22 ... 37
Стандартные ошибки коэффициентов регрессии
Подобно тому как выборочное среднее — это оценка истинного среднего (среднего по совокупности), так и выборочные пара- метры уравнения регрессии a и b — не более чем оценки истин- ных коэффициентов регрессии
α и β. Разные выборки дают раз- ные оценки среднего — точно так же разные выборки будут да- вать разные оценки коэффициентов регрессии. Для выборки с рис. 8.3 мы получили значения а = –6,0 и b = 0,44. Рассмотрим другую выборку из той же совокупности (рис. 8.6А). На рис. 8.6Б
эта выборка показана такой, какой ее видит исследователь. Об- щая закономерность осталась прежней — высокие марсиане ве-
АНАЛИЗ ЗАВИСИМОСТЕЙ
236
Рис. 8.6. А. Еще одна случайная выборка объемом 10 из совокупности марсиан. Марси- ане, попавшие в выборку, помечены точками.
ГЛАВА 8
237
Рис. 8.6. Б. Линия регрессии, рассчитанная по этой выборке, несколько отличается от полученной ранее (см. рис. 8.5Б). Серым показана линия средних с рис. 8.2.
АНАЛИЗ ЗАВИСИМОСТЕЙ
238
сят больше низкорослых. Однако, рассчитав коэффициенты ре- грессии, получим а = –4,0 г и b = 0,38 г/см.
Если построить все возможные выборки по 10 марсиан в каж- дой, получится совокупность всех значений а и b. Их средние равны
α и β, а стандартные отклонения — σ
α
и
σ
β
. Эти стандарт- ные отклонения называются стандартными ошибками коэффи-
циентов регрессии. Стандартные ошибки коэффициентов рег- рессии, подобно стандартной ошибке среднего или доли, ис- пользуются при проверке гипотез и вычислении доверительных интервалов. Выборочные оценки для
σ
α
и
σ
β
обозначаются со- ответственно s
a
и s
b
и вычисляются по следующим формулам*:
(
)
2
|
2 1
1
a
y x
X
X
s
s
n
n
s
=
+
−
и
|
1 1
y x
b
X
s
s
s
n
=
−
Для выборки с рис. 8.3Б имеем:
(
)
2 2
1 36,9 1,02 2,53 10 10 1 5,0
a
s
=
+
=
−
и
1 1,02 0,068.
5,0 10 1
b
s
=
=
−
Стандартные ошибки коэффициентов регрессии использу- ются аналогично стандартной ошибке среднего — для нахожде- ния доверительных интервалов и проверки гипотез.
* Вывод формул для стандартных ошибок коэффициентов регрессии мож- но найти в большинстве учебников статистики. См., например, J. Neter and W. Wasserman. Applied statistical models. Irwin, Home-wood, III., 1974,
chap. 3, «Inferences in regression analysis».
ГЛАВА 8
239
Есть ли зависимость?
Помня о досадном недоразумении с «диуретиком» из гл. 1 (см.
рис. 1.2), исследователь вправе спросить: как убедиться, что за- висимость действительно существует? Иными словами, как по выборочным данным определить вероятность Р нулевой гипоте- зы о том, что коэффициент наклона
β = 0*?
Совокупность всех выборочных значений коэффициента на- клона b приближенно подчиняется нормальному распределению.
Поэтому можно воспользоваться критерием Стьюдента, анало- гично тому, как мы пользовались им в гл. 4 для проверки гипоте- зы относительно среднего. В общем виде критерий Стьюдента можно определить как:
Выборочная оценка Истинная величина
Стандартная ошибка выборочной оценки
t
−
=
Для оценки коэффициента наклона:
b
b
t
s
− β
=
Оценить вероятность гипотезы о равенстве
β = 0 можно дву- мя способами.
Приравняв
β к нулю, имеем
b
b
t
s
=
Теперь по табл. 4.1 найдем t
α
— критическое значение t для вы- бранного уровня значимости
α и числа степеней свободы ν = п – 2.
Если полученное значение t по абсолютной величине превосхо- дит t
α
, то Р <
α, то есть зависимость статистически значима.
Потренируемся на марсианах. Для выборки с рис. 8.3Б мы на- шли b = 0,44 и s
b
= 0,068 Тогда t = 0,44/0,068 = 6,47. Объем выбор- ки равен 10. Положим уровень значимости равным 0,001. В табл.
4.1 для этого уровня значимости и числа степеней свободы
* Речь идет исключительно о линейной зависимости. Как мы вскоре уви- дим, зависимость может быть и нелинейной; в таком случае излагаемый способ даст неправильный результат.
АНАЛИЗ ЗАВИСИМОСТЕЙ
240
ν = 10 – 2 = 8 находим критическое значение t
α
= 5,041. По- скольку t > t
α
, гипотезу об отсутствии зависимости веса от рос- та следует отвергнуть.
Конечно, как и всегда при проверке гипотез, это заключение может оказаться ложным (опять-таки вспоминается злополуч- ный диуретик из гл. 1). Но вероятность совершить эту ошибку не превышает 0,001.
Второй способ основан на использовании доверительных ин- тервалов. 100(1 –
α)-процентный доверительный интервал для β
имеет вид
b
b
b t s
b t s
α
α
−
< β < +
Рассчитаем 95% доверительный интервал. Число степеней свободы
ν = 10 – 2 = 8. По таблице 4.1 находим t
0,05
= 2,306.
Выборочные значения b = 0,44 и s
b
= 0,068. Следовательно,
доверительный интервал для
β:
0,44 2,306 0,068 0,44 2,306 0,068,
0,28 0,60.
−
×
< β <
+
×
< β <
Поскольку ноль в этот интервал не попадает, вероятность то- го, что
β = 0, меньше 5%.
Если рассчитать 99,9% доверительный интервал, можно убе- диться, что и он не содержит нуля. Вывод, полученный выше при использовании критерия Стьюдента, как и следовало ожи- дать, совпадает с полученным с помощью доверительного ин- тервала. Заметим, что истинное значение
β = 0,5 попадает в доверительный интервал.
Можно вычислить доверительный интервал и для коэффици- ента
α. Например, 95% доверительный интервал имеет вид:
0,05 0,05
,
a
a
a t
s
a t
s
−
< α < +
то есть
6,0 2,306 2,53 6,0 2,306 2,53,
11,8 0,17.
−
−
×
< α < −
+
×
−
< α < −
Интервал покрывает истинное значение
α = –8 г.
ГЛАВА 8
241
Следующим этапом будет построение доверительной области для линии регрессии и значений зависимой переменной.
Доверительная область для линии регрессии
Обычно мы не знаем истинных величин коэффициентов регрес- сии
α и β. Нам известны только их оценки а и b. Иначе говоря,
истинная прямая регрессии может пройти выше или ниже, быть более крутой или пологой, чем построенная по выборочным данным. Мы вычислили доверительные интервалы для коэффи- циентов регрессии. Можно вычислить доверительную область и для самой линии регрессии. На рис. 8.7А показана 95% довери- тельная область для выборки с рис. 8.3. Как видим, это доволь- но узкая полоса, которая несколько расширяется при крайних значениях х.
Мы знаем, что при любом значении независимой перемен- ной х соответствующие значения зависимой переменной у рас- пределены нормально. Средним является значение уравнения регрессии ˆy . Неопределенность его оценки характеризуется стандартной ошибкой регрессии:
(
)
(
)
2
ˆ
|
2 1
1
y
y x
X
x X
s
s
n
n
s
−
=
+
−
В отличие от стандартных ошибок, с которыми мы имели дело до сих пор,
ˆy
s при разных х принимает разные значения:
чем дальше х от выборочного среднего X , тем она больше.
Теперь можно вычислить 100(1 –
α)-процентный доверитель- ный интервал для значения уравнения регрессии в точке х:
ˆ
ˆ
ˆ
ˆ
,
y
y
y t s
y y t s
α
α
−
< < +
где t
α
— критическое значение с
ν = n – 2 степенями свободы, а
ˆy — значение уравнения регрессии в точке х:
ˆ
y a bx
= +
Итак, мы получили уравнение для кривых, ограничивающих доверительную область линии регрессии (см. рис. 8.3). С задан- ной вероятностью, обычно 95%, можно утверждать, что истин-
АНАЛИЗ ЗАВИСИМОСТЕЙ
242
ная линия находится где-то внутри этой области. Обратите вни- мание, что три точки из десяти оказались вне доверительной области. Это совершенно естественно, поскольку речь идет о доверительной области линии регресии, а не самих значений
(доверительная область для значений гораздо шире).
Авторы медицинских публикаций нередко приводят довери- тельную область линии регрессии и говорят о ней так, как будто это — доверительная область значений. Это примерно то же са- мое, что выдавать стандартную ошибку среднего за характеристику разброса значений, путая ее со стандартным отклонением. Напри- мер, из рис. 8.7А видно, что средний вес марсиан ростом 40 см с вероятностью 95% окажется между 11,0 и 12,5 г — из этого
Рис. 8.7. А. 95% доверительная область для линии регрессии (по выборке с рис. 8.3).
ГЛАВА 8