ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 07.12.2023
Просмотров: 586
Скачиваний: 7
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
243
вовсе не следует, что в этих пределах окажется вес 95% марси- ан такого роста.
Теперь займемся доверительной областью для значений зави- симой переменной.
Доверительная область для значений
Разброс значений складывается из разброса значений вокруг линии регресии и неопределенности положения самой этой ли- нии. Характеристикой разброса значений вокруг линии регрессии является остаточное стандартное отклонение s
y|x
, а неопределен-
Рис. 8.7. Б. 95% доверительная область для значений. Если мы хотим определить вес марсианина по его росту, нам следует воспользоваться именно этой доверительной областью.
АНАЛИЗ ЗАВИСИМОСТЕЙ
244
ности положения линии регрессии — стандартная ошибка рег- рессии
ˆy
s . Дисперсия суммы двух величин равна сумме диспер- сий, поэтому
2 2
ˆ
|
Y
y x
y
s
s
s
=
+
Подставив в эту формулу выражение для
ˆy
s из предыдущего раздела, получим:
(
)
(
)
2
|
2 1
1 1
Y
y x
X
x X
s
s
n
n
s
−
=
+ +
−
Тогда 100(1 –
α)-процентный доверительный интервал для зависимой переменной
ˆ
ˆ
Y
Y
y t s
y
y t s
α
α
−
< < +
Заметьте, что входящие в это неравенство величины ˆy и s
Y
зависят от х.
На рис. 8.7Б изображена полученная по этой формуле 95%
доверительная область для значений зависимой переменной. В
эту область попадет 95% всех возможных значений веса марси- ан любого роста. Например, с вероятностью 95% можно утвер- ждать, что любой 40-сантиметровый марсианин весит от 9,5 до
14,0г.
СРАВНЕНИЕ ДВУХ ЛИНИЙ РЕГРЕССИИ
Часто требуется сравнить линии регрессии, рассчитанные по двум выборкам. Это можно сделать тремя способами.
• Сравнить коэффициенты наклона b,
• Сравнить коэффициенты сдвига a.
• Сравнить линии в целом.
В первых двух случаях следует воспользоваться критерием
Стьюдента. Если нужно проверить, значимо ли различие в на- клоне двух прямых регрессии, критерий Стьюдента t вычисляет- ся по формуле:
ГЛАВА 8
245 1
2 1
2
,
b b
b
b
t
s
−
−
=
где b
1
– b
2
— разность коэффициентов наклона, a
1 2
b b
s
−
— ее стан- дартная ошибка. Затем вычисленное t сравним, как обычно, с кри- тическим значением t
α
, имеющим (n – 2) + (n – 2) = n
1
+ n
2
– 4
степени свободы.
Если обе регрессии оценены по одинаковому числу наблюде- ний, то стандартная ошибка разности
1 2
1 2
2 2
b b
b
b
s
s
s
−
=
+
Если же объемы выборок различны, следует воспользовать- ся объединенной оценкой остаточной дисперсии (она аналогична объединенной оценке дисперсии, приведенной в гл. 4):
(
)
(
)
1 2
общ
2 2
1
|
2
|
2
|
1 2
2 2
4
y x
y x
y x
n
s
n
s
s
n
n
−
+
−
=
+ −
Тогда формула для
1 2
b b
s
−
принимает вид
(
)
(
)
общ общ
1 2
1 2
2 2
|
|
2 2
1 2
1 1
y x
y x
b b
x
x
s
s
s
n
s
n
s
−
=
+
−
−
Можно сравнить и коэффициенты сдвига a
1
и а
2
. В этом случае
1 2
1 2
a a
a
a
t
s
−
−
=
Здесь
1 2
1 2
2 2
,
a a
a
a
s
s
s
−
=
+
когда обе регрессии вычислены по одинаковому числу точек.
При неодинаковом числе точек следует воспользоваться объеди- ненной оценкой дисперсии так же, как это было сделано выше.
Перейдем к сравнению двух линий регресии в целом. Срав- нить две линии регрессии — значит оценить вероятность нуле-
АНАЛИЗ ЗАВИСИМОСТЕЙ
246
вой гипотезы о совпадении линий*. Напомним, что коэффици- енты регрессии вычисляются так, чтобы разброс точек вокруг линии регрессии был минимален. Разброс этот характеризуется остаточной дисперсией
2
|
y x
s : чем меньше остаточная дисперсия,
тем лучше прямая регрессии соответствует имеющимся точкам.
Воспользуемся этим показателем для оценки результатов тако- го мысленного эксперимента. Объединим обе выборки в одну и построим для нее линию регрессии. Если линии регрессии для двух выборок близки, остаточная дисперсия при этом существен- но не изменится. И наоборот, если они различаются, то совпа- дение точек и линии ухудшится и остаточная дисперсия возрас- тет. Порядок действий таков.
• Построить прямую регресии для каждой из выборок.
• По остаточным дисперсиям
1 2
|
y x
s
и
2 2
|
y x
s
каждой из регрессий вычислить объединенную оценку остаточной дисперсии общ
2
|
y x
s
• Объединить обе выборки. Построить прямую регрессии для получившейся выборки и вычислить остаточную дисперсию един
2
|
y x
s
• Вычислить «выигрыш» от использования двух раздельных регрессий. Мерой выигрыша служит величина:
(
)
(
)
един общ в
2 2
1 2
|
1 2
|
2
|
2 4
2
y x
y x
y x
n
n
s
n
n
s
s
+ −
−
+ −
=
• По в
2
|
y x
s
и общ
2
|
y x
s
вычислить критерий F:
в общ
2
|
2
|
y x
y x
s
F
s
=
• Сравнить вычисленное значение с критическим значением
F для числа степеней свободы
ν
меж
= 2 и
ν
вну
= n
1
+ n
2
– 4. Если полученное значение больше критического, то гипотеза о совпадении линий регрессии должна быть отклонена.
* Методы, предназначенные для сравнения более чем двух линий регрессии,
описаны в книге: J. H. Zar. Biostatistical analysis. 2nd ed. Prentice-Hall.
Englewood Cliffs. N. J.. 1984.
ГЛАВА 8
247
Мышечная сила при ревматоидном артрите
Причины ограниченной подвижности при ревматоидном артрите разнообразны: болезненность суставов, их тугоподвижность,
атрофия мышц. Каков вклад каждого из этих факторов? Пыта- ясь ответить на этот вопрос, П. С. Хелливелл и С. Джексон*
исследовали, в частности, связь между мышечной массой и си- лой. В исследовании приняли участие 25 больных ревматоид- ным артритом (1-я группа) и 25 здоровых (2-я группа). Рассчи- тывали площадь поперечного сечения предплечья и ручным динамометром определяли силу сжатия кисти. Результат пока- зан на рис. 8.8. Кружки — результаты здоровых, квадратики —
больных ревматоидным артритом.
На рис. 8.9А представлены те же наблюдения, что и на рис.
8.8, и кроме того, две построенные по ним линии регрессии.
Проверим, есть ли значимое различие между линиями регрес-
* P. S. Helliwell, S. Jackson. Relationship between weakness and muscle wasting in rheumatoid arthritis. Ann. Rheum. Dis., 53:726—728, 1994.
Рис. 8.8. Зависимость мышечной силы от мышечной массы. Здоровые обозначены круж- ками, больные ревматоидным артритом — квадратиками. Одинакова ли зависимость у больных и здоровых?
АНАЛИЗ ЗАВИСИМОСТЕЙ
248
Рис. 8.9. А. Построим линии регрессии для каждой из групп и оценим разброс точек относительно этих линий. Б. Объединим группы и найдем линию регрес- сии для получившейся группы. Если разброс точек относительно этой линии зна- чительно превышает разброс относительно двух отдельных линий, то различия линий следует считать значимыми.
ГЛАВА 8
249
Таблица 8.2. Зависимость силы сжатия кисти от мышечной массы
Объединенная
1-я группа 2-я группа группа
Численность группы
25 25 50
Коэффициенты регрессии сдвиг а(s
a
)
3,3(22,4)
–7,3(25,3)
–23,1(50,5)
наклон b(s
b
)
2,41(0,702) 10,19(0,789) 6,39(1,579)
Остаточное стандартное отклонение s
x|y
40,5 45,7 129,1
сии. Параметры уравнений регрессии и остаточные стандарт- ные отклонения указаны в табл. 8.2. Вычислим объединенную оценку остаточной дисперсии
(
)
(
)
1 2
общ
2 2
1
|
2
|
2
|
1 2
2 2
,
4
y x
y x
y x
n
s
n
s
s
n
n
−
+
−
=
+ −
где n
1
и n
2
— численность 1-й и 2-й групп,
1 2
|
y x
s
и
2 2
|
y x
s — соответст- вующие остаточные дисперсии. Тогда
(
)
(
)
общ
2 2
2
|
25 2 40,5 25 2 45,7 1864.
25 25 4
y x
s
−
+
−
=
=
+
−
Теперь объединим группы и найдем уравнение регрессии для получившейся группы. Опустим вычисления, результат приве- ден в табл. 8.2. Линия регрессии изображена на рис. 8.9Б. Оста- точная дисперсия единой регрессии един
2
|
y x
s
= 129,1 2
= 16667. Вы- игрыш от использования раздельных регрессий:
(
)
(
)
(
)
(
)
един общ в
2 2
1 2
|
1 2
|
2
|
2 4
2 25 25 2 16667 25 25 4 1864 357136.
2
y x
y x
y x
n
n
s
n
n
s
s
+ −
−
+ −
=
=
+
−
−
+
−
=
=
Значение F:
в общ
2
|
2
|
357136 191,596.
1864
y x
y x
s
F
s
=
=
=
АНАЛИЗ ЗАВИСИМОСТЕЙ
250
Критическое значение F при уровне значимости
α = 0,011 и числе степеней свободы
ν
меж
= 2 и
ν
вну
= 25 + 25 – 4 равно 5,10, то есть гораздо меньше полученного нами. Таким образом, у здо- ро вых людей сила сжатия зависит от размера предплечья иначе чем у больных артритом.
В чем заключается отличие? Сравним коэффициенты регрес- сий. Начнем с коэффициента сдвига а.
1 2
1 2
2 2
2 2
22,4 25,3 33,8.
a a
a
a
s
s
s
−
=
+
=
+
=
Тогда
(
)
1 2
1 2
3,3 7,3 0,314.
33,8
a a
a
a
t
s
−
− −
−
=
=
=
При уровне значимости
α = 0,05 при числе степеней свобо- ды
ν = n
1
+ п
2
– 4 = 46 критическое значение t равно 2,013.
Поскольку полученное нами значение t меньше критического,
заключаем, что между а
1
и а
2
нет значимого различия.
При сравнении коэффициентов наклона получим t = 7,367,
что больше критического. Итак, линии регрессии различаются наклоном, который круче в группе здоровых.
КОРРЕЛЯЦИЯ
Регрессионный анализ позволяет оценить, как одна переменная зависит от другой и каков разброс значений зависимой перемен- ной вокруг прямой, определяющей зависимость. Эти оценки и соответствующие доверительные интервалы позволяют пред- сказать значение зависимой переменной и определить точность этого предсказания. Результаты регрессионного анализа можно представить только в достаточно сложной цифровой или гра- фической форме. Однако нас часто интересует не предсказание значения одной переменной по значению другой, а просто ха- рактеристика тесноты (силы) связи между ними, при этом выра- женная одним числом.
Эта характеристика называется коэффициентом корреляции,
обычно ее обозначают буквой r. Коэффициент корреляции
МО
-
ГЛАВА 8
251
жет принимать значения от –1 до +1. Знак коэффициента корре- ляции показывает направление связи (прямая или обратная), а абсолютная величина — тесноту связи. Коэффициент, равный
–1, определяет столь же жесткую связь, что и равный 1. В отсутст- вие связи коэффициент корреляции равен нулю.
На рис. 8.10 приведены примеры зависимостей и соответст- вующие им значения r. Мы рассмотрим два коэффициента кор- реляции.
Коэффициент корреляции Пирсона предназначен для описа- ния линейной связи количественных признаков; как и регресси-
1 ... 16 17 18 19 20 21 22 23 ... 37
Р
ИС
. 8.10. Чем теснее связь между переменными, тем ближе абсолютная величина ко- эффициента корреляции к 1.
АНАЛИЗ ЗАВИСИМОСТЕЙ
252
онный анализ, он требует нормальности распределения. Когда говорят просто о «коэффициенте корреляции», почти всегда име- ют в виду коэффициент корреляции Пирсона, именно так мы и будем поступать.
Коэффициент ранговой корреляции Спирмена можно использо- вать, когда связь нелинейна — и не только для количественных, но и для порядковых признаков. Это непараметрический метод, он не требует какого-либо определенного типа распределения.
О количественных, качественных и порядковых признаках мы уже говорили в гл. 5. Количественные признаки — это обыч- ные числовые данные, такие, как рост, вес, температура. Зна- чения количественного признака можно сравнить между собой и сказать, какое из них больше, на сколько и во сколько раз. На- пример, если один марсианин весит 15 г, а другой 10, то первый тяжелее второго и в полтора раза и на 5 г. Значения порядкового признака тоже можно сравнить, сказав, какое из них больше, но нельзя сказать, ни на сколько, ни во сколько раз. В медицине порядковые признаки встречаются довольно часто. Например,
результаты исследования влагалищного мазка по Папаниколау оценивают по такой шкале: 1) норма, 2) легкая дисплазия, 3)
умеренная дисплазия, 4) тяжелая дисплазия, 5) рак in situ. И ко- личественные, и порядковые признаки можно расположить по порядку — на этом общем свойстве основана большая группа непараметрических критериев, к которым относится и коэффи- циент ранговой корреляции Спирмена. С другими непараметри- ческими критериями мы познакомимся в гл. 10.
Коэффициент корреляции Пирсона
И все же, почему для описания тесноты связи нельзя воспользо- ваться регрессионным анализом? В качестве меры тесноты связи можно было бы использовать остаточное стандартное отклоне- ние. Однако если поменять местами зависимую и независимую переменные, то остаточное стандартное отклонение, как и дру- гие показатели регрессионного анализа, будет иным. Взглянем на рис. 8.11. По известной нам выборке из 10 марсиан построены две линии регрессии. В одном случае вес — зависимая перемен- ная, во втором — независимая. Линии регрессии заметно разли-
ГЛАВА 8