Файл: Книга Primer of biostatistics fourth edition.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 07.12.2023

Просмотров: 582

Скачиваний: 7

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

253
Рис. 8.11. Если поменять местами х и у, уравнение регрессии получится другим, а коэф- фициент корреляции останется прежним.
АНАЛИЗ ЗАВИСИМОСТЕЙ

254
чаются. Получается, что связь роста с весом одна, а веса с рос- том — другая. Асимметричность регрессионного анализа — вот что мешает непосредственно использовать его для характери- стики силы связи. Коэффициент корреляции, хотя его идея вы- текает из регрессионного анализа, свободен от этого недостат- ка. Приводим формулу.
(
)(
)
(
) (
)
2 2
,
X
X Y Y
r
X
X
Y Y


=





где X и
Y — средние значения переменных X и Y. Выражение для r «симметрично» —поменяв местами X и Y, мы получим ту же величину. Коэффициент корреляции принимает значения от
–1 до +1. Чем теснее связь, тем больше абсолютная величина коэффициента корреляции. Знак показывает направление свя- зи. При r > 0 говорят о прямой корреляции (с увеличением од- ной переменной другая также возрастает), при r < 0 — об обрат- ной (с увеличением одной переменной другая уменьшается). Вер- немся к рис. 8.10. На рис. 8.10А изображена максимально силь- ная прямая корреляция: r = +1. На рис. 8.10Б — максимально сильная обратная корреляция: r = –1. На рис. 8.10В корреляция прямая, тоже достаточно сильная: r = 0,8. Наконец, на рис. 8.10Г
какая-либо связь между признаками отсутствует: r = 0.
Возьмем пример с 10 марсианами, который мы уже рассматрива- ли с точки зрения регрессионного анализа. Вычислим коэффици- ент корреляции. Исходные данные и промежуточные результаты вы- числений приведены в табл. 8.3. Объем выборки n = 10, средний рост
369 10 36,9
X
X n
=
=
=

и вес
103,8 10 10,38.
Y
Y n
=
=
=

Находим
Σ(XX )(Y
Y
) = 99,9,
Σ(XX )
2
= 224,8,
Σ(Y
Y
)
2
= 51,9.
Подставим полученные значения в формулу для коэффици- ента корреляции:
99,9 0,925.
224,8 51,9
r
=
=
×
Величина r близка к 1, что говорит о тесной связи роста и веса. Чтобы лучше представить себе, какой коэффициент корреля- ции следует считать большим, а какой незначительным, взгляни-
ГЛАВА 8

255
X
Y
Х –
X
Y –
Y
(X –
X )(Y –
Y
) (Х –
X )
2
(Y –
Y
)
2 31 7,8
–5,9
–2,6 15,3 34,8 6,8 32 8,3
–4,9
–2,1 10,3 24,0 4,4 33 7,6
–3,9
–2,8 10,9 15,2 7,8 34 9,1
–2,9
–1,3 3,8 8,4 1,7 35 9,6
–1,9
–0,8 1,5 3,6 0,6 35 9,8
–1,9
–0,6 1,1 3,6 0,4 40 11,8 3,1 1,4 4,3 9,6 2,0 41 12,1 4,1 1,7 7,0 16,8 2,9 42 14,7 5,1 4,3 22,0 26,0 18,5 46 13,0 9,1 2,6 23,7 82,8 6,8 369 103,8 0,0 0,2 99,9 224,8 51,9
те на табл. 8.4 — в ней приведены коэффициенты корреляции для примеров, которые мы разбирали ранее.
Связь регрессии и корреляции
Все примеры коэффициентов корреляции (табл. 8.4) мы перво- начально использовали для построения линий регрессии. Дей- ствительно, между коэффициентом корреляции и параметрами регрессионного анализа существует тесная связь, которую мы сейчас продемонстрируем. Разные способы представления ко- эффициента корреляции, которые мы при этом получим, позво- лят лучше понять смысл этого показателя.
Вспомним, что уравнение регрессии строится так, чтобы ми- нимизировать сумму квадратов отклонений от линии регрессии.
Таблица 8.3. Вычисление коэффициента корреляции
Таблица 8.4. Примеры корреляций
Пример
Коэффициент Объем корреляции r выборки п
Рост и вес марсиан (рис. 8.7)
0,925 10
Сила сжатия кисти и мышечная масса у 0,938 25
здоровых (рис. 8.9А)
Сила сжатия кисти и мышечная масса, 0,581 50
объединенная группа (рис. 8.9Б)
АНАЛИЗ ЗАВИСИМОСТЕЙ


256
Обозначим эту минимальную сумму квадратов S
ост
(эту вели- чину называют остаточной суммой квадратов). Сумму квадра- тов отклонений значений зависимой переменной Y от ее сред- него Y обозначим S
общ
. Тогда:
2
ост общ
1
S
r
S
= −
Величина r
2
называется коэффициентом детерминации —
это просто квадрат коэффициента корреляции. Коэффициент де- терминации показывает силу связи, но не ее направленность.
Из приведенной формулы видно, что если значения зависи- мой переменной лежат на прямой регрессии, то S
ост
= 0, и тем самым r = +1 или r = –1, то есть существует линейная связь зависимой и независимой переменной. По любому значению независимой переменной можно совершенно точно предсказать значение зависимой переменной. Напротив, если переменные вообще не связаны между собой, то S
ост
= S
общ
. Тогда r = 0.
Видно также, что коэффициент детерминации равен той доле общей дисперсии S
общ
,которая обусловлена или, как говорят,
объясняется линейной регрессией*.
Остаточная сумма квадратов S
ост связана с остаточной дис- персией
2
|
y x
s соотношением S
ост
= (п – 2)
2
|
y x
s , а общая сумма квад- ратов S
общ с дисперсией
2
y
s
соотношением S
общ
= (п – 1)
2
y
s
. В
таком случае
2
|
2 2
2 1
1
y x
y
s
n
r
n
s

= −

Эта формула позволяет судить о зависимости коэффициента корреляции от доли остаточной дисперсии в полной дисперсии
2 2
|
y x
y
s
s . Чем эта доля меньше, тем больше (по абсолютной ве- личине) коэффициент корреляции, и наоборот.
Мы убедились, что коэффициент корреляции отражает тес- ноту линейной связи переменных. Однако если речь идет о пред- сказании значения одной переменной по значению другой, на
* Следует помнить, что в статистике слова «обусловлена» и «объясняется»
не обязательно означают причинную связь.
ГЛАВА 8

257
коэффициент корреляции не следует слишком полагаться. На- пример, данным на рис. 8.7 соответствует весьма высокий коэф- фициент корреляции (r = 0,92), однако ширина доверительной области значений показывает, что неопределенность предсказа- ния довольно значительна. Поэтому даже при большом коэффи- циенте корреляции обязательно вычислите доверительную об- ласть значений.
И под конец приведем соотношение коэффициента корреля- ции и коэффициента наклона прямой регрессии b:
,
X
Y
s
r b
s
=
где b — коэффициент наклона прямой регрессии, s
X
и s
Y
стан- дартные отклонения переменных.
Если не брать во внимание случай s
X
= 0, то коэффициент корреляции равен нулю тогда и только тогда, когда b = 0. Этим фактом мы сейчас и воспользуемся для оценки статистической значимости корреляции.
Статистическая значимость корреляции
Поскольку из b = 0 следует r = 0, гипотеза об отсутствии корреля- ции равнозначна гипотезе о нулевом наклоне прямой регрес- сии. Поэтому для оценки статистической значимости корреля- ции можно воспользоваться уже известной нам формулой для оценки статистической значимости отличия b от нуля:
b
b
t
s
=
Здесь число степеней свободы
ν = n – 2. Однако если коэф- фициент корреляции уже вычислен, удобнее воспользоваться формулой:
2 1
2
r
t
r
n
=


Число степеней свободы здесь также
ν = п – 2.
АНАЛИЗ ЗАВИСИМОСТЕЙ


258
При внешнем несходстве двух формул для t, они тождест- венны. Действительно, из того, что
2
|
2 2
2 1
,
1
y x
y
s
n
r
n
s

= −

следует
(
)
2 2
2
|
2 1
1
y x
Y
n
s
r s
n

=


Подставив значение
|
y x
s в формулу для стандартной ошибки
|
1
,
1
y x
b
x
s
s
s
n
=

получим
2 1
2
Y
b
X
s
r
s
s
n

=

С другой стороны, поскольку
,
X
Y
s
r b
s
=
имеем
Y
X
s
b r
s
=
Теперь подставим выражения для s
b
и b в формулу
b
t b s
=
Получим:
2 2
1 1
2 2
Y
X
Y
X
s
r
s
r
t
s
r
r
s
n
n
=
=




ГЛАВА 8

259
Животный жир и рак молочной железы
В опытах на лабораторных животных показано, что высокое со- держание животного жира в рационе повышает риск рака мо- лочной железы. Наблюдается ли эта зависимость у людей? К.
Кэррол* собрал данные о потреблении животных жиров и смертности от рака молочной железы по 39 странам. Результат представлен на рис. 8.12А. Коэффициент корреляции между потреблением животных жиров и смертностью от рака молоч- ной железы оказался равен 0,90. Оценим статистическую зна- чимость корреляции.
2 0,90 12,56.
1 0,90 39 2
t
=
=


Критическое значение t
0,001
при числе степеней свободы
ν =
39 – 2 = 37 равно 3,574, то есть меньше полученного нами. Та- ким образом, при уровне значимости 0,001 можно утверждать,
что существует корреляция между потреблением животных жи- ров и смертностью от рака молочной железы.
Теперь проверим, связана ли смертность с потреблением рас- тительных жиров? Соответствующие данные приведены на рис.
8.12Б. Коэффициент корреляции равен 0,15. Тогда
2 0,15 0,92.
1 0,15 39 2
t
=
=


Даже при уровне значимости 0,10 вычисленное значение t
меньше критического. Корреляция статистически не значима.
Таким образом, риск рака молочной железы статистически значимо связан с потреблением животных, но не растительных жиров. Значит ли это, что животный жир способствует развитию рака молочной железы? Пока нет. Ведь обе рассматриваемые пе- ременные могут зависеть от какой-то третьей. В обсервацион-
* К. К. Carroll. Experimental evidence of dietary factors and hormone-dependent cancers. Cancer Res., 35:3375—3383,1975.
АНАЛИЗ ЗАВИСИМОСТЕЙ

260
Рис. 8.12. Смертность от рака молочной железы и потребление жиров на душу населе- ния в разных странах. А. Потребление животных жиров. Б. Потребление растительных жиров. Связь смертности с потреблением животных жиров достаточно отчетлива, чего не скажешь о связи с потреблением растительных жиров.
ГЛАВА 8


261
ном исследовании, каковым является работа Кэррола, такую возможность отвергнуть нельзя*. Однако экспериментальные данные, о которых мы упомянули выше, — сильный аргумент в пользу именно причинно-следственной связи.
Вообще истолкование результатов регрессионного и корре- ляционного анализа зависит от того, в каком исследовании были получены данные — обсервационном или экспериментальном.
Если мы обнаружили связь переменных в обсервационном ис- следовании, то это не значит, что одна из них влияет на другую.
Возможно, их согласованные изменения — результат действия какого-то неизвестного нам фактора. В экспериментальном ис- следовании, произвольно меняя одну из переменных, мы мо- жем быть уверены, что связь, если она будет выявлена, является причинной. Впрочем, осторожность не помешает и в этом слу- чае. В самом деле, трудно менять только одну переменную. Уве- личивая содержание жира в рационе, мы либо увеличиваем об- щую калорийность, либо снижаем содержание белков и углево- дов. Кто поручится, что канцерогенное действие оказывает имен- но жир, а не дисбаланс питательных веществ?
КОЭФФИЦИЕНТ РАНГОВОЙ КОРРЕЛЯЦИИ СПИРМЕНА
Расчет коэффициента корреляции возможен при тех же услови- ях, что и регрессионный анализ. Это прежде всего линейность связи переменных и нормальность распределения. Эти условия выполняются далеко не всегда. Кроме того, в клинических ис- следованиях мы часто имеем дело с порядковыми признаками,
а к ним ни регрессионный анализ, ни расчет коэффициента кор-
* Например, исследования показывают, что заболеваемость раком молочной железы связана с уровнем доходов, числом автомобилей и телевизоров в семье. (В. S. Drasar, D. Irving. Environmental factors and cancer of the colon and breast. Br. J. Cancer, 27:167—172, 1973.) Ho значит ли это, что, поку- пая новый автомобиль, домашняя хозяйка увеличивает риск заболеть ра- ком молочной железы? На основании таких данных мы вправе только пред- положить, что какой-то фактор, связанный с уровнем жизни, влияет на риск рака молочной железы, но не можем точно указать этот фактор.
АНАЛИЗ ЗАВИСИМОСТЕЙ

262
реляци, разумеется, неприменим. В подобных случаях следует воспользоваться коэффициентом ранговой корреляции Спирме- на*. Это непараметрический метод — он не требует нормально- сти распределения; не требует он и линейной зависимости, его можно применять как к количественным, так и к порядковым признакам**.
Идея коэффициента ранговой корреляции Спирмена (его обо- значают r
s
,) проста. Нужно упорядочить данные по возраста- нию и заменить реальные значения их рангами. Рангом значе- ния называется его номер в упорядоченном ряду. Например, в ряду 1,4, 8, 8, 12 ранг числа 4 равен 2. Затем, беря вместо самих значений их ранги, рассчитывают обычный коэффициент кор- реляции Пирсона. Это и будет коэффициент ранговой корреля- ции Спирмена. Его можно рассчитать и проще:
2 3
6 1
,
s
d
r
n
n
= −


где d — разность рангов для каждого члена выборки.
Как быть, если в ряду встретятся одинаковые значения? Ска- жем, в приведенном примере это две восьмерки. Им следует
* Упомянем также коэффициент ранговой корреляции Кендалла, обо- значаемый
τ. В отличие от коэффициента ранговой корреляции Спир- мена он может быть обобщен для случая нескольких независимых переменных. Заключения, основанные на использовании обоих ко- эффициентов, одинаковы, хотя числовые значения коэффициентов не совпадают. О коэффициенте ранговой корреляции Кендалла можно прочесть в книге: S. Siegel, N. J. Castellan Non-parametric statistics for the behavioral sciences (2d ed.). McGraw-Hill, New York, 1988.
** Если параметрические методы, требующие нормального распреде- ления, применить к данным с иным типом рапределения, это приве- дет к ошибочному заключению. Напротив, непараметрические ме- тоды можно смело применять и в случае нормального распределе- ния. Однако тогда чувствительность их будет несколько ниже чувст- вительности параметрических методов. Что касается коэффициента ранговой корреляции Спирмена, то он и в этом случае проигрывает коэффициенту корреляции Пирсона весьма незначительно.
ГЛАВА 8


263
присвоить один и тот же ранг, равный среднему занимаемых ими мест: (3 + 4)/2 = 3,5. Рангом стоящего за ними числа 12
будет 5.
Посмотрим, как вычислить r
s
для знакомой нам выборки из
10 марсиан (табл. 8.5). Вначале упорядочим по возрастанию зна- чения каждой из переменных. Ранг 1 присваивается меньшему значению, 10 — большему. Упорядочим марсиан по росту. На
5-м и 6-м месте в нем стоят одинаковые значения. Присвоим им общий ранг (5 + 6)/2 = 5,5. Затем упорядочим марсиан по весу и для каждого марсианина вычислим разность рангов роста и веса.
Наконец, вычислим коэффициент ранговой корреляции Спир- мена:
( ) ( )
(
)
2 2
2 2
2 2
2 2
2 3
6 1
1 2
0 0,5 0,5 0
0 0
1 10 10 0,96.
s
r


− + − + + +
+ −
+ + +


= −
=

=
Обратимся к таблице 8.6, где приведены критические зна- чения коэффициента ранговой корреляции Спирмена для раз- ных уровней значимости и объемов выборки. Критическое зна- чение для уровня значимости 0,001 и объема выборки n = 10
равно 0,903, что меньше полученного нами. Тем самым, корре- ляция статистически значима (Р < 0,001).
1   ...   17   18   19   20   21   22   23   24   ...   37