Файл: Книга Primer of biostatistics fourth edition.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 07.12.2023

Просмотров: 584

Скачиваний: 7

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

* С этим понятием мы уже встречались в гл. 3 и 4; другое название чувстви- тельности — мощность.
Глава 6
Что значит «незначимо»:
чувствительность критерия
До сих пор мы занимались оценкой вероятности нулевой гипо- тезы, то есть предположения об отсутствии эффекта экспери- ментального воздействия. Вероятность нулевой гипотезы (P) мы оценивали с помощью различных критериев значимости — F, t,
q, q
′, z и χ
2
. Если значение критерия превышало критическое,
нулевую гипотезу отклоняли. При этом мы совершенно спра- ведливо утверждали, что нашли статистически значимые раз-
личия. Если значение критерия оказывалось меньше критичес- кого, говорили об отсутствии статистически значимых раз-
личий. И это тоже справедливо. К сожалению, обычно этим не ограничиваются. Не обнаружив различий, исследователь счи- тает это доказательством их отсутствия. А это уже совершенно неверно. Прежде чем сделать вывод об отсутствии различий следует выяснить, была ли чувствительность критерия доста- точной, чтобы их обнаружить.
Чувствительностью* называется способность критерия об- наружить различия. Чувствительность зависит от величины раз-

162
ГЛАВА 6
ГЛАВА 6
личий, от разброса данных и от объема выборки. Наиболее ва- жен объем выборок: чем он больше, тем чувствительнее крите- рий. При достаточно больших выборках малейшее различие оказывается статистически значимым. И наоборот если выбор- ки малы, даже большие различия статистически незначимы. Зная эти закономерности, можно заранее определить численность выборок, необходимую для выявления эффекта.
ЭФФЕКТИВНЫЙ ДИУРЕТИК
Разбирая критерий Стьюдента, мы использовали пример, в ко- тором препарат, предположительно обладавший диуретическим действием, в действительности не увеличивал диурез. Сейчас рассмотрим обратный пример. Исследуемый препарат на самом деле диуретик. Он увеличивает суточный диурез в среднем с
1200 до 1400 мл. На рис. 6.1А показано распределение суточно- го диуреза для всех 200 членов совокупности при приеме пла- цебо, а на рис. 6.1Б при приеме этого препарата.
Теперь представим себе исследователя, который, разумеет- ся, не может наблюдать всю совокупность. Случайным образом он выбирает две группы, по 10 человек в каждой, дает 1-й груп- пе плацебо, а 2-й — препарат (диуретик) после чего измеряет суточный диурез в обеих группах. На рис. 6.1В представлены результаты этих измерений. В 1-й группе средний суточный ди- урез составил 1180 мл (стандартное отклонение 144 мл), а во 2- й группе — 1400 мл (стандартное отклонение 245 мл). Оценим различия по критерию Стьюдента.
Объединенная оценка дисперсии равна
(
) (
)
2 2
2 2
2 2
1 2
1 1
144 245 40381 201 .
2 2
s
s
s
=
+
=
+
=
=
Значение t равно
2 1
2 2
2 2
2 1
1400 1180 2,447,
201 201 10 10
X
X
t
s
s
n
n


=
=
=
+
+


163
Рис. 6.1. Исследование диуретического эффекта нового препарата. А. Суточный диурез в совокупности из 200 человек после приема плацебо. Десять человек, попавшие в вы- борку, помечены черным. Б. Суточный диурез в той же совокупности после приема препарата. Суточный диурез увеличился на 200 мл. Десять человек, попавшие в выбор- ку, помечены штриховкой. В. Такими видит данные исследователь; t = 2,447. Это боль- ше критического значения t для 18 степеней свободы (2,101) и 5% уровня значимости,
поэтому можно заключить, что различия статистически значимы, то есть препарат об- ладает диуретическим действием.
ЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ

164
Рис. 6.2. А и Б. Та же совокупность, что и на рис. 6.1, но в выборку попали другие люди.
В. Изменился и результат, который наблюдает исследователь. Теперь t = 1,71, что мень- ше критического значения. В данном случае исследователю не повезло — ему придется признать, что значимых различий не выявлено, то есть диуретическое действие препа- рата не доказано, — тогда как в действительности оно есть.
ГЛАВА 6

165
Рис. 6.3. А. Такое распределение мы получим, извлекая пары случайных выборок по 10
человек в каждой из одной и той же совокупности и каждый раз вычисляя t (см. рис.
4.5А). Только 5% значений по абсолютной величине превышают 2,1 (помечены чер- ным). Таким образом, 2,1 — критическое значение для 5% уровня значимости. Б. Те- перь будем извлекать пары выборок из разных совокупностей, средний диурез в кото- рых различается на 200 мл (рис. 6.1А и Б). Распределение значений t сместилось впра- во. Критическое значение превышено в 111 случаях из 200. Следовательно, вероятность получить правильное заключение об эффективности препарата составляет 55%.
ЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ
что превышает 2,101 — критическое значение при уровне зна- чимости 0,05 и числе степеней свободы 2(n – 1) = 18. Поэтому нулевая гипотеза будет отклонена, а препарат будет назван эф- фективным диуретиком. Как это и есть на самом деле.
Конечно, исследователь мог бы набрать и другие две груп- пы, например представленные на рис. 6.2. На этот раз средний суточный диурез — 1216 мл в контрольной группе и 1368 мл в группе получавшей препарат. Стандартное отклонение состав- ляет соответственно 97 и 263 мл, а объединенная оценка дис- персии 1/2(97 2
+ 263 2
) = 198 2
. Теперь значение t:
2 2
1368 1216 1,71,
198 198 10 10
t

=
=
+
что меньше 2,101. Нулевую гипотезу отклонить нельзя, хотя мы то знаем, что она неверна! Какова вероятность такой ситуации?


166
ГЛАВА 6
Для ответа на этот вопрос повторим мысленные эксперимен- ты, подобные тем, что мы проделали в гл. 4 (см. рис. 4.5). Тогда мы строили распределение величины для случая, когда сравни- ваемые группы представляли собой случайные выборки из од- ной и той же совокупности. Это распределение показано на рис.
6.ЗА. Теперь построим распределение t для случая, когда вы- борки извлекаются из разных совокупностей. Из двух совокуп- ностей, показанных на рис. 6.2, можно извлечь более 10 27
выбо- рок объемом в 10 человек; ограничимся пока двумястами. Ре- зультат показан на рис. 6.3Б. В 111 случаях из 200 значение t
оказалось не меньше критического значения 2,101. Итак, в этом случае (то есть при этих величине эффекта, дисперсии и чис- ленности групп) вероятность отклонить нулевую гипотезу (то есть найти различие) составляет 111/200 = 0,55. Можно оценить и вероятность не отклонить нулевую гипотезу (то есть не най- ти существующих различий). Это 1 — 0,55 = 0,45, то есть 45%.
Как видим, шансы обнаружить и не обнаружить диуретический эффект были примерно равны.
ДВА РОДА ОШИБОК
В медицине для характеристики диагностических проб часто используют два показателя: чувствительность и специфичность.
Чувствительность — это вероятность положительного резуль- тата у больного; она характеризует способность пробы выяв- лять болезнь. Специфичность — это вероятность отрицатель- ного результата у здорового; можно сказать, что она характери- зует способность пробы выявлять отсутствие болезни.
Диагностические пробы и критерии значимости во многом схо- жи. Диагностические пробы выявляют болезни, критерии значи- мости выявляют различия. Можно сказать, что с третьей главы по пятую мы занимались специфичнос
1   ...   10   11   12   13   14   15   16   17   ...   37

Уровень значимости
Чтобы получить наглядное представление о связи чувствитель- ности критерия с уровнем значимости, вернемся к рис. 6.3. Вы- бирая уровень значимости
α, мы тем самым задаем критичес- кое значение t. Это значение мы выбираем так, чтобы доля пре- восходящих его значений — при условии, что препарат не ока-
зывает эффекта, — была равна
α (рис. 6.3А). Чувствительность критерия есть доля тех значений критерия, которые превосхо- дят критическое при условии, что лечение дает эффект (рис.
6.3Б). Как видно из рисунка, если изменить критическое значе- ние, изменится и эта доля.

169
Рис. 6.4. Выбирая уровень значимости
α, мы тем самым определяем критический уровень t. Чем меньше
α, тем выше критический уровень и тем ниже чувствитель- ность. А. Уровень значимости
α = 0,05, критическое значение t = 2,101, чувстви- тельность 55%. Б. Теперь уровень значимости
α = 0,01, критическое значение t вы- росло до 2,878 и чувствительность снизилась до 45%.
ЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ

170
ГЛАВА 6
Рассмотрим подробнее, как это происходит. На рис. 6.4А изо- бизображено распределение значений критерия Стьюдента.
Отличие от рис. 6.3 состоит в том, что теперь это распределе- ние, полученное для всех 10 27
возможных пар выборок. Верх- ний график — это распределение значений t для случая, когда препарат не обладает диуретическим действием. Предположим,
мы выбрали уровень значимости 0,05, то есть приняли
α = 0,05.
В этом случае критическое значение равно 2,101, то есть мы отвергаем нулевую гипотезу и признаем различия статистичес- ки значимыми при t > +2,101 или t < –2,101. Соответствующие области на графике заштрихованы, а критическое значение изоб- ражено вертикальной пунктирной линией, спускающейся к ниж- нему графику, на котором изображено распределение t для слу- чая, когда препарат обладает диуретическим действием, а имен- но увеличивает суточный диурез на 200 мл. По форме, нижний график такой же, как верхний, но сдвинут на 200 мл вправо.
Доля значений t, превышающих критическое значение 2,101
(заштрихованная область), составляет 0,55. Итак, чувствитель- ность критерия в данном случае 55%; а вероятность ошибки второго рода
β = 1 – 0,55 = 0,45, то есть 45%.
А теперь взглянем на рис. 6.4Б. На нем изображены те же самые распределения значений t. Отличие в выбранном уров- не значимости —
α = 0,01. Критическое значение t повыси- лось до 2,878, пунктирная линия сместилась вправо и отсека- ет от нижнего графика только 45%. Таким образом, при пере- ходе от 5% к 1% уровню значимости чувствительность снизи- лась с 55 до 45%. Соответственно, вероятность ошибки II рода повысилась до 1 – 0,45 = 0,55.
Итак, снижая
α, мы снижаем риск отвергнуть верную нуле- вую гипотезу, то есть найти различия (эффект) там, где их нет.
Но тем самым мы снижаем и чувствительность — вероятность выявить имеющиеся на самом деле различия.
Величина различий
Рассматривая влияние уровня значимости, мы принимали ве- личину различий постоянной: наш препарат увеличивал суточ- ный диурез с 1200 до 1400 мл, то есть на 200 мл. Теперь примем


171
Рис. 6.5. Чем больше величина различий, тем сильнее распределение t сдвигается впра- во и тем выше чувствительность.
ЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ
постоянным уровень значимости
α = 0,05 и посмотрим, как чув- ствительность критерия зависит от величины различий. Понят- но, что большие различия выявить легче, чем маленькие. Рас- смотрим следующие примеры. На рис. 6.5А изображено рас- пределение значений t для случая, когда исследуемый препарат не обладает диуретическим действием. Заштрихованы 5% наиболь- ших по абсолютной величине значений t, расположенных левее –
2,101 или правее +2,101. На рис. 6.5Б изображено распределение значений t для случая, когда препарат увеличивает суточный

172
Рис. 6.6. Чувствительность критерия Стьюдента как функция от величины различий при объеме выборок 10 человек и уровне значимости
α = 0,05. Пунктирная линия пока- зывает, как пользоваться графиком. Для величины различий 200 мл чувствительность составляет 0,55.
ГЛАВА 6
1,0
0,8
0,6
0,4
0,2
0
100
200
300
Увеличение суточного диуреза, мл
Ч
ув
ст
вите
л
ьн
о
с
ть

173
ЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ
диурез в среднем на 200 мл (эту ситуацию мы уже рассматрива- ли). Выше правого критического значения лежит 55% возмож- ных значений t: чувствительность равна 0,55. Далее, на рис. 6.5В
представлено распределение значений t для случая, когда пре- парат увеличивает диурез в среднем на 100 мл. Теперь только
17% значений t превышает 2,101. Тем самым, чувствительность критерия равна лишь 0,17. Иными словами, эффект будет обна- ружен менее чем в одном из каждых пяти сравнений контрольной и экспериментальной групп. Наконец, рис. 6.5Г представляет случай увеличения диуреза на 400 мл. В критическую область попало 99% значений t. Чувствительность критерия равна 0,99:
различия будут выявлены почти наверняка.
Повторяя этот мысленный эксперимент, можно определить чувствительность критерия для всех возможных значений эф- фекта, от нулевого до «бесконечного». Нанеся результаты на график, мы получим рис. 6.6, где чувствительность критерия показана как функция от величины различий. По этому графи- ку можно определить, какой будет чувствительность при той или иной величине эффекта. Пользоваться графиком пока что не очень удобно, ведь он годится только для этих численности групп, стандартного отклонения и уровня значимости. Вскоре мы построим другой график, более подходящий для планирова- ния исследования, но сначала нужно подробнее разобраться с ролью разброса значений и численности групп.
Разброс значений
Чувствительность критерия возрастает с ростом наблюдаемых различий; с ростом разброса значений чувствительность, напро- тив, снижается.
Напомним, что критерий Стьюдента t определяется следую- щим образом:
1 2
2 2
1 2
,
X
X
t
s
s
n
n

=
+
где
1
X и
2
X
— средние, s — объединенная оценка стандартного