Файл: Книга Primer of biostatistics fourth edition.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 07.12.2023

Просмотров: 591

Скачиваний: 7

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

186
врачу. (Этот пример мы подробно рассмотрели в гл. 5, см. табл.
5.5.) Допустим, мы хотим выявить различия не меньшие, чем в табл. 6.3. Уровень значимости
α = 0,05, общее число обследо- ванных N = 165. Расссчитаем сначала сумму
(
)
(
)
(
) (
)
(
) (
)
(
)
2 2
2 2
2 2
2 0,025 0,250 0,350 0,250 0,350 0,225 0,250 0,650 0,100 0,300 0,350 0,250 0,650 0,300 0,350 0,200 0,300 0,650 0,225 0,450 0,350 0,300 0,650 0,450 0,350 0,225 0,450 0,650 0,
0,450 0,650
ij
i
j
i
j
p
R C
R C


×
=
+
×

×

×
+
+
+
×
×

×

×
+
+
+
×
×

×
+
=
×

114.
Тогда
(
)(
)
165 0,114 2,50.
3 1 2 1 1
ϕ =
=

− +
По рис 6.10 находим, что для
ϕ = 2,50 при ν
меж
= (r – 1)(с – 1) =
= (3 – 1)(2 – 1) = 2 и
ν
вну
=
∞ степенях свободы и уровне значимо- сти
α = 0,05 чувствительность равна 0,98.
ПРАКТИЧЕСКИЕ ТРУДНОСТИ
Нетрудно рассчитать чувствительность критерия задним чис- лом, когда и стандартное отклонение, и величина эффекта уже известны. К сожалению, мы не знаем эти параметры, когда пла- нируем исследование. Стандартное отклонение можно пример- но оценить по литературным данным или проведя предвари- тельное исследование. Величину эффекта узнать заранее невоз- можно (обычно ее оценка и является целью исследования). По- этому при расчете чувствительности нужно указать минималь-
ную величину эффекта, которую мы хотим выявить. Немногие решаются поведать миру о том, какова же эта величина, поэто-
ГЛАВА 6

187
Таблица 6.3. Предполагаемые доли женщин, обращавшихся к врачу по поводу нерегулярности менструаци
Обращались к врачу
Группа
Да
Нет
Всего
Контроль
0,025 0,225 0,250
Физкультурницы
0,100 0,200 0.300
Спортсменки
0,225 0,225 0,450
Всего
0,350 0,650 1,00
му чувствительность очень редко рассчитывают заранее. Меж- ду тем делать это совершенно необходимо: иначе мы рискуем проводить исследования, заведомо обреченные на неуспех.
Если после проведения исследования эффект обнаружен, то чувствительность уже неважна. В противном случае — если эф- фекта не выявлено — она приобретает первостепенное значе- ние. В самом деле, если мы не обнаружили статистически зна- чимых различий при чувствительности 80%, то с высокой веро- ятностью можно утверждать, что различий действительно нет.
Иными словами, мы получили отрицательный результат. Если же чувствительность составляла 25%, то мы просто не получи- ли никакого результата. Обычно данные, необходимые для оп- ределения чувствительности, содержатся в статье, поэтому чи- татель может сам провести расчет.
ЗАЧЕМ ВЫЧИСЛЯТЬ ЧУВСТВИТЕЛЬНОСТЬ?
Ранее, в 4 гл., мы разобрали распространенную ошибку, состоя- щую в многократном применении критерия Стьюдента. В тер- минах этой главы можно сказать, что многократное применение критерия Стьюдента увеличивает ошибку I рода. На практике же это означает, что нам сообщают о «статистически значимых раз- личиях» там, где их в действительности нет. Теперь, познако- мившись с методами определения чувствительности критерия и убедившись, насколько малой она нередко оказывается, мы мо- жем судить о причинах этого явления. Многие исследования не имели бы никаких шансов на успех, если бы завершались одним единственным сравнением. Конечно, проще сравнить группы по целому ряду лабораторных показателей, чем сделать числен-
ЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ


188
ность групп достаточной для выявления разницы в летальнос- ти. С другой стороны, пренебрежение оценкой чувствительно- сти приводит к тому, что во вполне корректно (в остальном) про- веденном исследовании клинически значимый эффект остается невыявленным из-за слишком малой численности групп.
Теперь мы получили достаточное представление о чувстви- тельности, чтобы избежать этих ловушек. Мы узнали о том, как можно оценить чувствительность критерия по данным, приве- денным в публикации, и как самому вычислить нужный объем выборок, чтобы обнаружить эффект заданной величины. Резуль- таты таких вычислений часто разочаровывают, поскольку ока- зывается, что численность групп должна быть огромной (осо- бенно в сравнении с тем обычно небольшим числом больных,
которые участвуют в клинических исследованиях)*. Как бы то ни было, мы должны отдавать себе отчет в ограниченности на- ших возможностей. Однако заведомо несостоятельные иссле- дования все же проводятся. Вряд ли авторы сознательно замал- чивают недостаток чувствительности, рассчитывая, что благо- даря эффекту множественных сравнений «что-нибудь найдет- ся». На самом деле большинство из них просто никогда ничего не слышали о чувствительности критериев.
Фрейман и соавт.** изучили 71 публикацию*** по результатам контролируемых испытаний, проведенных в 1960—1977 гг., в ко- торых исследуемый метод лечения не дал статистически значимо- го (Р < 0,05) улучшения исхода. Лишь в 20% работ численность групп была достаточной, чтобы обнаружить снижение частоты неблагоприятных исходов (смерть, осложнение и т. п.) на 25% с
*
По данным Р. А. и С. У. Флетчеров (R. A. Fletcher, S. W. Fletcher. Clinical research in general medical journals: a 30-year perspective. N. Engl. J. Med.,
301:180—183, 1979), изучавших работы, опубликованные в Journal of the
American Medical Association, Lancet и New England Journal of Medicine,
в период с 1946 по 1976 г. медиана численности группы составляла от 16
до 36 человек.
** J. A. Freiman, Т. С. Chalmers, H. Smith Jr., R. R. Kuebler. The importance of beta, the type II error and sample size in the design and interpretation of the randomized controlled trial. N. Engl. J. Med., 299:690—694, 1978.
*** В журналах Lancet, New England Journal of Medicine, Journal of the
American Medical Association.
ГЛАВА 6

189
вероятностью 50%. Только в одной статье говорилось, что уро- вень значимости и чувствительность были определены до нача- ла исследования, 14 статей содержали указания на желатель- ность большей численности групп.
Пятнадцать лет спустя аналогичное исследование провели
Моэр и соавт., рассмотрев публикации по результатам контро- лируемых испытаний в тех же журналах за 1990 г. Число публи- каций по этой теме по сравнению с 1975 г. возросло вдвое, одна- ко доля отрицательных результатов осталась прежней — около
27%. Доля исследований, обеспечивающих достаточную чувст- вительность, оказалась примерно той же, что и в работе Фрей- мана и соавт., однако расчет численности групп обнаружен уже в трети статей. Итак, некоторый прогресс налицо, хотя ситуа- ция все же оставляет желать лучшего. Как и во всем, что касает- ся применения статистических методов, полностью полагаться на авторов пока нельзя. Прежде чем принять вывод о неэффектив- ности того или иного метода лечения, читателю следует само- стоятельно оценить чувствительность примененного критерия.
Что же все-таки делать с работами, не обнаружившими эф- фекта из-за недостаточной численности групп*? Нужно ли мах-
* Необходимость заранее определять численность групп ставит ис- следователей перед нелегким выбором: мириться с высоким риском не получить результат или проводить дорогостоящее широкомас- штабное исследование. Эта проблема в значительной мере снимается
методами последовательного анализа. При последовательном ана- лизе численность групп не определяется заранее: вместо этого боль- ных включают в исследование по одному. Дождавшись наступления того или иного исхода, выбирают одно из трех: 1) принять гипотезу об отсутствии эффекта, 2) отвергнуть гипотезу либо 3) включить еще одного больного. Последовательный анализ обычно обеспечивает те же величины
α и β, что и обычные методы, при меньшей численности групп. Применять на каждом шаге критерий Стьюдента было бы не- правильно: из-за эффекта множественных сравнений мы получили бы чрезмерно «оптимистическое» значение Р. Последовательный анализ требует применения специальных методов оценки статистической значимости, которые изложены в главе «Sequential analysis» книги W.
J. Dixon, F. J. Massey. Introduction to Statistical Analysis, McGraw-Hill,
New York, 1969.
ЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ


190
нуть рукой на полученные результаты или из них можно извлечь нечто полезное? Оказывается, можно. Для этого следует отка- заться от альтернативной логики «эффект есть — эффекта нет»
и вместо этого оценить величину эффекта и степень неопределен- ности этой опенки, то есть рассчитать доверительный интервал,
чем мы и займемся в следующей главе.
ЗАДАЧИ
6.1. Используя данные табл. 4.2, вычислите чувствительность критерия Стьюдента, способного обнаружить 50% различие на- илучшего сердечного индекса между галотановой и морфино- вой анестезией.
6.2. По тем же данным определите, какова должна быть чис- ленность групп, чтобы с вероятностью 80% обнаружить 25%
различие в наилучшем сердечном индексе.
6.3. Используя данные табл. 4.2, определите чувствитель- ность критерия Стьюдента для выявления изменения среднего артериального давления и общего периферического сосудисто- го сопротивления на 25%.
6.4. В задаче 3.5 мы не обнаружили влияния внутривенного введения тетрагидроканнабинолов на антибактериальную за- щиту у крыс. Допустим, минимальное снижение, которое мы хотим выявить, составляет 20%, уровень значимости
α = 0,05.
Какова чувствительность критерия Стьюдента?
6.5. По тем же данным определите, какой должна быть чис- ленность групп, чтобы обеспечить выявление снижения анти- бактериальной защиты на 20% с вероятностью 90% (уровень значимости
α = 0,05).
6.6. Какой должна быть численность групп, чтобы с вероят- ностью 90% обнаруживать снижение летальности с 90 до 30%.
Уровень значимости
α = 0,05. При решении вам пригодятся таб- личные значения стандартного нормального распределения
(табл. 6.4).
6.7. Используя данные из задачи 3.2, найдите вероятность обнаружить снижение максимальной объемной скорости середи- ны выдоха на 0,25 л/с при уровне значимости
α = 0,05.
ГЛАВА 6

191
Отклонение z от среднего
Площадь
Площадь
(в стандартных отклонениях) слева от z
справа от z
–2,5 0,0062 0,9938
–2,4 0,0082 0,9918
–2,3 0,0107 0,9893
–2,2 0,0139 0,9861
–2,1 0,0179 0,9821
–2,0 0,0228 0,9772
–1,9 0,0287 0,9713
–1,8 0,0359 0,9641
–1,7 0,0446 0,9554
–1,6 0,0548 0,9452
–1,5 0,0668 0,9332
–1,4 0,0808 0,9192
–1,3 0,0968 0,9032
–1,2 0,1151 0,8849
–1,1 0,1357 0,8643
–1,0 0,1587 0,8413
–0,9 0,1841 0,8159
–0,8 0,2119 0,7881
–0,7 0,2420 0,7580
–0,6 0,2743 0,7267
–0,5 0,3085 0,6975
–0,4 0,3446 0,6554
–0,3 0,3821 0,6179
–0,2 0,4207 0,5793
–0,1 0,4602 0,5398 0,0 0,5000 0,5000 0,1 0,5398 0,4602 0,2 0,5793 0,4207 0,3 0,6179 0,3821 0,4 0,6554 0,3446 0,5 0,6975 0,3085 0,6 0,7267 0,2743 0,7 0,7580 0,2420
Таблица 6.4. Процентили стандартного нормального распреде- ления
ЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ


192
Таблица 6.4. Окончание
Отклонение z от среднего
Площадь
Площадь
(в стандартных отклонениях)
слева от z справа от z
0,8 0,7881 0,2119 0,9 0,8159 0,1841 1,0 0,8413 0,1587 1,1 0,8643 0,1357 1,2 0,8849 0,1151 1,3 0,9032 0,0968 1,4 0,9192 0,0808 1,5 0,9332 0,0668 1,6 0,9452 0,0548 1,7 0,9554 0,0446 1,8 0,9641 0,0359 1,9 0,9713 0,0287 2,0 0,9772 0,0228 2,1 0,9821 0,0179 2,2 0,9861 0,0139 2,3 0,9893 0,0107 2,4 0,9918 0,0082 2,5 0,9938 0,0062
6.8. Используя данные из задачи 3.3, найдите вероятность обнаружить увеличение уровня липопротеидов высокой плот- ности на 5 и 10 мг%. Уровень значимости
α = 0,05.
6.9. По тем же данным определите, какой должна быть чис- ленность групп, чтобы изменение в 5 мг% можно было обна- ружить с вероятностью 80% при уровне значимости
α = 0,05.
6.10. В задаче 5.4 сравнивали частоту рецидивов инфекции мочевых путей после короткого курса того или иного антибак- териального препарата. Допустим, минимальные различия, кото- рые мы хотим выявить, таковы: в группах ампициллина и три- метоприма/сулъфаметоксазола рецидив наступает у двух третей девочек, в группе цефалексина — у одной трети. Какой была бы чувствительность таблицы сопряженности при численности групп, указанной в задаче 5.4? Уровень значимости
α = 0,05.
6.11. Каким должен быть объем выборки, чтобы в задаче 6.10
чувствительность составила 80%?
ГЛАВА 6

Глава 7
Доверительные интервалы
До сих пор мы занимались в основном нахождением различий между группами, не слишком интересуясь величиной этих раз- личий. Мы формулировали нулевую гипотезу, то есть предпола- гали, что экспериментальные группы — это просто две случай- ные выборки из одной и той же совокупности. Затем мы оцени- вали вероятность получить наблюдаемые различия при усло- вии, что нулевая гипотеза верна. Если эта вероятность была мала,
мы отвергали нулевую гипотезу и делали вывод, что различия статистически значимы. При таком подходе мы всегда получаем только качественный результат: либо отклоняем нулевую гипо- тезу, либо не отклоняем, либо признаем различия статистически значимыми, либо не признаем. Количественная оценка различий от нас ускользает. Между тем, как мы выяснили в предыдущей главе, вероятность выявления различий зависит не только от их величины, но и от численности групп. Сколь угодно малые раз- личия при достаточно большой численности групп могут ока- заться статистически значимыми, или, как пишут в диссертаци-

194
ях, «высоко достоверными». При этом речь может идти о разнице в несколько миллиметров ртутного столба.
Характеристика, которая дополняет и даже заменяет каче- ственное суждение (значимо—незначимо), — это доверитель-
ный интервал. В гл. 2 мы уже встречались с этим понятием,
хотя и не применяли этот термин. Тогда мы выяснили, что ис- тинное среднее в 95% случаев лежит на расстоянии не больше двух ошибок среднего от выборочного среднего. Промежуток длиной в четыре ошибки среднего — это и есть 95% довери- тельный интервал. Смысл доверительного интервала из этого примера достаточно ясен: мы не знаем точно, чему равна неко- торая величина, но можем указать интервал, в котором она на- ходится (с заданной вероятностью). В этой главе мы научимся определять доверительные интервалы для разных величин, в том числе для разности средних (величины эффекта) и доли. Мы покажем, что доверительный интервал можно использовать вме- сто обычных критериев значимости*. Доверительные интерва- лы используют также для определения границ нормы лабора- торного показателя.
ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДЛЯ РАЗНОСТИ СРЕДНИХ
В гл. 4 мы определили критерий Стьюдента как
Разность выборочных средних
Стандартная ошибка разности выборочных средних
t
=
Вычислив t, его сравнивают с критическим значением t
α
для заданного уровня значимости
α. Для двух случайных выборок из одной совокупности вероятность получить значение t, по абсо- лютной величине превышающее t
α
, весьма мала (а именно, не превышает
α; напомним, что уровень значимости α — это мак- симальная приемлемая вероятность ошибочно признать суще- ствование различий там, где их нет). Поэтому, получив «боль-
* Существует мнение, что только доверительные интервалы и нужно ис- пользовать. Эта точка зрения кратко изложена в работе: К. J. Rothman. A
show of confidence. N. Engl. J. Med., 299:1362—1363, 1978.
ГЛАВА 7


195
шое» значение t, мы делаем вывод о статистической значимос- ти различий.
Для случайных выборок, извлеченных из одной совокупно- сти, распределение всех возможных значений t (распределение
Стьюдента) симметрично относительно среднего, равного нулю
(см. рис. 4.5). Если же выборки извлечены из двух совокупнос- тей с разными средними, то распределение всех возможных значений t будет иметь среднее, отличное от нуля (см. рис. 6.3 и
6.5).
Формулу для t можно видоизменить так, чтобы распределе- ние t было всегда симметрично относительно нуля:
Заметим, что если обе выборки извлечены из одной совокуп- ности, то разность истинных средних равна нулю и в этом слу- чае новая формула совпадает с предыдущей.
Вот математическая запись новой формулы:
(
)
(
)
1 2
1 2
1 2
X
X
X
X
t
s


− µ − µ
=
Поскольку истинных средних (то есть средних по совокупно- сти) мы не знаем, то и вычислить значение t по этой формуле мы не можем. Но эта формула и не предназначена для нахождения t.
Она позволяет сделать другое — оценить разность
µ
1

µ
2
, то есть истинную величину различий. Для этого вместо вычисления t
выберем его подходящее значение и, подставив в формулу, вы- числим величину
µ
1

µ
2
. Как выбрать «подходящее» значение?
По определению 100
α процентов всех возможных значений
t расположены левее –t
α
или правее +t
α
. Остальные 100(1 –
α)
процентов значений t попадают в интервал от –t
α
до +t
α
. Напри- мер, 95% значений t находится в интервале от –t
0,05
до +t
0,05
. (Кри- тические значения t, в частности t
0,05
, можно найти по табл. 4.1.)
Значит, в 100(1 –
α) процентах всех случаев
(
)
(
)
1 2
1 2
1 2
X
X
X
X
t
t
s
α
α


− µ − µ
− <
< +
Разность выборочных средних – Разность истинных средних
Стандартная ошибка разности выборочных средних
t =
ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ

196
Преобразуя это неравенство, получаем
(
)
(
)
1 2
1 2
1 2
1 2
1 2
X
X
X
X
X
X
t s
X
X
t s
α
α




< µ − µ <

+
Таким образом, разность истинных средних отличается от разности выборочных средних менее чем на произведение t
α
и стандартной ошибки разности выборочных средних. Это нера- венство задает доверительный интервал для разности средних
µ
1

µ
2
. К примеру, 95% доверительный интервал для разности средних определяется неравенством
(
)
(
)
1 2
1 2
1 2
0,05 1
2 1
2 0,05
X
X
X
X
X
X
t
s
X
X
t
s




< µ − µ <

+
В этот интервал разность истинных средних попадет в 95%
случаев.
Этот способ определения доверительного интервала, как и критерий Стыодента, на котором он основан, можно применять только тогда, когда совокупность имеет хотя бы приближенно нормальное распределение*.
1   ...   12   13   14   15   16   17   18   19   ...   37