ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 07.12.2023
Просмотров: 572
Скачиваний: 7
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
Позволяет ли правильное лечение сократить срок
госпитализации?
Обратимся к рис. 3.7. Средняя продолжительность госпитализации
36 больных пиелонефритом, получавших правильное (соответ- ствующее официальным рекомендациям) лечение, составила
4,51 сут, а 36 больных, получавших неправильное лечение 6,28
сут. Стандартные отклонения для этих групп — соответственно
1,98 сут и 2,54 сут. Так как численность групп одна и та же,
объединенная оценка дисперсии
(
)
2 2
2 1 1,98 2,54 5,18.
2
=
+
=
s
Под- ставив эту величину в выражение для t, получим
4,51 6,28 3,30.
5,18 5,18 36 36
−
=
= −
+
t
Число степеней свободы
ν = 2 (n – 1) = 2 (36 – 1) = 70. По таблице 4.1 находим, что для 1% уровня значимости критичес- кое значение t составляет 2,648, то есть меньше чем мы получи- ли (по абсолютной величине). Следовательно, если бы наши группы представляли собой две случайные выборки из одной совокупности, то вероятность получить наблюдаемые различия,
была бы меньше 1%. Итак различия в сроках госпитализации статистически значимы.
Галотан и морфин при операциях на открытом сердце
В исследовании Конахана и соавт. (рис. 3.8) минимальное
АД
средн между началом анестезии и началом операции составляло в среднем: при галотановои анестезии 66,9 мм. рт. ст., при морфино-
СРАВНЕНИЕ ДВУХ ГРУПП: КРИТЕРИЙ СТЬЮДЕНТА
98
вой — 73,2 мм. рт. ст. Стандартные отклонения составляли со- ответственно 12,2 и 14,4 мм. рт. ст. В каждой группе был 61
больной.
Вычислим объединенную оценку дисперсии:
(
)
2 2
2 1
12, 2 14, 4 178,1,
2
=
+
=
s
тогда
66,9 73,2 2,607.
178,1 178,1 61 61
−
=
= −
+
t
Число степеней свободы
ν = 2(n – 1) = 2(61 – 1) = 120. По таблице 4.1 находим, что для 5% уровня значимости критичес- кое значение t составляет 1,980, то есть меньше, чем мы полу- чили. Заключаем, что морфин меньше снижает артериальное давление, чем галотан.
Конахан и соавт. измеряли еще один параметр гемодинамики
— минутный объем сердца (объем крови, который левый желу- дочек перекачивает за минуту). Поскольку этот объем зависит
ГЛАВА 4
Галотан (n = 9)
Морфин (n = 16)
Показатель
Среднее
Стандартное отклонение
Среднее
Стандартное отклонение
Наилучший сердечный индекс 2,08 1,05 1,75 0,88
Среднее артериальное давление при наилучшем сердечном индексе, мм рт. ст. 76,8 13,8 91,4 19,6
Общее периферическое сосудистое сопротивление при наилучшем сердечном индексе, дин с см
-5 2210 1200 2830 1130
Таблица 4.2. Показатели гемодинамики при галотановой и мор- финовой анестезии.
T. J. Conahan et al. A prospective random comparison of halothane and morphine for open- heart anesthesia one year experience. Anesthesiology, 38:528—535, 1973.
99
от размеров тела, деятельность сердца (которая и интересовала исследователей) лучше характеризуется сердечным индексом —
отношением минутного объема сердца к площади поверхности тела. В группе галотана сердечный индекс определили у 9 боль- ных (табл. 4.2), он составил в среднем 2,08 л/мин/м
2
(стандарт- ное отклонение 1,05 л/мин/м
2
), у 16 больных в группе морфина
— 1,75 л/мин/м
2
(стандартное отклонение 0,88 л/мин/м
2
). Явля- ется ли это различие статистически значимым?
Найдем объединенную оценку дисперсии
(
)
(
)
2 2
2 9 1 1,05 16 1 0,88 0,89,
9 16 2
−
+
−
=
=
+ −
s
и поэтому
2,08 1,75 0,84.
0,89 0,89 9
16
−
=
=
+
t
Число степеней свободы
ν = 9 + 16 – 2 = 23. Критическое значение t при 5% уровне значимости составляет 2,069, что боль- ше полученного нами. Итак, статистически значимых различий не найдено. Можно ли утверждать, что различий нет? Ответ на этот вопрос мы узнаем в гл. 6.
КРИТЕРИЙ СТЬЮДЕНТА С ТОЧКИ ЗРЕНИЯ
ДИСПЕРСИОННОГО АНАЛИЗА*
Хотя критерий Стьюдента является просто вариантом диспер- сионного анализа, этот факт осознается очень немногими. По- кажем, что в случае двух групп справедливо равенство F = t
2
Рассмотрим две выборки равного объема n и со средними
1
X
и
2
X
и стандартными отклонениями s
1
и s
2
Как вы помните, отношение F есть отношение двух оценок дисперсии. Первая, внутригрупповая оценка есть среднее вы- борочных дисперсий:
* Этот раздел посвящен сугубо математической стороне дела, и его можно пропустить без ущерба для понимания дальнейшего изложения.
СРАВНЕНИЕ ДВУХ ГРУПП: КРИТЕРИЙ СТЬЮДЕНТА
100
(
)
2 2
2
вну
1 2
1 2
s
s
s
=
+
Вторая межгрупповая оценка вычисляется по выборочным средним:
(
) (
)
2 2
1 2
,
2 1
−
+
−
=
−
X
X
X
X
X
s
следовательно,
(
) (
)
2 2
2 1
2
,
=
−
+
−
X
s
X
X
X
X
где X — среднее двух выборочных средних:
(
)
1 2
1 2
=
+
X
X
X
Исключим X из формулы для
2
:
X
s
(
)
(
)
2 2
2 1
1 2
2 1
2 2
2 1
2 2
1 1
1 2
2 1
1 1
1 2
2 2
2
=
−
+
+
−
+
=
=
−
+
−
X
s
X
X
X
X
X
X
X
X
X
X
Если разность возводится в квадрат все равно, что из чего вычитать (а – b)
2
= (b – а)
2
. Поэтому
(
)
(
)
2 2
2 1
2 1
2 2
2 1
2 1
2 1
1 1
1 2
2 2
2 1
1 2
2 2
=
−
+
−
=
=
−
=
−
X
s
X
X
X
X
X
X
X
X
Таким образом, межгрупповая оценка дисперсии
(
)
2 2
2
меж
1 2
2
X
n
s
ns
X
X
=
=
−
F есть отношение межгрупповой оценки к внутригрупповой и равно
ГЛАВА 4
101
(
)
(
)
(
)
2 2
2 1
2 1
2
меж
2 2
2 2
2 1
2
вну
1 2
2 1
2 2
2 1
2 2
1 2
n
X
X
X
X
s
F
s
s
s
s
s
n
n
X
X
s
s
n
n
−
−
=
=
=
=
+
+
−
=
+
Но величина в скобках есть не что иное, как t. Тем самым,
F = t
2
Межгрупповое число степеней свободы в F равно числу групп минус единица, то есть 2 – 1 = 1. Внутригрупповое число степе- ней свободы равно произведению числа групп на число равное численности каждой группы минус единица, то есть 2(n – 1).
Но это как раз число степеней свободы в критерии Стьюдента.
Таким образом, можно сказать, что в случае сравнения двух групп критерии Стьюдента и дисперсионный анализ — вариан- ты одного критерия. Конечно, если групп больше двух диспер- сионный анализ в форме критерия Стьюдента неприменим и нужно воспользоваться общим вариантом дисперсионного ана- лиза изложенным в гл. 3.
ОШИБКИ В ИСПОЛЬЗОВАНИИ КРИТЕРИЯ СТЬЮДЕНТА
Критерий Стьюдента предназначен для сравнения двух групп.
Однако на практике он широко (и неправильно — см. рис. 4.1)
используется для оценки различии большего числа групп по- средством попарного их сравнения. При этом вступает в силу
эффект множественных сравнений который нам еще неоднок- ратно встретится в разнообразных обличиях.
Рассмотрим пример. Исследуют влияние препаратов А и Б на уровень глюкозы плазмы. Исследование проводят на трех груп- пах — получавших препарат А, получавших препарат Б и полу- чавших плацебо В. С помощью критерия Стьюдента проводят
СРАВНЕНИЕ ДВУХ ГРУПП: КРИТЕРИЙ СТЬЮДЕНТА
102 3 парных сравнения: группу А сравнивают с группой В, груп- пу Б — с группой В и наконец А с Б. Получив достаточно вы- сокое значение t в каком либо из трех сравнении сообщают что
«P < 0,05». Это означает, что вероятность ошибочного заклю- чения о существовании различии не превышает 5%. Но это неверно: вероятность ошибки значительно превышает 5%.
Разберемся подробнее. В исследовании был принят 5% уро- вень значимости. Значит вероятность ошибиться при сравнении групп А и В — 5%. Казалось бы все правильно. Но точно также мы ошибемся в 5% случаев при сравнении групп Б и В. И нако- нец при сравнении групп А и Б ошибка возможна также в 5%
случаев. Следовательно, вероятность ошибиться хотя бы в од-
ном из трех сравнении составит не 5%, а значительно больше. В
общем случае эта вероятность равна
(
)
1 1 0,05 ,
′ = − −
k
P
где k — число сравнений.
При небольшом числе сравнений можно использовать при- ближенную формулу
0,05 ,
′ =
P
k
то есть вероятность ошибиться хотя бы в одном из сравнений примерно равна вероятности ошибиться в одном, помноженной на число сравнений.
Итак, в нашем исследовании вероятность ошибиться хотя бы в одном из сравнений составляет примерно 15%. При сравнении четырех групп число пар и соответственно возможных попарных сравнений равно 6. Поэтому при уровне значимости в каждом из сравнении 0,05 вероятность ошибочно обнаружить различие хотя бы в одном равна уже не 0,05, а примерно 6
× 0,05 = 0,30. И когда исследователь, выявив таким способом «эффективный» препа- рат будет говорить про 5% вероятность ошибки, на самом деле эта вероятность равна 30%.
Вернемся на минуту к нашим марсианам. Рассматривая в гл.
2 случайные выборки из населения этой планеты мы убедились,
что у разных выборок из одной совокупности могут быть за- метно разные средние значения и стандартные отклонения —
ГЛАВА 4
103
взять хоть три случайные выборки на рис. 2.6. Представим себе что это — результаты исследования влияния гормонов человека на рост марсиан. Одной группе дали тестостерон другой — эс- традиол, а третьей — плацебо. Как известно гормоны человека не оказывают на марсиан никакого действия, поэтому три экс- периментальные группы — это просто три случайные выборки из одной совокупности как мы это и знали с самого начала. Что хорошо известно нам то неизвестно исследователям. На рис. 4.6
результаты исследования представлены в виде принятом в ме- дицинских публикациях. Столбиками изображены выборочные средние. Вертикальные черточки задают интервалы в плюс-ми- нус одну стандартную ошибку среднего. Засучив рукава наши исследователи приступают к попарному сравнению групп с по- мощью критерия Стьюдента и получают такие значения t пла- цебо—тестостерон — 2,39, плацебо—эстрадиол — 0,93 и тес- тостерон—эстрадиол — 1,34. Так как в каждом сравнении уча- ствуют 2 группы по 10 марсиан в каждой число степеней свобо- ды равно 2(10 – 1) = 18. По таблице 4.1 находим, что при 5%
уровне значимости критическое значение t равно 2,101. Таким образом, пришлось бы заключить что марсиане, получавшие тестостерон стали меньше ростом чем марсиане, получавшие плацебо, в то время как эстрадиол по влиянию на рост суще- ственно не отличается от плацебо, а тестостерон от эстрадиола.
Задумайтесь над этим результатом. Что в нем не так?
Если тестостерон дал результаты не отличающиеся от эстра- диола, а эстрадиол действует неотличимо от плацебо то как те- стостерон оказался отличным от плацебо? Столь странный вы- вод обычно не смущает исследователей, а лишь вдохновляет их на создание изощренного «Обсуждения».
Дисперсионный анализ приведенных данных дает значение
F = 2,74. Число степеней свободы
ν
меж
= m – 1 = 3 – 1 = 2 и
ν
вну
=
m (n – 1) = 3 (10 – 1) = 27. Критическое значение F для 5% уровня значимости равно 3,35, то есть превышает полученное нами.
Итак, дисперсионный анализ говорит об отсутствии различий между группами.
В заключение приведем три правила:
• Критерий Стьюдента может быть использован для проверки гипотезы о различии средних только для двух групп.
СРАВНЕНИЕ ДВУХ ГРУПП: КРИТЕРИЙ СТЬЮДЕНТА
104
• Если схема эксперимента предполагает большее число групп,
воспользуйтесь дисперсионным анализом.
• Если критерии Стьюдента был использован для проверки раз- личий между несколькими группами, то истинный уровень значимости можно получить, умножив уровень значимости,
приводимый авторами на число возможных сравнений.
КРИТЕРИЙ СТЬЮДЕНТА ДЛЯ МНОЖЕСТВЕННЫХ
СРАВНЕНИЙ
Только что мы познакомились со злостным вредителем науч- ных исследований — эффектом множественных сравнений. Он состоит в том, что при многократном применении критерия ве- роятность ошибочно найти различия там, где их нет возрастает.
Если исследуемых групп больше двух, то следует восполь- зоваться дисперсионным анализом. Однако дисперсионный ана-
ГЛАВА 4
Рис. 4.6. Влияние гормонов человека на рост марсиан. Именно в таком виде результаты исследования увидели бы свет в каком-нибудь медицинском журнале. Высота столби- ков соответствует средним, вертикальная черта на верхушке у каждого столбика соот- ветствует интервалу плюс-минус одна стандартная ошибка среднего (а не стандартное отклонение).
Плацебо
Тестостерон
Эстрадиол
45
40
35
30
25
Ро
ст
, см
105
лиз позволяет проверить лишь гипотезу о равенстве всех сред- них. Но если гипотеза не подтверждается, нельзя узнать какая именно группа отличается от других.
Это позволяют сделать методы множественного сравнения.
Все они основаны на критерии Стьюдента, но учитывают, что сравнивается более одной пары средних. Сразу поясним, когда на наш взгляд следует использовать эти методы. Наш подход состоит в том, чтобы в первую очередь с помощью дисперсион- ного анализа проверить нулевую гипотезу о равенстве всех сред- них, а уже затем если нулевая гипотеза отвергнута выделить среди них отличные от остальных, используя для этого методы множественного сравнения*. Простейший из методов множе- ственного сравнения — введение поправки Бонферрони.
Как было показано в предыдущем разделе при трехкратном применении критерия Стьюдента, с 5% уровнем значимости, ве- роятность обнаружить различия там, где их нет, составляет не
5%, а почти 3
× 5 = 15%. Этот результат является частным слу- чаем неравенства Бонферрони, если k раз применить критерии с уровнем значимости
α, то вероятность хотя бы в одном случае найти различие там, где его нет не превышает произведения k
на
α. Неравенство Бонферрони выглядит так:
,
′ < k
α
α
где
α′ — вероятность хотя бы один раз ошибочно выявить раз- личия.
Можно сказать, что
α′ собственно и является истинным уров- нем значимости многократно примененного критерия. Из нера- венства Бонферрони следует, что если мы хотим обеспечить вероятность ошибки
α′, то в каждом из сравнений мы должны принять уровень значимости
α′
/
k — это и есть поправка Бон- феррони. Например, при трехкратном сравнении уровень зна- чимости должен быть 0,05/3 = 1,7%.
* Некоторые авторы считают этап дисперсионного анализа излишним и предлагают сразу применить методы множественного сравнения.
Этот подход изложен в В. W. Broun, Jr., M. Hollander. Statistics: a biomedical introduction. Wiley, NewYork, 1977, chap. 10. Analysis of K- samples problems.
СРАВНЕНИЕ ДВУХ ГРУПП: КРИТЕРИЙ СТЬЮДЕНТА
106
Поправка Бонферрони хорошо работает, если число сравне- ний невелико. Если оно превышает 8, метод становится слиш- ком «строгим и даже весьма большие различия приходится при- знавать статистически незначимыми*. Существуют не столь же- сткие методы множественного сравнения, например критерии
Ньюмена-Кейлса (его мы рассмотрим в следующем разделе). Все методы множественного сравнения схожи с поправкой Бонфер- рони в том что, будучи модификацией критерия Стьюдента, учи- тывают многократность сравнений.
Один из способов смягчить строгость поправки Бонферро- ни состоит в том, чтобы увеличить число степеней свободы, вос- пользовавшись знакомой из дисперсионного анализа внутри- групповой оценкой дисперсии. Вспомним что
1 2
2 2
1 2
,
−
=
+
X
X
t
s
s
n
n
где s
2
– объединенная оценка дисперсии совокупности.
Используя в качестве такой оценки внутригрупповую дис- персию
2
вну
s (гл. 3), получим:
1 2
2 2
вну вну
1 2
X
X
t
s
s
n
n
−
=
+
Если объемы выборок одинаковы то
1 2
2
вну
2
X
X
t
s
n
−
=
Число степеней свободы
ν = m(n – 1). Если число групп m
больше 2, то число степеней свободы при таком расчете будет
* Способность критерия выявлять различия называется чувствительностью,
она обсуждается в гл. 6.
ГЛАВА 4
госпитализации?
Обратимся к рис. 3.7. Средняя продолжительность госпитализации
36 больных пиелонефритом, получавших правильное (соответ- ствующее официальным рекомендациям) лечение, составила
4,51 сут, а 36 больных, получавших неправильное лечение 6,28
сут. Стандартные отклонения для этих групп — соответственно
1,98 сут и 2,54 сут. Так как численность групп одна и та же,
объединенная оценка дисперсии
(
)
2 2
2 1 1,98 2,54 5,18.
2
=
+
=
s
Под- ставив эту величину в выражение для t, получим
4,51 6,28 3,30.
5,18 5,18 36 36
−
=
= −
+
t
Число степеней свободы
ν = 2 (n – 1) = 2 (36 – 1) = 70. По таблице 4.1 находим, что для 1% уровня значимости критичес- кое значение t составляет 2,648, то есть меньше чем мы получи- ли (по абсолютной величине). Следовательно, если бы наши группы представляли собой две случайные выборки из одной совокупности, то вероятность получить наблюдаемые различия,
была бы меньше 1%. Итак различия в сроках госпитализации статистически значимы.
Галотан и морфин при операциях на открытом сердце
В исследовании Конахана и соавт. (рис. 3.8) минимальное
АД
средн между началом анестезии и началом операции составляло в среднем: при галотановои анестезии 66,9 мм. рт. ст., при морфино-
СРАВНЕНИЕ ДВУХ ГРУПП: КРИТЕРИЙ СТЬЮДЕНТА
98
вой — 73,2 мм. рт. ст. Стандартные отклонения составляли со- ответственно 12,2 и 14,4 мм. рт. ст. В каждой группе был 61
больной.
Вычислим объединенную оценку дисперсии:
(
)
2 2
2 1
12, 2 14, 4 178,1,
2
=
+
=
s
тогда
66,9 73,2 2,607.
178,1 178,1 61 61
−
=
= −
+
t
Число степеней свободы
ν = 2(n – 1) = 2(61 – 1) = 120. По таблице 4.1 находим, что для 5% уровня значимости критичес- кое значение t составляет 1,980, то есть меньше, чем мы полу- чили. Заключаем, что морфин меньше снижает артериальное давление, чем галотан.
Конахан и соавт. измеряли еще один параметр гемодинамики
— минутный объем сердца (объем крови, который левый желу- дочек перекачивает за минуту). Поскольку этот объем зависит
ГЛАВА 4
Галотан (n = 9)
Морфин (n = 16)
Показатель
Среднее
Стандартное отклонение
Среднее
Стандартное отклонение
Наилучший сердечный индекс 2,08 1,05 1,75 0,88
Среднее артериальное давление при наилучшем сердечном индексе, мм рт. ст. 76,8 13,8 91,4 19,6
Общее периферическое сосудистое сопротивление при наилучшем сердечном индексе, дин с см
-5 2210 1200 2830 1130
Таблица 4.2. Показатели гемодинамики при галотановой и мор- финовой анестезии.
T. J. Conahan et al. A prospective random comparison of halothane and morphine for open- heart anesthesia one year experience. Anesthesiology, 38:528—535, 1973.
99
от размеров тела, деятельность сердца (которая и интересовала исследователей) лучше характеризуется сердечным индексом —
отношением минутного объема сердца к площади поверхности тела. В группе галотана сердечный индекс определили у 9 боль- ных (табл. 4.2), он составил в среднем 2,08 л/мин/м
2
(стандарт- ное отклонение 1,05 л/мин/м
2
), у 16 больных в группе морфина
— 1,75 л/мин/м
2
(стандартное отклонение 0,88 л/мин/м
2
). Явля- ется ли это различие статистически значимым?
Найдем объединенную оценку дисперсии
(
)
(
)
2 2
2 9 1 1,05 16 1 0,88 0,89,
9 16 2
−
+
−
=
=
+ −
s
и поэтому
2,08 1,75 0,84.
0,89 0,89 9
16
−
=
=
+
t
Число степеней свободы
ν = 9 + 16 – 2 = 23. Критическое значение t при 5% уровне значимости составляет 2,069, что боль- ше полученного нами. Итак, статистически значимых различий не найдено. Можно ли утверждать, что различий нет? Ответ на этот вопрос мы узнаем в гл. 6.
КРИТЕРИЙ СТЬЮДЕНТА С ТОЧКИ ЗРЕНИЯ
ДИСПЕРСИОННОГО АНАЛИЗА*
Хотя критерий Стьюдента является просто вариантом диспер- сионного анализа, этот факт осознается очень немногими. По- кажем, что в случае двух групп справедливо равенство F = t
2
Рассмотрим две выборки равного объема n и со средними
1
X
и
2
X
и стандартными отклонениями s
1
и s
2
Как вы помните, отношение F есть отношение двух оценок дисперсии. Первая, внутригрупповая оценка есть среднее вы- борочных дисперсий:
* Этот раздел посвящен сугубо математической стороне дела, и его можно пропустить без ущерба для понимания дальнейшего изложения.
СРАВНЕНИЕ ДВУХ ГРУПП: КРИТЕРИЙ СТЬЮДЕНТА
100
(
)
2 2
2
вну
1 2
1 2
s
s
s
=
+
Вторая межгрупповая оценка вычисляется по выборочным средним:
(
) (
)
2 2
1 2
,
2 1
−
+
−
=
−
X
X
X
X
X
s
следовательно,
(
) (
)
2 2
2 1
2
,
=
−
+
−
X
s
X
X
X
X
где X — среднее двух выборочных средних:
(
)
1 2
1 2
=
+
X
X
X
Исключим X из формулы для
2
:
X
s
(
)
(
)
2 2
2 1
1 2
2 1
2 2
2 1
2 2
1 1
1 2
2 1
1 1
1 2
2 2
2
=
−
+
+
−
+
=
=
−
+
−
X
s
X
X
X
X
X
X
X
X
X
X
Если разность возводится в квадрат все равно, что из чего вычитать (а – b)
2
= (b – а)
2
. Поэтому
(
)
(
)
2 2
2 1
2 1
2 2
2 1
2 1
2 1
1 1
1 2
2 2
2 1
1 2
2 2
=
−
+
−
=
=
−
=
−
X
s
X
X
X
X
X
X
X
X
Таким образом, межгрупповая оценка дисперсии
(
)
2 2
2
меж
1 2
2
X
n
s
ns
X
X
=
=
−
F есть отношение межгрупповой оценки к внутригрупповой и равно
ГЛАВА 4
101
(
)
(
)
(
)
2 2
2 1
2 1
2
меж
2 2
2 2
2 1
2
вну
1 2
2 1
2 2
2 1
2 2
1 2
n
X
X
X
X
s
F
s
s
s
s
s
n
n
X
X
s
s
n
n
−
−
=
=
=
=
+
+
−
=
+
Но величина в скобках есть не что иное, как t. Тем самым,
F = t
2
Межгрупповое число степеней свободы в F равно числу групп минус единица, то есть 2 – 1 = 1. Внутригрупповое число степе- ней свободы равно произведению числа групп на число равное численности каждой группы минус единица, то есть 2(n – 1).
Но это как раз число степеней свободы в критерии Стьюдента.
Таким образом, можно сказать, что в случае сравнения двух групп критерии Стьюдента и дисперсионный анализ — вариан- ты одного критерия. Конечно, если групп больше двух диспер- сионный анализ в форме критерия Стьюдента неприменим и нужно воспользоваться общим вариантом дисперсионного ана- лиза изложенным в гл. 3.
ОШИБКИ В ИСПОЛЬЗОВАНИИ КРИТЕРИЯ СТЬЮДЕНТА
Критерий Стьюдента предназначен для сравнения двух групп.
Однако на практике он широко (и неправильно — см. рис. 4.1)
используется для оценки различии большего числа групп по- средством попарного их сравнения. При этом вступает в силу
эффект множественных сравнений который нам еще неоднок- ратно встретится в разнообразных обличиях.
Рассмотрим пример. Исследуют влияние препаратов А и Б на уровень глюкозы плазмы. Исследование проводят на трех груп- пах — получавших препарат А, получавших препарат Б и полу- чавших плацебо В. С помощью критерия Стьюдента проводят
СРАВНЕНИЕ ДВУХ ГРУПП: КРИТЕРИЙ СТЬЮДЕНТА
102 3 парных сравнения: группу А сравнивают с группой В, груп- пу Б — с группой В и наконец А с Б. Получив достаточно вы- сокое значение t в каком либо из трех сравнении сообщают что
«P < 0,05». Это означает, что вероятность ошибочного заклю- чения о существовании различии не превышает 5%. Но это неверно: вероятность ошибки значительно превышает 5%.
Разберемся подробнее. В исследовании был принят 5% уро- вень значимости. Значит вероятность ошибиться при сравнении групп А и В — 5%. Казалось бы все правильно. Но точно также мы ошибемся в 5% случаев при сравнении групп Б и В. И нако- нец при сравнении групп А и Б ошибка возможна также в 5%
случаев. Следовательно, вероятность ошибиться хотя бы в од-
ном из трех сравнении составит не 5%, а значительно больше. В
общем случае эта вероятность равна
(
)
1 1 0,05 ,
′ = − −
k
P
где k — число сравнений.
При небольшом числе сравнений можно использовать при- ближенную формулу
0,05 ,
′ =
P
k
то есть вероятность ошибиться хотя бы в одном из сравнений примерно равна вероятности ошибиться в одном, помноженной на число сравнений.
Итак, в нашем исследовании вероятность ошибиться хотя бы в одном из сравнений составляет примерно 15%. При сравнении четырех групп число пар и соответственно возможных попарных сравнений равно 6. Поэтому при уровне значимости в каждом из сравнении 0,05 вероятность ошибочно обнаружить различие хотя бы в одном равна уже не 0,05, а примерно 6
× 0,05 = 0,30. И когда исследователь, выявив таким способом «эффективный» препа- рат будет говорить про 5% вероятность ошибки, на самом деле эта вероятность равна 30%.
Вернемся на минуту к нашим марсианам. Рассматривая в гл.
2 случайные выборки из населения этой планеты мы убедились,
что у разных выборок из одной совокупности могут быть за- метно разные средние значения и стандартные отклонения —
ГЛАВА 4
103
взять хоть три случайные выборки на рис. 2.6. Представим себе что это — результаты исследования влияния гормонов человека на рост марсиан. Одной группе дали тестостерон другой — эс- традиол, а третьей — плацебо. Как известно гормоны человека не оказывают на марсиан никакого действия, поэтому три экс- периментальные группы — это просто три случайные выборки из одной совокупности как мы это и знали с самого начала. Что хорошо известно нам то неизвестно исследователям. На рис. 4.6
результаты исследования представлены в виде принятом в ме- дицинских публикациях. Столбиками изображены выборочные средние. Вертикальные черточки задают интервалы в плюс-ми- нус одну стандартную ошибку среднего. Засучив рукава наши исследователи приступают к попарному сравнению групп с по- мощью критерия Стьюдента и получают такие значения t пла- цебо—тестостерон — 2,39, плацебо—эстрадиол — 0,93 и тес- тостерон—эстрадиол — 1,34. Так как в каждом сравнении уча- ствуют 2 группы по 10 марсиан в каждой число степеней свобо- ды равно 2(10 – 1) = 18. По таблице 4.1 находим, что при 5%
уровне значимости критическое значение t равно 2,101. Таким образом, пришлось бы заключить что марсиане, получавшие тестостерон стали меньше ростом чем марсиане, получавшие плацебо, в то время как эстрадиол по влиянию на рост суще- ственно не отличается от плацебо, а тестостерон от эстрадиола.
Задумайтесь над этим результатом. Что в нем не так?
Если тестостерон дал результаты не отличающиеся от эстра- диола, а эстрадиол действует неотличимо от плацебо то как те- стостерон оказался отличным от плацебо? Столь странный вы- вод обычно не смущает исследователей, а лишь вдохновляет их на создание изощренного «Обсуждения».
Дисперсионный анализ приведенных данных дает значение
F = 2,74. Число степеней свободы
ν
меж
= m – 1 = 3 – 1 = 2 и
ν
вну
=
m (n – 1) = 3 (10 – 1) = 27. Критическое значение F для 5% уровня значимости равно 3,35, то есть превышает полученное нами.
Итак, дисперсионный анализ говорит об отсутствии различий между группами.
В заключение приведем три правила:
• Критерий Стьюдента может быть использован для проверки гипотезы о различии средних только для двух групп.
СРАВНЕНИЕ ДВУХ ГРУПП: КРИТЕРИЙ СТЬЮДЕНТА
104
• Если схема эксперимента предполагает большее число групп,
воспользуйтесь дисперсионным анализом.
• Если критерии Стьюдента был использован для проверки раз- личий между несколькими группами, то истинный уровень значимости можно получить, умножив уровень значимости,
приводимый авторами на число возможных сравнений.
КРИТЕРИЙ СТЬЮДЕНТА ДЛЯ МНОЖЕСТВЕННЫХ
СРАВНЕНИЙ
Только что мы познакомились со злостным вредителем науч- ных исследований — эффектом множественных сравнений. Он состоит в том, что при многократном применении критерия ве- роятность ошибочно найти различия там, где их нет возрастает.
Если исследуемых групп больше двух, то следует восполь- зоваться дисперсионным анализом. Однако дисперсионный ана-
ГЛАВА 4
Рис. 4.6. Влияние гормонов человека на рост марсиан. Именно в таком виде результаты исследования увидели бы свет в каком-нибудь медицинском журнале. Высота столби- ков соответствует средним, вертикальная черта на верхушке у каждого столбика соот- ветствует интервалу плюс-минус одна стандартная ошибка среднего (а не стандартное отклонение).
Плацебо
Тестостерон
Эстрадиол
45
40
35
30
25
Ро
ст
, см
105
лиз позволяет проверить лишь гипотезу о равенстве всех сред- них. Но если гипотеза не подтверждается, нельзя узнать какая именно группа отличается от других.
Это позволяют сделать методы множественного сравнения.
Все они основаны на критерии Стьюдента, но учитывают, что сравнивается более одной пары средних. Сразу поясним, когда на наш взгляд следует использовать эти методы. Наш подход состоит в том, чтобы в первую очередь с помощью дисперсион- ного анализа проверить нулевую гипотезу о равенстве всех сред- них, а уже затем если нулевая гипотеза отвергнута выделить среди них отличные от остальных, используя для этого методы множественного сравнения*. Простейший из методов множе- ственного сравнения — введение поправки Бонферрони.
Как было показано в предыдущем разделе при трехкратном применении критерия Стьюдента, с 5% уровнем значимости, ве- роятность обнаружить различия там, где их нет, составляет не
5%, а почти 3
× 5 = 15%. Этот результат является частным слу- чаем неравенства Бонферрони, если k раз применить критерии с уровнем значимости
α, то вероятность хотя бы в одном случае найти различие там, где его нет не превышает произведения k
на
α. Неравенство Бонферрони выглядит так:
,
′ < k
α
α
где
α′ — вероятность хотя бы один раз ошибочно выявить раз- личия.
Можно сказать, что
α′ собственно и является истинным уров- нем значимости многократно примененного критерия. Из нера- венства Бонферрони следует, что если мы хотим обеспечить вероятность ошибки
α′, то в каждом из сравнений мы должны принять уровень значимости
α′
/
k — это и есть поправка Бон- феррони. Например, при трехкратном сравнении уровень зна- чимости должен быть 0,05/3 = 1,7%.
* Некоторые авторы считают этап дисперсионного анализа излишним и предлагают сразу применить методы множественного сравнения.
Этот подход изложен в В. W. Broun, Jr., M. Hollander. Statistics: a biomedical introduction. Wiley, NewYork, 1977, chap. 10. Analysis of K- samples problems.
СРАВНЕНИЕ ДВУХ ГРУПП: КРИТЕРИЙ СТЬЮДЕНТА
106
Поправка Бонферрони хорошо работает, если число сравне- ний невелико. Если оно превышает 8, метод становится слиш- ком «строгим и даже весьма большие различия приходится при- знавать статистически незначимыми*. Существуют не столь же- сткие методы множественного сравнения, например критерии
Ньюмена-Кейлса (его мы рассмотрим в следующем разделе). Все методы множественного сравнения схожи с поправкой Бонфер- рони в том что, будучи модификацией критерия Стьюдента, учи- тывают многократность сравнений.
Один из способов смягчить строгость поправки Бонферро- ни состоит в том, чтобы увеличить число степеней свободы, вос- пользовавшись знакомой из дисперсионного анализа внутри- групповой оценкой дисперсии. Вспомним что
1 2
2 2
1 2
,
−
=
+
X
X
t
s
s
n
n
где s
2
– объединенная оценка дисперсии совокупности.
Используя в качестве такой оценки внутригрупповую дис- персию
2
вну
s (гл. 3), получим:
1 2
2 2
вну вну
1 2
X
X
t
s
s
n
n
−
=
+
Если объемы выборок одинаковы то
1 2
2
вну
2
X
X
t
s
n
−
=
Число степеней свободы
ν = m(n – 1). Если число групп m
больше 2, то число степеней свободы при таком расчете будет
* Способность критерия выявлять различия называется чувствительностью,
она обсуждается в гл. 6.
ГЛАВА 4