ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 07.12.2023
Просмотров: 579
Скачиваний: 7
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
126
Рис. 5.2. Что такое разброс данных, если значений признака всего два? Возможно, это станет яснее, если вспомнить, что разброс — это отсутствие единства. Рассмотрим три совокупности из 200 марсиан. А. Все марсиане зеленые. Царит полное единство, раз- брос отсутствует,
σ = 0. Б. Среди стройных рядов зеленых марсиан появилось 10 розо- вых. Единство немного нарушено, появился некоторый разброс,
σ = 0,2. В. От единства марсиан не осталось и следа: они разделились поровну на зеленых и розовых. Разброс максимален,
σ = 0,5.
ГЛАВА 5
127
Найденное стандартное отклонение
σ полностью определя- ется величиной р. Этим оно принципиально отличается от стан- дартного отклонения для нормального распределения которое не зависит от
µ. На рис. 5.3 показана зависимость σ от р. Она вполне согласуется с теми впечатлениями которые возникают при рассмотрении рис. 5.2: стандартное отклонение достигает максимума при р = 0,5 и равно 0 когда р равно 0 или 1.
Зная стандартное отклонение
σ можно найти стандартную ошибку для выборочной оценки р. Посмотрим, как это делается.
ТОЧНОСТЬ ОЦЕНКИ ДОЛЕЙ
Если бы в наших руках были данные по всем членам совокуп- ности, то не было бы никаких проблем связанных с точностью оценок. Однако нам всегда приходится довольствоваться огра- ниченной выборкой. Поэтому возникает вопрос, насколько точ- но доли в выборке соответствуют долям в совокупности. Про- делаем мысленный эксперимент наподобие того, который мы провели в гл. 2, когда рассматривали насколько хорошей оцен- кой среднего по совокупности является выборочное среднее.
Рис. 5.3. Стандартное отклонение доли
σ полностью определяется самой этой долей р.
Когда доля равна 0 или 1, разброс отсутствует и
σ = 0. Когда р = 0,5, разброс максима- лен,
σ = 0,5
АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ
128
Рис. 5.4. А. Из совокупности марсиан, среди которых 150 зеленых и 50 розовых, из- влекли случайную выборку из 10 особей. В выборку попало 5 зеленых и 5 розовых марсиан, на рисунке они помечены черным. Б. В таком виде данные предстанут перед исследователем, который не может наблюдать всю совокупность и вынужден судить о ней по выборке. Оценка доли розовых марсиан
p
= 5/10 = 0,5.
Предположим, что из всех 200 марсиан случайным образом выбрали 10. Распределение розовых и зеленых марсиан во всей совокупности неизвестное исследователям изображено в верх- ней части рис. 5.4. Закрашенные кружки соответствуют марси- анам, попавшим в выборку. В нижней части рис. 5.4 показана информация, которой располагал бы исследователь, получив- ший такую выборку. Как видим в выборке розовые, и зеленые марсиане поделились поровну. Основываясь на этих данных, мы решили бы, что розовых марсиан столько же, сколько и зеле- ных, то есть их доля составляет 50%.
Исследователь мог бы извлечь другую выборку, например одну из представленных на рис. 5.5. Здесь выборочные доли розовых марсиан равны 30, 30, 10, и 20%. Как любая выборочная оценка, оценка доли (обозначим ее ˆp) отражает долю р в сово- купности, но отклоняется от нее в силу случайности. Рассмот-
ГЛАВА 5
129
рим теперь не совокупность марсиан, а совокупность всех значе- ний p , вычисленных по выборкам объемом 10 каждая. (Из сово- купности в 200 членов можно получить более 10 6
таких выбо- рок). На рис. 5.6 приведены пять значений p , вычисленных по пяти выборкам с рис. 5.4 и 5.5 и еще 20 значений полученных на других случайных выборках того же объема. Среднее этих 25
значений составляет 30%. Это близко к истинной доле розовых марсиан — 25%. По аналогии со стандартной ошибкой среднего найдем стандартную ошибку доли. Для этого нужно охаракте- ризовать разброс выборочных оценок доли, то есть рассчитать
Рис. 5.5. Еще 4 случайные выборки из той же совокупности марсиан. Оценки доли ро- зовых марсиан: 30, 30, 10 и 20%.
АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ
130
стандартное отклонение совокупности p . В данном случае оно равно примерно 14%, в общем случае
ˆ
,
p
n
σ
σ =
где
ˆp
σ — стандартная ошибка доли, σ — стандартное отклоне- ние, n — объем выборки. Поскольку
(
)
1
,
p
p
σ =
−
то
(
)
ˆ
1
p
p
p
n
σ
−
=
Заменив в приведенной формуле истинное значение доли ее оценкой p , получим оценку стандартной ошибки доли:
(
)
ˆ
ˆ
ˆ
1
p
p
p
s
n
−
=
Из центральной предельной теоремы (см. гл. 2) вытекает, что при достаточно большом объеме выборки выборочная оценка p приближенно подчиняется нормальному распределению, имею- щему среднее р и стандартное отклонение
ˆp
σ . Однако при значе- ниях р, близких к 0 или 1, и при малом объеме выборки это не так. При какой численности выборки можно пользоваться приве- денным способом оценки? Математическая статистика утвер- ждает, что нормальное распределение служит хорошим при-
Рис. 5.6. Нанесем на график оценки доли розовых марсиан, полученные по выборке с рис. 5.4 и четырем выборкам с рис. 5.5. Добавим к ним еще 20 выборочных оценок.
Получилось распределение выборочных оценок
p
. Стандартное отклонение совокуп- ности средних — это стандартная ошибка доли.
ГЛАВА 5
131
ближением, если и ˆ
np и
(
)
ˆ
1
n
p
− превосходят 5*. Напомним, что примерно 95% всех членов нормально распределенной совокуп- ности находятся в пределах двух стандартных отклонений от среднего. Поэтому если перечисленные условия соблюдены, то с вероятностью 95% можно утверждать, что истинное значение
р лежит в пределах
ˆ
2
p
s от p .
Вернемся на минуту к сравнению операционной летальности при галотановой и морфиновой анестезии. Напомним, что при использовании галотана летальность составила 13,1% (числен- ность группы — 61 больной), а при использовании морфина —
14,9% (численность группы — 67 больных).
Стандартная ошибка доли для группы галотана
(
)
гал
ˆ
0,131 1 0,131 0,043 4,3%,
61
p
s
−
=
=
=
для группы морфина
(
)
мор
ˆ
0,149 1 0,149 0,044 4,4%.
67
p
s
−
=
=
=
Если учесть, что различие в летальности составило лишь 2%,
то маловероятно, чтобы оно было обусловлено чем-нибудь, кро- ме случайного характера выборки.
Прежде чем двигаться дальше, перечислим те предпосылки,
на которых основан излагаемый подход. Мы изучаем то, что в статистике принято называть независимыми испытаниями Бер-
нулли. Эти испытания обладают следующими свойствами.
• Каждое отдельное испытание имеет ровно два возможных взаимно исключающих исхода.
• Вероятность данного исхода одна и та же в любом испыта- нии.
• Все испытания независимы друг от друга.
В терминах совокупности и выборок эти свойства формулиру- ются так.
* Если объем выборки недостаточен для использования нормального рас- пределения, можно прибегнуть к помощи биномиального распределения.
О биномиальном распределении см. J. H. Zar. Biostatistical analysis, 2nd ed. Prentice-Hall, Englewood Cliffs, N. J., 1984.
АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ
132
• Каждый член совокупности принадлежит одному из двух классов.
• Доля членов совокупности принадлежащих одному классу неизменна.
• Каждый член выборки извлекается из совокупности незави- симо от остальных.
СРАВНЕНИЕ ДОЛЕЙ
В предыдущей главе мы рассмотрели критерий Стьюдента t. Он вычисляется на основе выборочных средних и стандартной ошибки:
Разность выборочных средних
Стандартная ошибка разности выборочных средних
t
=
Выборочная доля p аналогична выборочному среднему. Вы- ражение для стандартной ошибки мы уже вывели. Теперь мы можем перейти к задаче сравнения долей, то есть к проверке нулевой гипотезы о равенстве долей. Для этого используется критерий z, аналогичный критерию Стьюдента t:
Разность выборочных долей
Стандартная ошибка разности выборочных долей
z
=
Пусть p
1
и p
2
— выборочные доли. Поскольку стандартная ошибка — это стандартное отклонение всех возможных значе- ний
p , полученных по выборкам заданного объема, и посколь- ку дисперсия разности равна сумме дисперсии стандартная ошибка разности долей равна
1 2
1 2
2 2
ˆ
ˆ
ˆ
ˆ
p
p
p
p
s
s
s
−
=
+
Следовательно,
1 2
1 2
1 2
1 2
2 2
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
p
p
p
p
p
p
p
p
z
s
s
s
−
−
−
=
=
+
Если n
1
и n
2
— объемы двух выборок, то
ГЛАВА 5
133
(
)
1 1
1
ˆ
1
ˆ
ˆ
1
p
p
p
s
n
−
=
и
(
)
2 2
2
ˆ
2
ˆ
ˆ
1
p
p
p
s
n
−
=
Таким образом,
(
)
(
)
1 2
1 1
2 2
1 2
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
1 1
p
p
z
p
p
p
p
n
n
−
=
−
−
+
Итак, мы вывели формулу для критерия z. Вообще этой бук- вой обозначаются величины со стандартным нормальным рас-
пределением (то есть нормальным распределением со средним
µ = 0 и стандартным отклонением σ = 1 см. табл. 6.4). С величи- ной z мы встретимся еще неоднократно. В данном случае нор- мальное распределение имеет место только при достаточно боль- ших объемах выборок*.
Если при оценке дисперсии объединить наблюдения из обе- их выборок, чувствительность критерия Стьюдента увеличит- ся. Таким же способом можно повысить чувствительность кри- терия z. Действительно если справедлива нулевая гипотеза то обе выборочные доли
p
1
= m
1
/n
1
и
p
2
= m
2
/n
2
— это две оценки одной и той же доли
p , которую мы, следовательно, можем оце- нить как
1 2
1 2
ˆ
m
m
p
n
n
+
=
+
Тогда
(
)
ˆ
ˆ
ˆ
1
p
s
p
p
=
−
Отсюда имеем
(
)
1 2
2 2
ˆ
ˆ
ˆ
ˆ
1 2
1 2
1 1
ˆ
ˆ
1
p
p
p
p
s
s
s
p
p
n
n
n
n
−
=
+
=
−
+
* Точнее говоря, когда значения n
p и n(1 –
p
) больше 5. Если хотя бы для одной выборки это условие не выполняется, то критерий z неприменим, и нужно воспользоваться точным критерием Фишера. Этот критерий мы рассмотрим чуть позже.
АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ
134
Подставляя полученную объединенную оценку в формулу для критерия z, имеем:
(
)
1 2
1 2
ˆ
ˆ
1 1
ˆ
ˆ
1
p
p
z
p
p
n
n
−
=
−
+
О статистически значимом различии долей можно говорить,
если значение z окажется «большим». С такой же ситуацией мы имели дело, рассматривая критерии Стьюдента. Отличие состо- ит в том, что t подчиняется распределению Стьюдента, а z —
стандартному нормальному распределению. Соответственно для нахождения «больших» значении z нужно воспользоваться стан- дартным нормальным распределением (рис. 2.5). Однако, по- скольку при увеличении числа степеней свободы распределе- ние Стьюдента стремится к нормальному, критические значе- ния z можно найти в последней строке табл. 4.1. Для 5% уровня значимости оно составляет 1,96, для 1% — 2,58.
1 ... 7 8 9 10 11 12 13 14 ... 37
Поправка Йейтса на непрерывность
Нормальное распределение служит лишь приближением для распределения z. При этом оценка P оказывается заниженной, и нулевая гипотеза будет отвергаться слишком часто. Причина состоит в том, что z принимает только дискретные значения,
тогда как приближающее его нормальное распределение непре- рывно. Для компенсации излишнего «оптимизма» критерия z
введена поправка Йеитса называемая также поправкой на не-
прерывность. С учетом этой поправки выражение для z имеет следующий вид:
(
)
1 2
1 2
1 2
1 1 1
ˆ
ˆ
2 1
1
ˆ
ˆ
1
p
p
n
n
z
p
p
n
n
−
−
+
=
−
+
Поправка Йейтса слегка уменьшает значение z, уменьшая тем самым расхождение с нормальным распределением.
ГЛАВА 5
135
Галотан и морфин операционная летальность
Теперь мы можем, наконец, сравнить операционную летальность при галотановой и морфиновой анестезии. Как вы помните Ко- нахан и соавт. исходили из предположения о том, что морфин в меньшей степени угнетает кровообращение, чем галотан и по- тому предпочтительнее для общей анестезии. Действительно при использовании морфина артериальное давление и сердеч- ный индекс были выше, чем при использовании галотана и раз- личия эти статистически значимы. Однако выводы делать рано
— ведь до сих пор не проанализированы различия операцион- ной летальности, а именно этот показатель наиболее значим с практической точки зрения.
Итак, среди получавших галотан (1-я группа) умерли 8 боль- ных из 61 (13,1%), а среди получавших морфин (2-я группа) —
10 из 67 (14,9%). Объединенная оценка доли умерших
8 10
ˆ
0,141.
61 67
p
+
=
=
+
Величина n
p для каждой из выборок равна соответственно
n
1
p
1
= 61
× 0,141 = 8,6 и n
2
p
2
= 67
× 0,149 = 9,4. Оба значения больше 5*, поэтому можно воспользоваться критерием z. С уче- том поправки Йейтса имеем:
(
)
(
)
1 2
1 2
1 1
1 2
1 1 1
ˆ
ˆ
2 1
1
ˆ
ˆ
1 1 1 1
0,131 0,149 2 61 67 0,04.
1 1
0,141 1 0,141 61 67
p
p
n
n
z
p
p
n
n
−
−
+
=
=
−
+
−
−
+
=
=
−
+
Это очень маленькая величина. Она гораздо ниже 1,96 — кри-
АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ
* Больше 5 и n(1 –
p
) — нетрудно показать, что если
p
< 0,5, то n(1 –
p
) > n
p