ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 07.12.2023
Просмотров: 560
Скачиваний: 7
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
16
С тех пор многое изменилось. Важность грамотного исполь- зования статистических методов осознается все шире. И, хотя ошибки не исчезли, все больше журналов прилагают усилия к их искоренению. Во многих из них рецензирование включает отдельный этап проверки статистической правильности пред- лагаемых работ. Приведу подтверждение, наиболее ощутимое для меня. Я являюсь внештатным редактором Journal of the
American College of Cardiology, и моя работа состоит в выявле- нии статистических ошибок в поступающих работах. Доля ста- тей, содержащих ошибки, как и раньше, составляет около по- ловины, но теперь уже половины предлагаемых к публикации,
а не опубликованных работ.
Наконец, я признателен многим читателям этой книги, сту- дентам и преподавателям статистики, которые нашли время при- слать мне вопросы, комментарии и предложения, как улучшить содержание книги. Насколько возможно, я постарался выпол- нить их пожелания при подготовке четвертого издания.
Многие из приведенных в книге иллюстраций – прямые по- томки тех слайдов, которые я когда-то показывал на своих лек- циях. Кстати, будет совсем не плохо, если, читая книгу, вы во- образите, что попали на такую лекцию. Большинство слушате- лей проникались критическим духом. И, как мне рассказывали,
после моих выступлений перед докторантами из Калифорнийс- кого университета те доставляли немало неприятностей после- дующим докладчикам, указывая на ошибки в использовании ста- тистических методов. Надеюсь, что предлагаемая книга сдела- ет читателя более критичным и поможет улучшить медицинс- кую литературу, а, в конечном счете, и саму медицину.
Стентон А. Гланц
Глава 1
Рис. 2.1. Распределение марсиан по росту. Каждому марсианину соответствует кружок.
Обратите внимание, что марсиан среднего роста (около 40 см) больше всего и что высо- корослых столько же, сколько коротышек — распределение симметрично.
30
35 40
50
45
Марсиане
N = 200
ГЛАВА 2
29
который умещается рост всех марсиан шире, чем соответству- ющий интервал для венерианцев. Ширина интервала, в кото- рый попадают почти все марсиане (194 из 200) — 20 см (от 30
до 50 см). Рост большинства венерианцев (144 из 150) умещает- ся в интервал от 10 до 20 см, то есть имеет ширину всего лишь
10 см. Несмотря на эти различия между двумя совокупностями инопланетян имеется и существенное сходство. В обоих рост любого члена скорее близок к середине распределения, нежели заметно от нее удален и одинаково вероятно может быть как выше, так и ниже середины. Распределения на рис. 2.1 и 2.2
имеют схожую форму и приближенно определяются одной и той же формулой.
Раз существует множество похожих распределений, значит,
для характеристики одного из них достаточно указать чем оно отличается от других ему подобных, то есть всю собранную ин- формацию мы можем свести к нескольким числам, которые на-
зываются параметрами распределения. Это среднее значение и стандартное отклонение.
Рис. 2.2. Распределение венерианцев по росту. Венерианцы ниже марсиан, разброс зна- чений меньше. Однако по форме распределения, напоминающей колокол, венерианцы и марсиане схожи друг с другом.
1 0
1 5 2 0
• •• •• • • • • •
N = 1 5 0
• • ••, ••
КАК ОПИСАТЬ ДАННЫЕ
30
Расположив мысленно распределения марсиан и венерианцев на одной шкале роста, мы увидим, что распределение венери- анцев находится ниже, чем распределение марсиан. Характери- стика положения распределения на числовой оси называется средним. Среднее по совокупности обозначают греческой бук- вой µ (читается "мю") и вычисляют по формуле:
Сумма значений признака для всех членов совокупности
Среднее по совокупности =
Число членов совокупности
Эквивалентное математическое выражение имеет вид
X
N
µ =
∑
,
где X — значение признака, N — число членов совокупности.
Как всегда, большая греческая буква
Σ (читается «сигма») обо- значает сумму. Подставив в формулу добытые нами данные,
получим ценное дополнение к научному отчету: средний рост марсиан 40 см, а венерианцев — 15 см.
СТАНДАРТНОЕ ОТКЛОНЕНИЕ
Еще на Венере мы заметили, что тамошние жители более одно- родны по росту, нежели марсиане. Хотелось бы и это впечатле- ние оформить количественно, то есть иметь показатель разбро- са значений относительно среднего. Ясно, что для характерис- тики разброса все равно, в какую сторону отклоняется значение
— в большую или меньшую. Иными словами, отрицательные и положительные отклонения должны вносить равный вклад в ха- рактеристику разброса. Воспользуемся тем, что квадраты двух равных по абсолютной величине чисел равны между собой, и вычислим средний квадрат отклонения от среднего. Этот пока- затель носит название дисперсии и обозначается
σ
2
. Чем боль- ше разброс значений, тем больше дисперсия. Дисперсию вы- числяют по формуле:
ГЛАВА 2
31
(
)
2 2
X
N
µ
σ
−
=
∑
Как видно из формулы, дисперсия измеряется в единицах,
равных квадрату единицы измерения соответствующей величи- ны. Например, дисперсия измеряемого в сантиметрах роста сама измеряется в квадратных сантиметрах. Это довольно неудобно.
Поэтому чаще используют квадратный корень из дисперсии —
стандартное отклонение
σ (маленькая греческая буква «сиг- ма»):
(
)
2 2
X
N
µ
σ
σ
−
=
=
∑
Стандартное отклонение измеряется в тех же единицах, что исходные данные. Например, стандартное отклонение роста марсиан составляет 5 см, а венерианцев — 2,5 см.
НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ
Таблица 2.1 сжато представляет то, что мы узнали о марсианах и венерианцах. Таблица очень информативна, из нее можно уз- нать об объеме совокупности, о среднем росте и о том, насколь- ко велик разброс относительно среднего.
Вновь обратившись к рис. 2.1 и 2.2, мы обнаружим, что на обеих планетах рост примерно 68% обитателей отличается от
среднего не более чем на одно стандартное отклонение и при-
мерно 95% — на два стандартных отклонения. Подобные рас- пределения встречаются очень часто. Можно сказать, что это про- исходит всегда, когда некая величина отклоняется от средней под действием множества слабых, независимых друг от друга факто-
Таблица 2.1. Параметры распределения марсиан и венериан- цев по росту
Объем
Стандартное совокупности Среднее, см отклонение, см
Марсиане
200 40 5
Венерианцы 150 15 2,5
КАК ОПИСАТЬ ДАННЫЕ
32
ров. Распределение такого рода называется нормальным (или гауссовым) и описывается формулой:
( )
(
)
2 2
1 2
1 2
X
f X
e
µ
σ
σ π
−
=
Заметим, что нормальное распределение полностью опреде- ляется средней
µ и стандартным отклонением σ. Поэтому све- дения в табл. 2.1 — это не просто удачное представление дан- ных.
МЕДИАНА И ПРОЦЕНТИЛИ
И снова в путь! Обогатившись теоретическими познаниями, мы отправляемся на Юпитер. Здесь мы не только измеряем всех до одного юпитериан, но также подсчитываем среднее и стандарт- ное отклонение роста для всей их совокупности. Оказывается средний рост юпитериан — 37,6 см, а его стандартное отклоне- ние — 4,5 см. Можно заключить, что юпитериане очень похожи на марсиан, ведь близки оба параметра определяющие нормаль- ное распределение — среднее и стандартное отклонение.
Однако если взглянуть на исходные данные по юпитерианам
(рис. 2.ЗА), то обнаружится совершенно иная картина. На са- мом деле типичный юпитерианин довольно приземист — око- ло 35 см, то есть на добрых 5 см ниже марсианина. И только небольшая группа долговязых смещает значения стандартного отклонения и среднего вводя ученых в заблуждение.
Итак, рост произвольно выбранного юпитерианина вовсе не равновероятно может оказаться выше или ниже среднего, то есть распределение юпитериан по росту асимметрично. В такой си- туации полагаться на среднее и стандартное отклонение нельзя.
На рис. 2.ЗБ изображено нормальное распределение для совокуп- ности с теми же самыми значениями среднего и стандартного отклонения, что и на рис. 2.ЗА. Оно ничуть не похоже на распре- деление юпитериан. Таким образом, доверившись среднему и стандартному отклонению, мы получим превратное представ-
ГЛАВА 2
33
ление о совокупности, не подчиняющейся нормальному распре- делению.
Для описания таких данных лучше подходит не среднее, а
медиана. Медиана — это значение, которое делит распределе- ние пополам половина значений больше медианы половина —
меньше (точнее не больше). Из рис. 2.4А видно, что ровно по- ловина юпитериан выше 36 см. Стало быть 36 см — это медиа- на роста юпитериан.
Для характеристики разброса роста юпитериан найдем зна- чения, не выше которых оказались 25 и 75% результатов измере-
Рис. 2.3. Если распределение асимметрично полагаться на среднее и стандартное от- клонение нельзя. А. Распределение юпитериан по росту. Б. Нормальное распределение с теми же средним и стандартным отклонением, не смотря на тождественность пара- метров, оно ничуть не похоже на реальное распределение юпитериан.
КАК ОПИСАТЬ ДАННЫЕ
34
Рис. 2.4. Для описания асимметричного распределения следует использовать медиану и процентили. Медиана — это значение, которое делит распределение пополам. А. Ме- диана роста юпитериан — 36 см. Б. 25-й и 75-й процентили отсекают четверть самых низких и четверть самых высоких юпитериан 25-й процентиль ближе к медиане, чем
75-й — это говорит об асимметричности распределения.
35
30
Рост, см
40 45 50
Б
А
25-й процентиль 75-й процентиль
Медиана (50-й процентиль)
ГЛАВА 2
35
ния. Эти величины называются 25-м и 75-м процентилями. Если медиана делит распределение пополам, то 25-й и 75-й процен- тили отсекают от него по четвертушке. (Саму медиану, кстати,
можно считать 50-м процентилем). Для юпитериан, как видно из рис. 2.4Б, 25-й и 75-й процентили равны соответственно 34
см и 40 см. Конечно, медиана и процентили, в отличие от сред- него и стандартного отклонения, не дают полного описания рас- пределения. Однако между 25 м и 75-м процентилями находит- ся половина значений, – значит, мы можем судить, каков ростом средний юпитерианин. По положению медианы относительно
25-го и 75-го процентилей можно судить о том, насколько асим- метрично распределение. И наконец, теперь мы примерно зна- ем, кто на Юпитере считается высоким (выше 75-го проценти- ля), а кто ростом не вышел (ниже 25-го процентиля).
Для описания распределения чаще всего применяют 25-й и
75-й процентили. Однако можно рассчитывать любые другие процентили. Например, в качестве границ нормы лабораторных показателей часто используют 5-й и 95-й процентили.
Вычисление процентилей — хороший способ разобраться в том, насколько распределение близко к нормальному. Напом- ним, что для нормального распределения 95% значений заклю- чено в пределах двух стандартных отклонений от среднего и
68% — в пределах одного стандартного отклонения, медиана совпадает со средним. Соответствие между процентилями и числом стандартных отклонений от среднего таково (см. также рис. 2.5):
Если соответствие между процентилями и отклонениями от среднего не слишком отличается от приведенного, то распреде- ление близко к нормальному и его можно описать при помощи среднего и стандартного отклонения.
Процентили
Отклонения от среднего
2,5
µ – 2σ
16
µ – σ
50
µ
84
µ + σ
97,5
µ + 2σ
КАК ОПИСАТЬ ДАННЫЕ
36
Есть еще одна, и очень важная, причина, по которой нужно знать, близко ли распределение к нормальному. Дело в том, что многие методы проверки гипотез, в частности рассматриваемые в гл. 2, 4 и 9, основаны на предположении что распределение близко к нормальному. Только в этом случае эти методы будут надежны. (Методы, не требующие нормальности распределе- ния, изложены в гл. 10)
ВЫБОРОЧНЫЕ ОЦЕНКИ
До сих пор нам удавалось получить данные обо всех объектах совокупности, поэтому мы могли точно рассчитать значения сред- него, дисперсии и стандартного отклонения. На самом деле об- следовать все объекты совокупности удается редко: обычно до- вольствуются изучением выборки, полагая, что эта выборка от- ражает свойства совокупности. Выборку, отражающую свойства совокупности, называют представительной. Имея дело с выбор- кой, мы, конечно, не узнаем точных значений среднего и стан-
ГЛАВА 2
Рис. 2.5. Нормальное распределение, соответствие между числом стандартных откло- нений от среднего и процентилями.
37
дартного отклонения, но можем оценить их. Опенка среднего,
вычисленная по выборке называется выборочным средним. Вы- борочное среднее обозначают X и вычисляют по формуле:
X
X
n
=
∑
где n – объем выборки.
Оценка стандартного отклонения называется выборочным стан-
дартным отклонением (s) и определяется следующим образом:
(
)
2 1
X
X
s
n
−
=
−
∑
Эта формула отличается от формулы для стандартного от- клонения по совокупности. Во-первых, среднее
µ заменяется его выборочной оценкой — X . Во-вторых, в знаменателе из числа членов выборки вычитается единица. Строгое обоснова- ние последнего требует основательной математической подго- товки, поэтому ограничимся следующим объяснением. Разброс значений в пределах выборки никогда не бывает столь большим,
как во всей совокупности, и деление не на n, а на n – 1 компенси- рует возникающее занижение оценки стандартного отклонения.
Подытожим. Если известно, что выборка скорее всего при- надлежит к совокупности с нормальным распределением, луч- ше всего использовать выборочное среднее и выборочное стан- дартное отклонение. Если есть основания полагать, что распре- деление в совокупности отличается от нормального, следует ис- пользовать медиану, 25-й и 75-й процентили.
НАСКОЛЬКО ТОЧНЫ ВЫБОРОЧНЫЕ ОЦЕНКИ
Выборочное среднее и выборочное стандартное отклонение есть оценки среднего и стандартного отклонения для совокупности,
вычисленные по случайной выборке. Понятно, что разные выбор- ки дадут разные оценки. Для характеристики точности выбороч- ных оценок используют стандартную ошибку. Стандартную ошиб- ку можно подсчитать для любого показателя, но сейчас мы остановимся на стандартной ошибке среднего, — она позволяет
КАК ОПИСАТЬ ДАННЫЕ