ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 30.11.2023
Просмотров: 458
Скачиваний: 8
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
67
Рис. 5.7. t-распределение со степенями свободы df=1, df=5, df=50.
Хи-квадрат (
2
) распределение Пирсона (рис. 5.8)
• скошено вправо, принимает только положительные значения;
• характеризуется степенями свободы;
• форма кривой зависит от числа степеней свободы. Кривая становится более симметричной и приближается к нормальной с увеличением числа степе- ней свободы;
• особенно часто используется для анализа категориальных данных.
Рис. 5.8. Хи-квадрат распределение Пирсона со степенями свободы df=2, df=5,
df=10
F-распределение (рис. 5.9)
кривая скошена вправо;
определяется как отношение. Распределение отношения двух оценок дисперсий, вычисленных для нормально распределенных данных, аппроксими- руется F-распределением;
характеризуется степенями свободы числителя d
1
и знаменателя d
2
от- ношения;
особенно полезно для сравнения двух дисперсий и более чем двух средних при использовании дисперсионного анализа.
68
Рис. 5.9. F- распределение с разными степенями свободы числителя и знамена-
теля.
Логнормальное распределение (рис. 5.10)
• распределение вероятности случайной переменной, логарифм которого
(по основанию 10 или е) имеет нормальное распределение;
• сильно скошено вправо;
• если набор данных имеет логнормальное распределение, то используют среднее геометрическое как обобщающий показатель.
Рис. 5.10. Логнормальное распределение с разными показателями стандартно-
го отклонения.
Многие переменные в медицине имеют логнормальное распределение.
Поэтому можно использовать свойства нормального распределения для того, чтобы сделать выводы относительно этих переменных после логарифмического преобразования данных.
Биномиальное распределение (рис. 5.11)
Предположим, что существуют только два результата – «успех» и «не- удача». Например, нас интересует, забеременеет ли женщина в результате экст- ракорпорального оплодотворения. Если мы примем п = 100 не имеющих отно- шения друг к другу женщин, перенесших процедуру экстракорпорального оп- лодотворения (каждая с одинаковой вероятностью забеременеть), то биноми-
69 альная случайная переменная – это наблюдаемое число зачатий. Часто это по- нятие представляют как п независимых повторных испытаний, при которых ре- зультатом будет либо успех, либо неудача.
Биномиальное распределение описывают: п - число индивидуумов в выборке (или число повторений испытания), и
- точная вероятность успеха для каждого индивидуума (или при каждом испытании).
Свойства биномиального распределения можно использовать, что- бы сделать выводы относительно пропорций. Особенно часто используется ап- проксимация биномиального распределения нормальным при анализе пропор- ций.
Рис. 5.11. Функция биномиального распределения величины х.
Распределение Пуассона (рис. 5.12)
Пуассоновская случайная переменная – это число событий, которые про- исходят независимо и случайно во времени или пространстве со средней интен- сивностью
. Например, число госпитализаций в день типично отвечает рас- пределению Пуассона. Распределение Пуассона может быть использовано в данном случае, чтобы вычислить вероятность конкретного числа госпитализа- ций в любой отдельный день. Параметр, которым описывают распределение
Пуассона, – это среднее, т.е. средняя интенсивность
В распределении Пуассона среднее арифметическое равняется дис- персии.
Если среднее мало, распределение скошено вправо. По мере того, как среднее увеличивается, оно становится более симметричным, приближаясь к нормальному распределению.
Рис. 5.12. Функция пуассоновского распределения (
3 2
1
).
70
Большинство критериев и статистических тестов относятся к так назы- ваемым параметрическим критериям. Это значит, что они могут применяться
только к нормально распределенным рядам данных. Во всех остальных случа- ях используются так называемые непараметрические критерии. В случае, кода распределение ряда параметров является отличным от нормального или о при- роде распределения ничего не известно, необходимо обращаться именно к та- ким методам. Говоря более специальным языком, непараметрические методы не основываются на оценке параметров (таких как среднее или стандартное от- клонение) при описании выборочного распределения интересующей величины.
Поэтому эти методы иногда также называются свободными от параметров или свободно распределенными.
Если данные не являются нормально распределенными, а измерения, в лучшем случае, содержат ранжированную информацию, то вычисление обыч- ных описательных статистик (например, среднего, стандартного отклонения) не слишком информативно. Например, в психометрии хорошо известно, что вос- принимаемая интенсивность стимулов (например, воспринимаемая яркость света) представляет собой логарифмическую функцию реальной интенсивности
(яркости, измеренной в объективных единицах - люксах). В данном примере, обычная оценка среднего (сумма значений, деленная на число стимулов) не да- ет верного представления о среднем значении действительной интенсивности стимула.
Непараметрическая статистика вычисляет разнообразный набор мер по- ложения (среднее, медиану, моду и т.д.) и рассеяния (дисперсию, гармониче- ское среднее, межквартильный размах и т.д.), позволяющий представить более "полную картину" данных.
Альтернативное распределение признака. Если из всей массы наблю- дений использовать для статистического анализа только наблюдения за исхо- дами, например, получен эффект от проводимой терапии – да или нет; выявле- ны побочные эффекты – да или нет; отмечено появление определенных сим- птомов – да или нет и т.д., то необходим способ учета реакций в альтернатив- ной форме (реакция, которая или наступает, или – нет).
Альтернативное распределение – это распределение элементов сово- купности на 2 части (2 альтернативы) по какому-либо признаку, чаще по каче- ственному. Единственный способ описания качественных признаков состоит в том, чтобы подсчитать число объектов, имеющих одно и то же значение, или
долю от общего числа объектов, которая приходится на то или иное значение.
В отношении доли вариант в альтернативном распределении возникают те же статистические задачи, что и для параметров, представленных в количе- ственной форме:
оценка доли р в генеральной совокупности по выборочным данным, нахождение доверительного интервала для р;
выявления различия между генеральными долями р1 и р2 двух сово- купностей по выборочным данным, т.е. сравнение двух выборочных долей ва- риант.
71
Таким образом, статистический анализ медико-биологических дан-
ных должен начинаться с их первичной обработки, т.е. представления ис-
ходных данных в подходящей для анализа форме, и проведения проверки ка-
чества данных.
Порядок первичной обработки данных (предварительный анализ данных) представлен на рис 5.13.
Рис 5.13. Первичная обработка (предварительный анализ)данных.
Контрольные вопросы
1. Для чего может применяться математическая статистика в медицине?
2. Перечислите основные описательные статистики, используемые в пред- варительном анализе данных.
3. Что такое меры положения?
4. Что такое меры рассеяния?
5. Что такое среднее арифметическое? Какими свойствами оно обладает?
6. Что такое мода? Укажите моду в ряду {36,6; 36,6; 37,1; 37,1; 37,2; 38}.
7. Что такое процентили, квартили и медиана?
8. Для чего используется доверительный интервал?
9. Что такое дисперсия?
10. Что такое среднее квадратическое отклонение?
11. Что такое коэффициент вариации?
12. Что отражает стандартная ошибка среднего?
13. Что такое вероятность? По какой формуле она вычисляется?
14. Что такое математическое ожидание?
15. Что такое закон распределения случайной величины?
16. Какие виды распределений вам известны?
17. В чем разница между параметрическими и непараметрическими крите- риями?
72
Список литературы
1. Лях Ю.Е., Гурьянов В.Г., Хоменко В.Н., Панченко О.А. Основы компью- терной биостатистики: анализ информации в биологии, медицине и фар- мации статистическим пакетом Medstat. – Донецк:, 2006. – 214 с.
2. Островок здоровья. – Режим доступа: www.bono-esse.ru
3. Петри А., Сэбин К. Наглядная статистика в медицине. – М.: ГЭОТАР-
МЕД, 2003. – 139 с.
4. Платонов А.Е. Статистический анализ в медицине и биологии: задача, терминология, логика, компьютерные методы. – М.: Издательство РАМН,
2000. – 52 с.
5. Реброва О.Ю. Статистический анализ медицинских данных. Применение пакета прикладных программ STATISTICA. – М.: МедиаСфера, 2002. –
312 с.
73
1 2 3 4 5 6 7 8 9 ... 16
ТЕМА 6
СТАТИСТИЧЕСКИЕ ГИПОТЕЗЫ И ИХ ПРОВЕРКА
В статистике, как и в жизни, важные утверждения редко удается доказать окончательно и неоспоримо. Можно только выдвинуть утверждение, справед- ливое с некоторой степенью достоверности. Такое утверждение называют
статистической гипотезой.
Наиболее частыми задачами медицинских и биологических исследова- ний, для решения которых оказывается необходимым сформулировать стати- стические гипотезы, являются следующие:
анализ соответствия распределения значений признака в изучаемой груп- пе какому-либо определенному закону (например, анализ соответствия нормальному закону)
сравнение групп по параметрам распределений признака (например, по средним значениям, дисперсиям).
Для решения любой подобной задачи формулируются две статистические гипотезы:
1. Нулевая гипотеза Н
0
– предположение, что разница между генераль- ными параметрами сравниваемых групп равна нулю и различия, наблюдаемые между выборочными характеристиками, носят исключительно случайный ха- рактер;
2. Альтернативная гипотеза Н
1
– противоположная нулевой –гипотеза о существовании различий между генеральными параметрами сравниваемых групп.
Обычно статистическая гипотеза формулируется таким образом, что бы она была противоположна той исследовательской (медицинской, биологиче- ской) гипотезе, которая послужила поводом для проведения исследования. На- пример, необходимо проверить эффективность применения препарата. Пусть есть две группы испытуемых. Одна принимает препарат, а вторая нет. Тогда в качестве нулевой гипотезы Н
0
можно принять гипотезу об отсутствии различия между результатами первой и второй группы. Тогда альтернативная гипотеза
Н
1
- наличие различий между группами.
Для проверки нулевой гипотезы применяют специальные статистические критерии. В результате возникают следующие 4 ситуации: (табл. 6.1).
Ошибка первого рода иначе называется уровнем статистической значи-
мости. Уровень значимости - это максимально приемлемая для исследователя вероятность ошибочно отклонить нулевую гипотезу, когда она на самом деле верная, т.е. допускаемая исследователем величина ошибки первого рода. Вели- чина уровня значимости устанавливается исследователем произвольно, однако обычно принимается равным 0,05, 0,01 или 0,001.
Вероятность ошибки второго рода не имеет какого-то особого общепри- нятого названия, на письме обозначается греческой буквой β. Однако с этой ве- личиной тесно связана другая, имеющая большое статистическое значение –
мощность (чувствительность) критерия. Она вычисляется по формуле (1 − β).
74
Таким образом, чем выше мощность, тем меньше вероятность совершить ошибку второго рода.
Таблица 6.1.
Возможные решения при различных соотношениях результатов статисти-
ческого теста и истинной ситуации в генеральной совокупности
В генеральной совокупности
Н
0
неверна
Н
0
верна
В статистическом тесте
Н
0
отклонена
Истинно- положительный результат
Ложно- положительный результат (ошиб- ка первого рода или
-ошибка)
Н
0
не отклонена
Ложно- отрицательный результат (ошиб- ка второго рода или
-ошибка)
Истинно- отрицательный вариант
Как видно из вышеприведенного, ошибки первого и второго рода являют- ся взаимно-симметричными, то есть, если поменять местами гипотезы H
0
и H
1
, то ошибки первого рода превратятся в ошибки второго рода, и наоборот. Тем не менее, в большинстве практических ситуаций путаницы не происходит, по- скольку принято считать, что нулевая гипотеза H
0
соответствует состоянию «по умолчанию» (естественному, наиболее ожидаемому положению вещей) – на- пример, что обследуемый человек здоров, или что проходящий через рамку ме- таллодетектора пассажир не имеет запрещённых металлических предметов. Со- ответственно, альтернативная гипотеза H
1
обозначает противоположную ситуа- цию, которая обычно трактуется как менее вероятная, неординарная, требую- щая какой-либо реакции.
С учётом этого ошибку первого рода часто называют ложной тревогой, ложным срабатыванием или ложноположительным срабатыванием – например, анализ крови показал наличие заболевания, хотя на самом деле человек здоров, или металлодетектор выдал сигнал тревоги, сработав на металлическую пряжку ремня. Слово «положительный» в данном случае не имеет отношения к жела- тельности или нежелательности самого события.
Термин широко используется в медицине. Например, тесты, предназна- ченные для диагностики заболеваний, иногда дают положительный результат
(т. е. показывают наличие заболевания у пациента), когда, на самом деле паци- ент этим заболеванием не страдает. Такой результат называется ложноположи- тельным.
Из-за возможности ложных срабатываний не удаётся полностью автома- тизировать борьбу со многими видами угроз. Как правило, вероятность ложно- го срабатывания коррелирует с вероятностью пропуска события (ошибки вто- рого рода). То есть, чем более чувствительна система, тем больше опасных со- бытий она детектирует и, следовательно, предотвращает. Но при повышении чувствительности неизбежно вырастает и вероятность ложных срабатываний.