ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 30.11.2023
Просмотров: 459
Скачиваний: 8
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
75
Поэтому чересчур чувствительная (параноидально) настроенная система защи- ты может выродиться в свою противоположность и привести к тому, что по- бочный вред от неё будет превышать пользу.
Соответственно, ошибку второго рода иногда называют пропуском собы- тия или ложноотрицательным срабатыванием – человек болен, но анализ крови этого не показал, или у пассажира имеется холодное оружие, но рамка металло- детектора его не обнаружила (например, из-за того, что чувствительность рам- ки отрегулирована на обнаружение только очень массивных металлических предметов).
Слово «отрицательный» в данном случае не имеет отношения к жела- тельности или нежелательности самого события.
Термин широко используется в медицине. Например, тесты, предназна- ченные для диагностики заболеваний, иногда дают отрицательный результат
(т.е. показывают отсутствие заболевания у пациента), когда, на самом деле па- циент страдает этим заболеванием. Такой результат называется ложноотрица- тельным.
В ходе применения статистического метода вычисляется значение тесто- вой статистики (например, при применении критерия Стьюдента – значение t), а также соответствующее ему и числу степеней свободы значение р – вероят- ность справедливости нулевой гипотезы.
Метод проверки статистических гипотез заключается в сравнении полу- ченного значения р с принятым уровнем значимости:
- если рассчитанное в статистическом тесте значение р оказывается больше принятого уровня значимости, то нулевую гипотезу Н
0
не откло- няют и различия групп называются статистически незначимыми.
- если значение р оказывается меньше уровня значимости, то нулевую гипотезу Н
0
отклоняют, при этом следует принять альтернативную гипо- тезу Н
1
. В данном случае различия групп называют статистически зна-
чимыми (при р<0,05) или статистически высокозначимыми (при
р<0,01).
В биомедицинской статистике обычно выбирают уровень значимости, равный 0,05 или 0,01. Чем меньше выбрано значение уровня, тем ниже вероят- ность ошибки первого рода, то есть ошибочного отклонения верной нулевой гипотезы. Однако не следует забывать, что при этом возрастает вероятность ошибки второго рода, т.е. ошибочного принятия ложной нулевой гипотезы.
При сравнении двух выборок могут выдвигаться направленные и нена- правленные гипотезы. Ненаправленная альтернативная гипотеза предпола- гает, что значения переменной в первой выборке отличны от значений во вто- рой (или отличны от некоторого фиксированного числа). Направленная аль-
тернативная гипотеза предполагает, что значения переменной в первой вы- борке больше значений во второй (или фиксированного числа). Направленные и ненаправленные гипотезы проверяются, соответственно, с помощью одно- сторонних и двусторонних критериев.
Стандартная, но существеннейшая статистическая задача – сравнение значений переменной (или нескольких однотипных переменных) в нескольких
76 группах (или подгруппах), выбранных из генеральной совокупности согласно некоему условию. Подобные выборки могут быть независимыми (несвязанны-
ми) или зависимыми (связанными, сопряженными, парными). Например, значе- ния уровня сахара в крови у пациентов мужского пола в клинике и у пациентов женского пола являются независимыми, а значения уровня сахара крови, изме- ренные у одних и тех же пациентов утром и вечером - связанные.
Сравнение связанных и несвязанных выборок производится с помощью разных критериев (табл. 6.2).
Таблица 6.2.
Рекомендуемые к использованию статистические критерии в зави-
симости от задачи исследования и типа данных.
Задача
Метод параметрический непараметрический
Сравнение двух незави- симых групп по одному признаку t-критерий Стьюдента для независимых выбо- рок
Критерии Манна-Уитни,
Колмогорова-Смирнова,
Вальда-Вольфовица, критерий
2
, точный критерий Фишера
Сравнение двух зависи- мых групп по одному признаку t-критерий Стьюдента для зависимых выборок
Критерий Вилкоксона, критерий знаков, крите- рий Мак-Нимара
Сравнение трех и более независимых групп по одному признаку
ANOVA
ANOVA по Краскелу-
Уоллису, медианный критерий, критерий
2
Сравнение трех и более зависимых групп по од- ному признаку
Критерий Кокрена
Критерий Кокрена,
ANOVA по Фридману
Охарактеризуем кратко основные статистические критерии:
Параметрические критерии для проверки гипотезы о различии (или сход-
стве) между средними значениями
t-критерий Стьюдента – общее название для класса методов статисти- ческой проверки гипотез (статистических критериев), основанных на сравнении с распределением Стьюдента. Наиболее частые случаи применения t-критерия связаны с проверкой равенства средних значений в двух выборках. Для приме- нения данного критерия необходимо, чтобы исходные данные имели нормаль- ное распределение. В случае применения двухвыборочного критерия для неза- висимых выборок также необходимо соблюдение условия равенства дисперсий.
Существуют, однако, альтернативы критерию Стьюдента для ситуации с не- равными дисперсиями.
Двухвыборочный t-критерий для независимых выборок
Пусть
2 1
,
— средние арифметические выборок, σ
1
,σ
2
— стандартные от- клонения, а n
1
,n
2
— размеры выборок.
77
В случае с незначительно отличающимся размером выборки применяется упрощённая формула приближенных расчётов (6.1):
2 2
2 1
2 1
2 1
n
n
t
(6.1).
Количество степеней свободы рассчитывается как
2 2
1
n
n
df
Двухвыборочный t-критерий для зависимых выборок
Для вычисления эмпирического значения t-критерия в ситуации проверки гипотезы о различиях между двумя зависимыми выборками (например, двумя пробами одного и того же теста с временным интервалом) применяется сле- дующая формула (6.2):
n
t
d
d
(6.2). где
d
— средняя разность значений, σ
d
— стандартное отклонение разно- стей, а n — количество наблюдений
Количество степеней свободы рассчитывается как
1
n
df
Непараметрические критерии для проверки гипотезы о различии (или
сходстве) между средними значениями
Сравнение двух независимых групп
U-критерий Уилкоксона (Манна-Уитни) используется для проверки гипотезы о принадлежности сравниваемых независимых выборок одной и той же генеральной совокупности.
Этот метод определяет, достаточно ли мала зона перекрещивающихся значений между двумя рядами (ранжированным рядом значений параметра в первой выборке и таким же во второй выборке). Чем меньше значение крите- рия, тем вероятнее, что различия между значениями параметра в выборках дос- товерны.
Ограничения применимости критерия:
1. В каждой из выборок должно быть не менее 3 значений признака.
Допускается, чтобы в одной выборке было два значения, но во вто- рой тогда не менее пяти.
2. В выборочных данных не должно быть совпадающих значений (все числа – разные) или таких совпадений должно быть очень мало.
Критерий серий Вальда-Вольфовица предзначен для проверки нулевой гипотезы о равенстве целого ряда параметров двух выборок, включая медианы и коэффициента асимметрии.
Сравнение двух зависимых групп
Т-критерий Уилкоксона используется в случае попарно связанных выбо- рок. При этом ранжируют попарные разности – положительные и отрицатель- ные (кроме нулевых) в один ряд так, чтобы наименьшая абсолютная разница
(без учета знака) получила первый ранг, одинаковым величинам присваивают один ранг. Отдельно вычисляю т сумму рангов положительных (Т+) и отрица-
78 тельных (Т-) разностей. Меньшую из двух таких сумм без учета знака считают тестовой статистикой данного критерия. Нулевую гипотезу принимают на дан- ном уровне значимости, если вычисленная статистика превзойдет табличное значение.
Порядок проведения сравнения средних значений двух групп представлен на рис. 6.1.
Сравнение средних значений нескольких выборок
(множественные сравнения)
Если план исследования включает сравнение большего числа групп
(больше, чем две группы), совершенно недопустимо просто сравнивать их по- парно. Для корректного решения этой задачи можно воспользоваться, напри- мер, дисперсионным анализом. Однако дисперсионный анализ позволяет про- верить лишь гипотезу о равенстве всех сравниваемых средних. Но, если гипоте- за не подтверждается, нельзя узнать, какая именно группа отличалась от дру- гих. Это позволяет сделать методы множественного сравнения, которые в свою очередь также бывают параметрические и непараметрические. Эти методы дают возможность провести множественные сравнения так, чтобы вероятность хотя бы одного неверного заключения оставалась на первоначальном выбран- ном уровне значимости, например, 5%.
Параметрические критерии.
Критерий Стьюдента для множественных сравнений основан на ис- пользовании неравенства Бонферрони: если k-раз применить критерий с уров- нем значимости , то вероятность хотя бы в одном случае найти различие там, где его нет, не превышает произведения k на . Этот метод работает, если число сравнений невелико, обычно не больше 8. При большем числе сравнений кри-
терий Ньюмана-Кейлса и Тьюки дают более точную оценку вероятности
.
Критерий Даннета более чувствительный, чем предыдущий, особенно при большом числе групп. Критерий Даннета является модификацией критерия
Ньюмана-Кейлса. Для проверки критерия средние значения упорядочиваются по абсолютной величине их отличия от контрольной группы, сравнения начи- нают с группы, наиболее отличающейся от контроля. Если различия с очеред- ной группой не найдены, сравнения прекращаются.
Непараметрические критерии
Критерий Краскела-Уоллиса – непараметрический критерий для срав- нения средних значений нескольких независимых выборок – основан на по- строении объединенного вариационного ряда из вариант рассматриваемых вы- борок и присвоении рангов всем вариантам в объединенном ряду, предназначен для проверки равенства медиан нескольких выборок.
Критерий Фридмана – это непараметрический аналог дисперсионного анализа повторных измерений, применяется для анализа повторных измерений, связанных с одним и тем же индивидуумом. Логика критерия очень проста.
Каждый больной ровно один раз подвергается каждому методу лечения (или наблюдается в фиксированные моменты времени). Результаты наблюдения у каждого больного упорядочиваются. Причем мы отдельно упорядочиваем зна-
79 чения у каждого больного независимо от всех остальных. Таким образом, полу- чается столько упорядоченных рядов, сколько больных участвует в исследова- нии. Далее, для каждого метода лечения вычисляется сумма рангов. Если раз- брос сумм велик - различия статистически значимы.
Порядок проведения множественных сравнений средних значений пред- ставлен на рис. 6.2.
ANOVA (дисперсионный анализ)
Дисперсионный анализ был разработан английским математиком
Р.Фишером. Его чаще используют в научно-практических исследованиях обще- ственного здоровья и здравоохранения для изучения влияния одного или не- скольких факторов на результативный признак. Дисперсионный анализ основан на принципе «отражения разнообразий значений факторного на разнообразии значений результативного признака» и устанавливает силу влияния фактора в выборочных совокупностях.
Сущность метода дисперсионного анализа заключается в измерении от- дельных дисперсий (общая, факториальная, остаточная), и дальнейшем опреде- лении силы (доли) влияния изучаемых факторов (оценки роли каждого из фак- торов, либо их совместного влияния) на результативный признак.
Дисперсионный анализ – это статистический метод оценки связи между факторными и результативным признаками в различных группах, отобранный случайным образом, основанный на определении различий (разнообразия) зна- чений признаков. В основе дисперсионного анализа лежит анализ отклонений всех единиц исследуемой совокупности от среднего арифметического. В каче- стве меры отклонений берется дисперсия (
2
) – средний квадрат отклонений.
Отклонения, вызываемые воздействием факторного признака (фактора) сравни- ваются с величиной отклонений, вызываемых случайными обстоятельствами.
Если отклонения, вызываемые факторным признаком, более существенны, чем случайные отклонения, то считается, что фактор оказывает существенное влия- ние на результативный признак.
Условия применения дисперсионного анализа:
1.
Задачей исследования является определение силы влияния одного
(до 3) факторов на результат или определение силы совместного влияния раз- личных факторов (пол и возраст, физическая активность и питание и т.д.).
2.
Изучаемые факторы должны быть независимые (несвязанные) меж- ду собой. Например, нельзя изучать совместное влияние стажа работы и воз- раста, роста и веса детей и т.д. на заболеваемость населения.
3.
Подбор групп для исследования проводится рандомизированно
(случайный отбор). Организация дисперсионного комплекса с выполнением принципа случайности отбора вариантов называется рандомизацией (от англ. random), т.е. выбранные наугад.
4.
Можно применять как количественные, так и качественные (атри- бутивные) признаки.
Оценка значимости различия при альтернативной форме учета ре-
акций. Для оценки значимости расхождения частот какого-либо явления в двух группах может быть использован статистический метод, который носит назва-