Файл: Учебнометодическое пособие знакомит студентов с основными понятиями о.doc
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 12.12.2023
Просмотров: 465
Скачиваний: 2
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
СОДЕРЖАНИЕ
Города | а | б | В | г | д | е | ж | з | и | к |
Численность | 3 | 7 | 5 | 9 | 1 | 8 | 6 | 10 | 4 | 2 |
Загрязнение | 2 | 4 | 3 | 5 | 1 | 9 | 8 | 10 | 7 | 6 |
Разности S | 1 | 3 | 2 | 4 | 0 | -1 | -2 | 0 | -3 | -4 |
Разности S2 | 1 | 9 | 4 | 16 | 0 | 1 | 4 | 0 | 9 | 16 |
.
Измерение связи номинальных признаков
Учеными ряда стран за последние 100 лет разработано несколько методов измерения связи таких признаков. Описательные признаки - обычно альтернативные признаки, при которых каждый имеет по две разновидности. Например, больные могут выздороветь, а могут не выздороветь, признак есть (нет).
Коэффициент взаимной сопряженности Бравайса. В тех случаях, когда находящиеся в связи явления представлены описательными величинами, коэффициент корреляции находят по следующей формуле.
, где a,b,c,d - количество случаев отдельных комбинаций разновидностей исследуемых явлений.
При вычислении коэффициента корреляции знаменатель формулы всегда имеет положительный знак. Знак перед r зависит от того, какое из произведений больше ad или bc. Для того чтобы легче вычислить коэффициент корреляции, пользуются так называемой четырехпольной таблицей. В первом столбце этой таблицы указывают обе разновидности одного явления - Х
1 и Х2, а в первой строке - обе разновидности второго -Y1 и Y2. При этом X1 и Y2 обозначают положительные разновидности, а X2 и Y1 - отрицательные. В указанных выше примерах под положительными разновидностями подразумевают выздоровевших, получивших отравление. При таком состоянии четырехпольная таблица принимает следующий вид:
X | Y1 | Y2 | Всего |
X1 | a | B | (a+b) |
X2 | c | D | (c+d) |
Всего | (a+c) | (b+d) | (a+b+c+d) |
Пример: Имеются следующие данные о вакцинации против гриппа и заболеваемости гриппом во время эпидемии:
| Заболело | Не заболело | Всего |
Вакцинировано | 10 | 490 | 500 |
Не вакцинировано | 990 | 510 | 1500 |
Всего | 1000 | 1000 | 2000 |
Требуется определить размер связи между проведенной вакцинацией и заболеваемостью.r=-0,6. Коэффициент корреляции показывает обратную связь: вакцинированные реже болеют, чем не вакцинированные.
Коэффициент сопряженности Чупрова. Дальнейшим обоб-щением четырехпольных таблиц являются многопольные таблицы, для которых сопряженность наиболее часто оценивается по формуле, предложенной русским статистиком А. А. Чупровым. Прежде чем приводить ее рассмотрим несколько реальных ситуаций, когда такая оценка может потребоваться. Известно, например, что окраска тюльпанов связана с наличием определенных пигментов. Может представлять интерес вопрос о том, с какими именно пигментами преимущественно связана та или иная окраска цветка. Или другой пример. Окружающая гнездо полярной крачки обстановка может представлять собой зеленые растения, растения и гальку, пестрые камешки и т. д. При этом можно наблюдать самые разные по качеству гнезда: от его отсутствия до очень хорошо сделанного. В этом случае желательно знать, связано ли качество гнезда с какой-то одной или несколькими характеристиками окружающей среды. Общим для этих и других подобных задач является то, что в распоряжении экспериментатора оказываются данные о некотором множестве объектов, обладающих двумя признаками, причем каждый из признаков может иметь несколько градаций. В этом случае , где m - число разновидностей явления Х; k - число разновидностей явления Y, n – общее число объектов (m*k).
Независимо то того, что каждый из описательных признаков, несмотря на разницу в численности его разновидностей, можно свести к альтернативному - только с двумя разновидностями, довольно часто в практике возникает необходимость работать с описательными признаками более двух разновидностей. В таких случаях необходимо при вычислении коэффициента корреляции составлять так называемую корреляционную таблицу (где X1,X2,...Xn - обозначают разновидность одного признака, а Y1, Y2... Yn - разновидности другого).
При наличии такой схемы коэффициент корреляции находят по формуле: , где - коэффициент связи, m- число разновидностей явления Х; k - число разновидностей явления Y.
Данный метод пригоден также и для экспрессной оценки связи между количественными (например возраст) и качествен-ными (например брак) параметрами.
На практике (особенно в зоологии и ботанике) довольно часто встречаются другие меры измерения связи.
Коэффициент сопряженности Чупрова. Дальнейшим обоб-щением четырехпольных таблиц являются многопольные таблицы, для которых сопряженность наиболее часто оценивается по формуле, предложенной русским статистиком А. А. Чупровым. Прежде чем приводить ее рассмотрим несколько реальных ситуаций, когда такая оценка может потребоваться. Известно, например, что окраска тюльпанов связана с наличием определенных пигментов. Может представлять интерес вопрос о том, с какими именно пигментами преимущественно связана та или иная окраска цветка. Или другой пример. Окружающая гнездо полярной крачки обстановка может представлять собой зеленые растения, растения и гальку, пестрые камешки и т. д. При этом можно наблюдать самые разные по качеству гнезда: от его отсутствия до очень хорошо сделанного. В этом случае желательно знать, связано ли качество гнезда с какой-то одной или несколькими характеристиками окружающей среды. Общим для этих и других подобных задач является то, что в распоряжении экспериментатора оказываются данные о некотором множестве объектов, обладающих двумя признаками, причем каждый из признаков может иметь несколько градаций. В этом случае , где m - число разновидностей явления Х; k - число разновидностей явления Y, n – общее число объектов (m*k).
Независимо то того, что каждый из описательных признаков, несмотря на разницу в численности его разновидностей, можно свести к альтернативному - только с двумя разновидностями, довольно часто в практике возникает необходимость работать с описательными признаками более двух разновидностей. В таких случаях необходимо при вычислении коэффициента корреляции составлять так называемую корреляционную таблицу (где X1,X2,...Xn - обозначают разновидность одного признака, а Y1, Y2... Yn - разновидности другого).
При наличии такой схемы коэффициент корреляции находят по формуле: , где - коэффициент связи, m- число разновидностей явления Х; k - число разновидностей явления Y.
Данный метод пригоден также и для экспрессной оценки связи между количественными (например возраст) и качествен-ными (например брак) параметрами.
На практике (особенно в зоологии и ботанике) довольно часто встречаются другие меры измерения связи.
Коэффициент Жаккара | |
Простой коэффициент втречаемости (показатель подобия Сокала и Миченера) | |
Показатель подобия Рассела и Рао | |
Коэффициент ассоциации Юла | |
Хеммингово расстояние | H=a+d |
Коэффициент детерминации | R=r2 |
Коэффициент определения | R=100r2 |
Коэффициент акорреляции | |
Относительный риск. Отношение шансов
| Исход есть (1) | Исхода нет (0) | Всего |
Фактор риска есть (1) | 10 (А) | 13 (В) | 23 (А+В) |
Фактора риска нет (0) | 4 (С) | 21 (D) | 25 (С+D) |
Всего | 14 | 34 | 48 |
Мы рассмотрели способы проверки гипотез о наличии статистической связи между номинальными переменными, а также способы оценки силы взаимосвязи между этими переменными. Тем не менее сообщение о том, что была обнаружена статистически значимая связь средней силы между фактором риска и исходом, для исследователей в области биомедицинских наук, заинтересованных в практическом применении результатов исследования, недостаточно информативно. Гораздо продуктивнее было бы говорить о количественной оценке вероятности исхода, связанной с наличием фактора риска. Однако не все исследования позволяют говорить о риске и оценивать вероятность возникновения исхода в зависимости от наличия или отсутствия фактора риска.
Мы же остановимся только на некоторых расчетах, применимых к нашему примеру. Учитывая, что наше гипотетическое исследование было проспективным, мы можем рассчитать относительный риск (Relative Risk, RR). Поскольку в примере ничего не сообщается о времени наблюдения, но подразумевается, что оно было одинаковым для обеих групп (с наличием фактора риска и без него), относительный риск будет равен отношению рисков. Отношение рисков отражает, во сколько раз риск исхода при наличии фактора риска выше риска исхода при отсутствии фактора риска и рассчитывается применимо к таблице следующим образом:
Это говорит о том, что фактор риска может увеличивать вероятность возникновения исхода в 2,7 раза или что риск исхода у тех, у кого есть фактор риска, в 2,7 раза выше, чем у тех, у кого фактора риска нет. Такой результат гораздо более информативен. Однако различия в 2,7 раза справедливы только для нашей выборочной совокупности. Даже если допустить, что наша выборка репрезентативна,
систематические ошибки отсутствуют, а влияние вмешивающихся факторов (конфаундеров) минимально, относительный риск для генеральной совокупности может отличаться, поэтому всегда рекомендуется представлять интервальную оценку относительного риска с помощью 95 % доверительного интервала. Этот интервал представляет собой область, в которую попадает истинное значение доли в 95 % случаев. Другими словами, можно с 95 % надежностью сказать, что истинное значение частоты встречаемости признака в генеральной совокупности будет находиться в пределах 95 % доверительного интервала. Методы расчета доверительного интервала для частот и долей рассматривались в предыдущем номере журнала [4]. Для относительного риска 95 % доверительный интервал можно рассчитать по формуле:
Верхняя граница: ex, где
Нижняя граница: ех, где
а е – основание натурального логарифма (число Эйлера 2,7). Для данного примера можно с 95 % уверенностью сказать, что относительный риск будет находиться в промежутке от 1,0 до 7,5. Значительная ширина доверительного интервала вызвана малым объемом выборки. Хотелось бы предостеречь читателей от переоценки важности относительного риска. Например, относительный риск может быть равен 2,0 как в ситуации, когда абсолютные риски развития заболевания равны 1 на 1 000 000 и 2 на 1 000 000, а также 1 на 10 и 2 на 10. В первом случае абсолютная разница рисков будет не очень важна, так как составит 0,000 001. Во втором же разница рисков составит 0,1. Если взять обратные величины из полученных разностей рисков, то можно будет увидеть у скольких человек необходимо устранить фактор риск, чтобы предотвратить 1 исход. В первом случае надо устранить фактор риска у миллиона, а во втором – всего у 10 человек. Особенно актуальными такие расчеты становятся при оценке эффективности лечебного вмешательства. Рассчитанная величина будет называться числом пациентов, подвергаемых лечению, на один предотвращенный неблагоприятный исход (в англоязычной литературе NNT – Number Needed to Treat).
Для нашего примера тоже можно рассчитать разность рисков: А(А+В)/С(С+D), которая будет равна 0,275, или 27,5 %, а для того, чтобы предотвратить один исход, необходимо устранить фактор риска всего у 4 человек (NNT 3,6), что говорит о том, что потенциальный эффект от профилактических мер, направленных на устранение изучаемого фактора риска, очень велик (при условии, что распространенность фактора риска в генеральной совокупности такая же, как и в выборке).