Файл: Медицинская информатика.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 30.11.2023

Просмотров: 456

Скачиваний: 8

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

58
Рис. 5.1. Типы медико-биологических данных, используемых в статистическом
анализе.
Меры положения – это общее понятие для числового выражения лока- лизации данных (на числовой оси) как типичного результата измерения. Самы- ми распространенными из них являются среднее и медиана.
Среднее арифметическое, которое очень часто называют просто «сред- нее», получают путем сложения всех значений и деления этой суммы на число значений в наборе. Это можно показать с помощью алгебраической формулы.
Набор n наблюдений переменной x можно изобразить как
}
;...;
;
{
2 1
n
x
x
x
. В таком случае формула для определения среднего арифметического наблюдений

имеет вид (5.1):
n
x
n
x
x
x
n
i
i
n







1 2
1

(5.1).
Например, измерив артериальное давление у десяти пациентов с целью исследовать систолическое давление, т.е. только одно число, получим: серия наблюдений (статистическая совокупность) артериального систолического дав- ления в 11-ти наблюдениях имеет следующий вид:
Таблица 5.1
1 2 3 4 5 6 7 8 9 10 11 120 115 120 125 120 115 120 115 120 120 125
КОЛИЧЕСТВЕННЫЕ
КАЧЕСТВЕННЫЕ дихотоми- ческие категоризиро- ванные дискретные
ПОРЯДКОВЫЕ
- число рецидивов за период;
- количество пере- несенных операций и т.д.
- масса тела;
- температура;
- уровень сахара в крови и т.д. могут быть отнесе- ны к двум противо- положным катего- риям ДА-НЕТ число градаций боль- ше двух, пред- ставляются в виде час- тот наблюдений, по- павших в некоторые категории или классы можно упорядочить как количественные данные, но нельзя производить арифметические действия непрерывные
ТИПЫ ДАННЫХ

59
Среднее арифметическое значение в данном ряду будет равно
5
,
119 11 125 120 120 115 120 115 120 125 120 115 120











. Таким образом, мы можем получить характеристику, которая одним числом описывает ряд значе- ний.
Средняя арифметическая величина обладает тремя свойствами:
1. Средняя занимает серединное положение в проранжированном (выстроен- ном по возрастанию или убыванию) ряду. В строго симметричном ряду среднее совпадает с модой и медианой.
2. Средняя является обобщающей величиной и за средней не видны случайные колебания, различия в индивидуальных данных. Она отражает то типичное, что характерно для всей совокупности.
3. Сумма отклонений всех вариант от средней равна нулю:




n
i
i
x
1 0
)
(

Медиана. Если упорядочить данные по величине, начиная с самой ма- ленькой величины и заканчивая самой большой, то медиана также будет харак- теристикой усреднения в упорядоченном наборе данных. Медиана делит ряд упорядоченных значений пополам с равным числом этих значений как выше, так и ниже ее (левее и правее медианы на числовой оси).
Вычислить медиану легко, если число наблюдений n нечетное. Это будет наблюдение номер
2 1

n
. Если n четное, то, строго говоря, медианы нет. Одна- ко обычно можно вычислять ее как среднее арифметическое двух соседних средних наблюдений в упорядоченном наборе данных (т. е. наблюдений номер
2
n
и
1 2

n
).
В рассмотренном выше примере медиана равна 120.
Мода – это значение, которое встречается наиболее часто в наборе дан- ных; если данные непрерывные, то их обычно группируют и вычисляют мо- дальную группу. Некоторые наборы данных не имеют моды, потому что каж- дое значение встречается только 1 раз. Иногда бывает более одной моды; это происходит тогда, когда 2 значения или больше встречаются одинаковое число раз и встречаемость каждого из этих значений больше, чем любого другого значения. В этом случае мода совпадает с минимальным модальным значением.
Для данных из таблицы 1 мода, очевидно, равна 120.
Заметим важную особенность моды и медианы: на их величины не оказывают влияние числовые значения крайних вариант.
Меры рассеяния – это статистические показатели, характеризующие степень вариации, разброса значений признака относительно среднего значения
(для признаков, имеющих количественный характер) и равномерного распреде- ления (для признаков качественного типа). В зависимости от типа признаков существуют различные меры рассеяния.
Размах (интервал изменения) – это разность между максимальным и минимальным значениями переменной в наборе данных.


60
Расположим данные, полученные в таблице 5.1, упорядоченно:
Таблица 5.2
1 2 3 4 5 6 7 8 9 10 11 115 115 115 120 120 120 120 120 120 125 125 10 125 115



размах
Размах, полученный из процентилей. Предположим, что данные распо- ложены упорядоченно от самой маленькой величины и до самой большой вели- чины. Величина X, до которой расположен 1% наблюдений (и выше которой расположены 99% наблюдений), называется первым процентилем. Величина X, до которой находится 2% наблюдений, называется 2-м процентилем, и т.д. Ве- личины X, которые делят упорядоченный набор значений на 10 равных групп, т. е. 10-й, 20-й, 30-й,..., 90 и процентили, называются децилями. Величины X, которые делят упорядоченный набор значений на 4 равные группы, т.е. 25-й,
50-й и 75-й процентили, называются квартилями. 50-й процентиль – это медиа- на.
Ряд из таблицы 5.2 можно охарактеризовать так: I квартиль (25 процен- тиль)=115, II квартиль (50 процентиль, медиана) = 120, III квартиль (75 про- центиль)=120 (Рис. 5.2).
Рис. 5.2. Квартили и медиана в ряду измерений.
Дисперсия.
Величина одного и того же признака неодинакова у всех членов совокупности. Например, в группе студентов рост каждого учащегося отличается от роста сверстников. В этом проявляется разнообразие изучаемого параметра.
Один из способов измерения рассеяния данных заключается в том, чтобы определить степень отклонения каждого наблюдения от средней арифметической. Очевидно, что чем больше отклонение, тем больше изменчивость, вариабельность наблюдений. Однако невозможно использовать среднее этих отклонений как меру рассеяния, потому что положительные отклонения компенсируют отрицательные отклонения (их сумма равна нулю).
Чтобы решить эту проблему, можно возвести в квадрат каждое отклонение и найти среднее возведенных в квадрат отклонений; эта величина называется
дисперсией. Если имеется n наблюдений
}
;...;
;
{
2 1
n
x
x
x
,

среднее арифметическое, то дисперсия рассчитывается по формуле (5.2):
1
)
(
1 2
2





n
x
n
i
i


(5.2)
Единицы измерения (размерность) дисперсии – это квадрат единиц измерения первоначальных наблюдений. Например, если измерения

61 производятся в килограммах, то единица измерения дисперсии будет
«килограмм в квадрате».
Стандартное отклонение.
Стандартное (среднеквадратичное) отклоне- ние (

) – это положительный квадратный корень из дисперсии. Оно вычисля- ется в тех же единицах (размерностях), что и исходные данные и характеризует степень рассеивания вариационного ряда вокруг средней. Чем меньше

, тем более типична, точна средняя.
На практике часто приходится сравнивать изменчивость признаков, выраженных разными единицами, например, рост в см и масса в кг. Если разделить стандартное отклонение на среднее арифметическое и выразить результат в процентах, получится коэффициент вариации. Он является мерой рассеяния, не зависящей от единиц измерения (безразмерной) (5.3).
%
100




v
C
(5.3).
При
%
10

V
C
наблюдается слабое разнообразие признака, при
10%
v
<20% – среднее разнообразие признака, при
%
20

V
C
– сильное разнообразие признака.
Стандартная ошибка среднего. Случайные ошибки выборок возникают за счет того, что для анализа всей совокупности используется только ее часть.
Хотя выборочный метод и позволяет обоснованно судить о средней арифметической некоторого количественного признака генеральной совокупности по средней арифметической, исчисленной по выборке, это, однако, не означает, что выборочная средняя совпадает с генеральной средней.
Она, как правило, в той или иной степени от нее отличается. Величина ошибки выборки представляет собой разность между генеральной и выборочной средними. Ошибки выборки различны для каждой конкретной выборки и в принципе могут быть обобщенно охарактеризованы с помощью средней из всех таких отдельных ошибок. В математической статистике получены формулы, которые позволяют приближенно вычислить среднюю ошибку выборки, основываясь на данных только той выборки, которая имеется в распоряжении исследователя.
Стандартная ошибка среднего отражает точность оценки среднего значения признака в популяции по его выборке. Небольшая стандартная ошибка (существенно меньше соответствующего среднего значения) означает достаточно точную оценку. Стандартная ошибка уменьшится, т. е. оценка станет более точной, если объем выборки увеличится или данные имеют небольшое рассеяние (дисперсию). При неограниченном увеличении объема выборки стандартная ошибка среднего обращается в 0. Следовательно, эта величина не имеет никакого биологического смысла.
Cтандартная ошибка среднего арифметического может быть найдена по формуле (5.4):
n
x



)
(
,
(5.4) где

– среднее квадратическое отклонение, n – количество параметров в выборочной совокупности.


62
Доверительный интервал.Выборка из популяции позволяет получить точечную оценку интересующего нас параметра и вычислить стандартную ошибку для того, чтобы указать точность оценки. Следует отметить, что для большинства исследований стандартная ошибка как таковая неприемлема, поскольку она, в отличие от стандартного отклонения, не отражает вариабельности в значениях данных. Гораздо полезнее объединить эту меру точности с интервальной оценкой для параметра популяции. Для этого нужно вычислить доверительный интервал (ДИ), который дает вероятное значение верхней и нижней границ оцениваемой неизвестной величины, что позволяет заявить: «Я утверждаю, что точное значение неизвестной величины с определённой вероятностью (чаще всего эта вероятность составляет 0,95) находится между этими двумя числами».
Обычно доверительные интервалы показывают, насколько надежной в действительности является статистическая оценка. Например, утверждение, что в результате проведения лечебных мероприятий у группы больных (табл. 5.1) среднее значение АД = 119,5 мм рт.ст. содержит некоторую определенную ин- формацию. Однако утверждение, что врач на 95% уверен в том, что истинное
(среднее популяционное) АД будет находиться в пределах от 115 до 125 мм рт.ст., позволяет сделать гораздо более глубокие выводы об эффективности ле- чения (рис.5.3).
Доверительный интервал визуально удобно представлять в виде ящика с
усами. Ящик с усами (англ. box-and-whiskers plot, box plot) – график, компактно изображающий одномерное распределение вероятностей. Несколько таких ящиков можно нарисовать бок о бок, чтобы визуально сравнивать одно распре- деление с другим.
В случае нормального распределения «ящик» рисуется на промежутке
)
;
(
tm
tm




, где t – коэффициент Стьюдента – величина, зависящая от объе- ма выборки (или соответствующего числа степеней свободы) и выбранного уровня доверительной вероятности, определяется по таблицам распределения
Стьюдента; а m – стандартная ошибка среднего. Внутри «ящика» проводится риска – среднее арифметическое

(рис. 5.3).
Рис. 5.3. Доверительный интервал для среднего в случае нормального распре-
деления.

63
В случае распределения, отличного от нормального, вычисляют медиану x
50
, квартили (x
25
, x
75
) и статистически значимый диапазон — например:
;
«Ящик» рисуется от квартиля до квартиля, внутри него проводится риска
– медиана. «Усы» тянутся от квартилей до статистически значимых крайних точек x
1
и x
2
. Не входящие в статистически значимый диапазон точки (выбро- сы) изображаются отдельно (рис. 5.4).
Рис. 5.4. Доверительный интервал для среднего (медианы) в случае распреде-
ления, отличного от нормального.
Доверительные интервалы представляют оценку в некоторой перспективе и позволяют избежать необходимости указывать одно и то же число как точное значение, в то время как фактически в биологии это число точным никогда и не является.
При интерпретации ДИ исследователь формулирует следующие вопросы:
1. Насколько широк ДИ? Широкий ДИ указывает на менее точную оценку, узкий - на более точную оценку.
2. Какой клинический (биологический) смысл можно извлечь из рассмот-
рения ДИ? Верхние и нижние пределы показывают, будут ли результаты клинически (биологически) значимы.
3. Включает ли ДИ какие-либо значения, представляющие особый инте-
рес?
Можно проверить, попадает ли вероятное значение для параметра попу- ляции в пределы ДИ. Если да, то результаты согласуются с этим вероятным значением. Если нет, то маловероятно (для 95% ДИ шанс меньше 5%), что па- раметр имеет это значение.
Понятие вероятности. Вероятность того или иного события при числе наблюдений
N
оценивается по простой формуле. Если число наблюдаемых
конкретных событий при числе наблюдений
N
равно
n
, то вероятность
равна отношению числа наблюдений, в которых было обнаружено событие
к общему числу наблюдений (5.5):


64
N
n
A
P

)
(
(5.5)
Пример: Пусть мы изучили 2000 историй болезни больных туберкулезом.
В этом случае число наблюдений
2000

N
. Среди просмотренных историй болезни у 100 пациентов было обнаружено снижение количества тромбоцитов
(тромбоцитопения) (
100

n
). В этом случае вероятность тромбоцитопении равна:
05
,
0 20
/
1 2000
/
100
/




N
n
p
Вероятность можно оценить в непрерывной шкале от 0 до 1 включительно. Событие, которое невозможно, имеет вероятность 0, а событие, которое произойдет обязательно, имеет вероятность 1. Вероятность
дополнительного события (события не происходящего) равна единице минус вероятность события.
Математическое ожидание.Пусть определена совокупность измерений систолического давления у некоторой группы обследуемых (табл. 5.2).
Что можно сказать о величине АД в следующем, двенадцатом наблюдении, которое мы не проводили? В полной мере оценить эту величину мы не можем, а лишь дать вероятностную оценку, т.е. предсказать значение с той или иной долей вероятности.
Любое измеренное нами значение АД является случайной величиной. Ес- ли имеется какая-либо зависимость, описывающая эту случайную величину, то принято говорить, что случайная величина характеризуется функцией вероят- ности. В этом случае, основываясь на полученных результатах, можно прогно- зировать ту величину, которая будет получена в следующих измерениях. Такая прогнозируемая величина называетсяматематическим ожиданием. Попыта- емся определить величину математического ожидания для нашего случая.
Для этого вначале сгруппируем одинаковые результаты и оценим вероят- ность (в долях единицы) их появления в нашем наблюдении (табл. 5.3):
Таблица 5.3
Систолическое АД (Х) число пациентов вероятность (Р)
115 3
3/11 120 6
6/11 125 2
2/11
Так как общее число наблюдений составило 11, то каждое появление того или иного результата представляет собой вероятность, равную 1/11.
Очевидно, что любой эмпирический опыт дает возможность с той или иной степенью правильности предсказывать или прогнозировать будущее. В теории статистики бытовое понимание феномена предсказания приобретает бо- лее очерченное звучание в форме понятия математического ожидания.
Математическое ожидание (
)
( x
f
M
) вычисляется по следующей формуле (5.6):
n
n
x
f
p
X
p
X
p
X
M








2 2
1 1
)
(
(5.6) .
Математическое ожидание - это сумма попарных произведений наблюдаемой величины
i
X
на вероятность ее появления
i
p
в данном наблюдении.


65
В рассмотренном нами случае вариационного ряда систолического давле- ния математическое ожидание исследуемой величины составляет:
55
,
119 11
/
2 125 11
/
6 120 11
/
3 115
)
(







x
f
M
Таким образом, наиболее вероятной будет величина, составляющая
119,55 мм рт. ст.
Распределение вероятности. Случайная переменная – это величина, ко- торая может принимать любое из набора взаимоисключающих значений с оп- ределенной вероятностью. Распределение вероятности показывает вероятности всех возможных значений случайной переменной. Это теоретическое распреде- ление, которое выражено математически и имеет среднее и дисперсию – анало- ги среднего и дисперсии в эмпирическом распределении. Каждое распределе- ние вероятности определяется некоторыми параметрами. Параметры служат обобщающими величинами (например: среднее, дисперсия), характеризующи- ми данное распределение (т.e. их знание позволит подробно описать распреде- ление) С помощью соответствующей статистики можно произвести оценку этих параметров в выборке. В зависимости от того, является ли случайная пе- ременная дискретной или непрерывной, распределение вероятности может быть либо дискретным, либо непрерывным.
Функция F(x), связывающая значения x
i
переменной случайной величины
Х с их вероятностями p
i
называется законом распределения (или функцией
распределения) этой случайной величины. Закон распределения описывает распределение вероятностей случайной переменной Х.
С понятием закона распределения случайной величины неразрывно свя- зано понятие плотности распределения, которую можно представить себе как предельную кривую р(х), аппроксимирующую выборочную гистограмму рас- пределения данной случайной величины (рис. 5.5).
Рис. 5.5. Функция плотности распределения вероятности.
Нормальное (гауссово) распределение.Одним из самых важных распре- делений в статистике является нормальное распределение.
Непрерывная случайная величина Х называется распределенной по нор- мальному закону, если ее плотность распределения равна ()

66
() где m - математическое ожидание случайной величины;
Его функция плотности распределения вероятности представлена на рис.
5.6.
Рис. 5.6. Функция плотности нормального распределения вероятности.
Функция плотности нормального распределения вероятности симметрич- на относительно среднего

. Результат изменения
2

(
2 3
2 2
2 1





).
Свойства функции плотности нормального распределения вероятности:
• полностью определяется двумя параметрами – средним (

) и диспер- сией (
2

);
• колоколообразная (унимодальная) форма;
• симметричная относительно среднего;
• сдвигается вправо, если среднее увеличивается, и влево, если среднее уменьшается (при постоянной дисперсии);
• сплющивается, если дисперсия увеличивается, но становится более ост- роконечной, если дисперсия уменьшается (для постоянного среднего).
• среднее и медиана нормального распределения равны.
Нормальное распределение не является единственным известным распре- делением. Ниже мы приводим краткие сведения о некоторых других законах
распределения дискретных и непрерывных случайных величин.
t-распределение (рис. 5.7)
• получено Вильямом Госсетом, который публиковал свои работы под псевдонимом «Student» («Студент»), поэтому его часто называют t- распределением Стьюдента;
• t-распределение характеризуется степенями свободы (df);
• форма кривой подобна форме кривой стандартизованного нормального распределения, но более приплюснута и с более длинными «хвостами». Форма приближается к нормальной кривой по мере увеличения степеней свободы;
• t-распределение применяют для вычисления доверительных интервалов и исследования гипотез с одной или двумя средними.