Файл: Учебнометодическое пособие знакомит студентов с основными понятиями о.doc

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 12.12.2023

Просмотров: 486

Скачиваний: 2

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

СОДЕРЖАНИЕ

ВВЕДЕНИЕУчебно-методическое пособие знакомит студентов с основными понятиями о теории вероятностей, случайных процессах, статистическом оценивании и проверке гипотез, статистических методах обработки экспериментальных данных, математических методах, принятых в биологических исследованиях.Пособие состоит из четырех разделов: Введение в теорию вероятностей. Основные понятия и термины статистики. Статистические методы обработки экспериментальных данных. Компьютерная обработка данных анализа в специализированной программе EasyStatistics. Введение в теорию вероятностей дает представление о случайных событиях, вероятности и ее свойствах, случайных величинах и основных теоретических распределениях случайных величин.При изучении второго раздела разбираются понятия о совокупности и выборке, классификации признаков, дается представление о схемах научного эксперимента и научных гипотезах, достоверности и надежности результатов.Третий раздел знакомит со статистическими методами описания групп, способами их сравнения в зависимости от характера распределения исходных данных. Большое внимание уделено корреляционно-регрессионному анализу, лежащему в основе многомерных методов анализа. Разбираются широко распространенные в биологических исследованиях методы оценки динамики, цикличности и классификации. При описании каждого метода описываются условия, необходимые для проведения статистической обработки, и возможные трудности в интерпретации полученных показателей. Четвертый раздел посвящен практическому применению методов статистической обработки данных с помощью специализированной программы «Статистическая обработка медико-биологических данных» (EasyStatistics). Данная программа разработана автором пособия (Роспатент №2003612171) и предназначена для статистической обработки данных биологических и медицинских исследований и, в первую очередь, нацелена на выполнение курсовых и дипломных работ студентами. В то же время это не замена уже существующим мощным статистическим пакетам, таким как Statistica, а скорее дополнение, помогающее оценить возможности манипулирования данными и принципы работы с основными статистическими методами. Каждый раздел содержит список вопросов и заданий для самопроверки.Пособие также содержит список учебно-методических материалов, рекомендуемых для самостоятельной работы студентов.РАЗДЕЛ I. ВВЕДЕНИЕ В ТЕОРИЮ ВЕРОЯТНОСТЕЙЗакономерности, которым подчиняются случайные события, изучаются в разделах математики, которые называются теорией вероятностей и математической статистикой.Понятие о случайном событииОпыт, эксперимент, на­блюдение явления называются испытанием. Испытаниями, напри­мер, являются: бросание монеты, выстрел из винтовки, бросание игральной кости (кубика с нанесенными на каждую грань числом очков — от одного до шести).Результат, исход испытания называется событием. Для обозначения событий используются большие буквы ла­тинского алфавита: А, В, С и т. д.Два события называются совместимыми, если появление одного из них не исключает появление другого в одном и том же испытании.Испытание: однократное бросание игральной кости. Событие А — появление четырех очков. Событие В— появле­ние четного числа очков. События Аи В совместимые.Два события называются несовместимы­ми, если появление одного из них исключает появление другого в одном и том же испытании.Испытание: однократное бросание монеты. Собы­тие А — выпадение герба, событие В — выпадение цифры. Эти события несовместимы, так как появление одного из них исключает появление другого.Несовместимость более чем двух событий означает их попарную несовместимостьИспытание: однократное бросание игральной кости. Пусть события А1, А2, А3, А4, А5, А6 соответственно выпа­дение одного очка, двух, трех и т. д. Эти события являются несов­местимыми..Два события А и В называются проти­воположными, если в данном испытании они несовместимы и одно из них обязательно происходит.Событие, противоположное событию А, обозначают через А.Испытание: бросание монеты. Событие А — выпадение герба, событие В — выпадение цифры. Эти события противоположны, так как исходами бросания могут быть лишь они, и появление одного из них исключает появление другого, т. е. А = В или А = В.Событие называется достоверным, если в данном испытании оно является единственно возможным его ис­ходом, и невозможным, если в данном испытании оно заведомо не может произойти.Испытание: извлечение шара из урны, в которой все шары белые. Событие А — вынут белый шар — достоверное событие; событие В — вынут черный шар — невозможное событие.Достоверное и невозможное события в данном испытании являются противоположными.Событие А называется случайным, если оно объективно может наступить или не наступить в данном испы­тании.Выпадение шести очков при броса­нии игральной кости — случайное событие. Оно может наступить, но может и не наступить в данном испытании.Прорастание девяноста восьми зерен пшеницы из ста — случайное событие. Это событие может наступить, но, может быть, прорастет зерен больше или меньше.Классическое определение вероятностиВсякое испыта­ние влечет за собой некоторую совокупность исходов — резуль­татов испытания, т. е. событий. Во многих случаях возможно пере­числить все события, которые могут быть исходами данного испы­тания.Говорят, что совокупность событий обра­зует полную группу событий для данного испытания, если его ре­зультатом обязательно становится хотя бы одно из них.События Ul, U2, ..., Un , образующие полную группу попарно несовместимых и равновозможных собы­тий, будем называть элементарными событиями.Вернемся к опыту с подбрасыванием игральной кости. Пусть Ui — событие, состоящее в том, что кость выпала гранью с цифрой i. Как уже отмечалось, события U1, U2, …, U6 образуют полную группу попарно несовместимых событий. Так как кость предполагается однородной и симметрич­ной, то события U1, U2, …, U6 являются и равновозможными, т. е. элементарными.Событие А называется благоприят­ствующим событию В, если наступление события А влечет за собой наступление события В.Пусть при бросании игральной кости события U2, U4 и U6 — появление соответственно двух, четырех и шести очков и А — событие, состоящее в появлении четного очка; собы­тия U2, U4 и U6 благоприятствуют событию А.Классическое определение вероятностиВероятностью Р (А) события А называется отношение m/n числа элементарных событий, благоприятствующих событию А, к числу всех элементарных событий, т. е. Вычислим вероятность выпадения герба при одном бросании монеты. Очевидно, событие А — выпадение герба и событие В — выпадение цифры — образуют полную группу несовместимых и равновозможных событий для данного испытания. Значит, здесь n = 2. Событию А благоприятствует лишь одно со­бытие — само А, т. е. здесь m = 1. Поэтому Р(А) = 0,5.Найти вероятность того, что при бросании иг­ральной кости выпадет число очков, делящееся на 2 (событие А). Число элементарных событий здесь 6. Число благоприятст­вующих элементарных событий 3 (выпадение 2, 4 и 6). Поэтому .Из приведенного классического определения вероятности вы­текают следующие ее свойства.1. Вероятность достоверного события равна единице.Действительно, достоверному событию должны благоприят­ствовать все n элементарных событий, т. е. m = n и, следовательно, P(A)=1.2. Вероятность невозможного события равна нулю. В самом деле, невозможному событию не может благоприят­ствовать ни одно из элементарных событий, т. е. m = 0, откуда P(A)=0.3. Вероятность случайного события есть положительное число, заключенное между нулем и единицей.Действительно, случайному событию благоприятствует лишь часть из общего числа элементарных событий. Поэтому в этом случае 0 < m < n , значит, 0 <= Р (А)<= 1.Относительная частота.Статистическое определение ве­роятности.Классическое определение вероятности не являет­ся пригодным для изучения произвольных случайных событий. Так, оно неприемлемо, если результаты испытания не равновозможны. Например, при бросании неправильной игральной кости выпадение ее различных граней не равновозможно.В таких случаях используется так называемое статистическое определение вероятности.Пусть произведено n испытаний, при этом некоторое событие А наступило m раз. Число m называется абсолютной часто­той (или просто частотой) события А, а отношение называется относительной частотой события А.При транспортировке из 10 000 арбузов испор­тилось 26. Здесь m= 26 — абсолютная частота испорченных ар­бузов, а P*(A)=0,0026 относительная.Результаты многочисленных опытов и наблюдений помогают заключить: при проведении серий из n испытаний, когда число n сравнительно мало, относительная частота Р*(A) принимает зна­чения, которые могут довольно сильно отличаться друг от друга. Но с увеличением n — числа испытаний в сериях — относитель­ная частота Р*(А) приближается к некоторому числу Р(А), стабилизируясь возле него и принимая все более устойчивые значения.Было проведено 10 серий бросаний монеты, по 1000 бросаний в каждой. Относительные частоты выпадения герба оказались равными 0,501; 0,485; 0,509; 0,536; 0,485; 0,488; 0,500;0,497; 0,494; 0,484. Эти частоты группируются около числа 0,5Статистическое определение вероят­ностиВероятностью события А в данном испытании называется число Р (А), около которого группируются значения относительной частоты при больших n.По официальным данным шведской статистики, относительные частоты рождения девочек по месяцам 2007 г. харак­теризуются следующими числами (расположены в порядке сле­дования месяцев, начиная с января): 0,486; 0,489; 0,490; 0,471; 0,478; 0,482; 0,462; 0,484; 0,485; 0,491; 0,482; 0,473. Эти частоты группируются около числа 0,482.Таким образом, относительная частота события приближенно совпадает с его вероятностью, если число испытаний достаточно велико. Геометрическая вероятностьДо этого мы рассматривали возможные эксперименты, в которых реализуется конечное множество событий. Однако существует большое количество задач, для которых такое предположение не является справедливым. При решении таких задач предполагается, что множество реализуемых событий может быть представлено в виде некоторой геометрической фигуры, а конкретное событие соответствует точке заданной части этой фигуры. В качестве события A можно рассмотреть любую подобласть области Ω. Например, фигуру внутри исходной фигуры на плоскости или отрезок, лежащий внутри исходного отрезка на прямой.Заметим, что элементарным событием на таком множестве может быть только точка. В самом деле, если множество содержит более одной точки, его можно разбить на два непустых подмножества. Следовательно, такое множество уже неэлементарно.Теперь определим вероятность. Тут тоже все легко: вероятность «попадания» в каждую конкретную точку равна нулю. Иначе получим бесконечную сумму одинаковых положительных слагаемых (ведь элементарные события равновероятны), которые в сумме больше P(Ω) = 1.Итак, элементарные события для бесконечных областей Ω — это отдельные точки, причем вероятность «попадания» в любую из них равна нулю. Но как искать вероятность неэлементарного события, которое, подобно Ω, содержит бесконечное множество точек? Вот мы и пришли к определению геометрической вероятности.Геометрическая вероятность события A, являющегося подмножеством множества Ω точек на прямой или плоскости — это отношение площади фигуры A к площади всего множества Ω.Мишень имеет форму окружности. Какова вероятность попадания в ее правую половину, если попадание в любую точку мишени равновероятно? При этом промахи мимо мишени исключены. Взглянем на картинку: нас устроит любая точка из правого полукруга. Очевидно, площадь S(A) этого полукруга составляет ровно половину площади всего круга, поэтому имеем P=0,5Студент и студентка договариваются о встрече на заданном промежутке времени Т. Тот, кто приходит первым ожидает другого в течение времени tВ качестве множества элементарных событий рассмотри квадрат, состоящий из точек (x,y), 0<=x<=T, 0<=y<=T, где x и у время прихода его и ее.Благоприятсвующие события образуют точки, для которых |x-y|<t, т.е. точки квадрата между прямыми y=x-t, y=x+t. Площадь получающейся фигуры равна T2-(T-t)2, а площадь всего квадрата – Т2. Отсуда искомая вероятность Свойства вероятностейСложение вероятностей несовместимых событийСуммой событий А и В называется собы­тие С = А + В, состоящее в наступлении по крайней мере одного из событий А или В.Стрельба двух стрелков (каждый де­лает по одному выстрелу). Событие А — попадание в мишень пер­вым стрелком, событие В — попадание в мишень вторым стрелком. Суммой событий А и В будет событие С = А + В, состоящее в попадании в мишень по крайней мере одним стрелком.Произведением событий А и В назы­вается событие С = АВ, состоящее в том, что в результате испыта­ния произошло и событие А, и событие В.Аналогично произведением конечного числа событий A1 А2, …, Ak называется событие А = А1 * A2 * ... * Ak, состоящее в том, что в результате испытания произошли все указанные события.В условиях предыдущего примера произведением событий А и В будет событие С = АВ, состоящее в попадании в мишень двух стрелков.Из определения непосредственно следует, что АВ = ВА.Вероятность суммы двух несовместимых событий А и В равна сумме вероятностей этих событий:Р (А + В) = Р (А) + Р (В). Следствие. Сумма вероятностей противоположных собы­тий А и А равна единице:Р(А) + Р(А

Коэффициент сопряженности Чупрова. Дальнейшим обоб-щением четырехпольных таблиц являются многопольные таблицы, для которых сопряженность наиболее часто оценивается по формуле, предложенной русским статистиком А. А. Чупровым. Прежде чем приводить ее рассмотрим несколько реальных ситуаций, когда такая оценка может потребоваться. Известно, например, что окраска тюльпанов связана с наличием определенных пигментов. Может представлять интерес вопрос о том, с какими именно пигментами преимущественно связана та или иная окраска цветка. Или другой пример. Окружающая гнездо полярной крачки обстановка может представлять собой зеленые растения, растения и гальку, пестрые камешки и т. д. При этом можно наблюдать самые разные по качеству гнезда: от его отсутствия до очень хорошо сделанного. В этом случае желательно знать, связано ли качество гнезда с какой-то одной или несколькими характеристиками окружающей среды. Общим для этих и других подобных задач является то, что в распоряжении экспериментатора оказываются данные о некотором множестве объектов, обладающих двумя признаками, причем каждый из признаков может иметь несколько градаций. В этом случае , где m - число разновидностей явления Х; k - число разновидностей явления Y, n – общее число объектов (m*k). Независимо то того, что каждый из описательных признаков, несмотря на разницу в численности его разновидностей, можно свести к альтернативному - только с двумя разновидностями, довольно часто в практике возникает необходимость работать с описательными признаками более двух разновидностей. В таких случаях необходимо при вычислении коэффициента корреляции составлять так называемую корреляционную таблицу (где X1,X2,...Xn - обозначают разновидность одного признака, а Y1, Y2... Yn - разновидности другого).При наличии такой схемы коэффициент корреляции находят по формуле: , где - коэффициент связи, m- число разновидностей явления Х; k - число разновидностей явления Y.Данный метод пригоден также и для экспрессной оценки связи между количественными (например возраст) и качествен-ными (например брак) параметрами.На практике (особенно в зоологии и ботанике) довольно часто встречаются другие меры измерения связи.



В неравноинтервальных рядах характер распределения частот меняется по мере изменения ширины классовых интервалов. Поэтому в качестве числовых характеристик таких рядов используют особые показатели.

Неравноинтервальную группировку в биологии применяют сравнительно редко. Как правило данные располагаются в равноинтервальные ряды, что позволяет не только выявить закономерность варьирования, но и облегчает вычисление сводных числовых характеристик вариационного ряда, сопоставление рядов распределения друг с другом.

Приступая к построению равноинтервального вариационного ряда, важно правильно наметить ширину классового интервала. Дело в том, что грубая группировка (когда устанавливают очень широкие классовые интервалы) искажает типичные черты варьирования и ведет к снижению точности числовых характеристик. При выборе чрезмерно узких интервалов точность обобщающих числовых характеристик повышается, но ряд получается слишком растянутым и не дает четкой картины варьирования.

Для получения хорошо обозримого вариационного ряда и обеспечения достаточной точности вычисляемых по нему числовых характеристик следует разбить вариацию признака (в пределах от минимальной до максимальной варианты) на такое число групп или классов, которое удовлетворяло бы обоим требованиям. Эту задачу решают делением размаха варьирования признака на число групп или классов, намечаемых при построении вариационного ряда:

l=(хmaxmin)/k,

где l - величина классового интервала;

k - число классов, на которые следует разбить вариацию признака.

Число классов можно приблизительно наметить, пользуясь таблицей:

Число наблюдений

Число классов

25-40

5-6

40-60

6-8

60-100

7-10

100-200

8-12

>200

10-15

Более точно величину К можно определить по формуле Стерджеса: К=1+3.32*lg n. При наличии в совокупности большого числа членов (больше 100) можно использовать формулу К=5*lg n.
Схемы (модели) научного исследования

В начале работы исследователь, исходя из задач, стоящих перед ним, намечает определенную схему организации исследования. Эта схема носит название модели. Она может быть составлена самим исследователем или в качестве такой схемы может быть избрана какая-либо хорошо обоснованная статистико-математическая модель. Существует довольно много таких схем исследования. Их применение, однако, требует от исследователя стандартизации условий, при которых проводится исследование.

Однофакторная и многофакторная модель

Контрольные и экспериментальные группы
Наиболее элементарная модель научного исследования та, при которой одна единственная группа, однородная в отношении определенных признаков (например, пол, возраст и т.п., в зависимости от характера проводимого эксперимента), подвергается воздействию определенного экспериментального режима, а затем полученные результаты подытоживаются. В этом случае исследуемая группа называется экспериментальной, а наблюдаемые в ней случаи подопытными. Разновидность этой модели представляет исследование, при котором наблюдение производят не над одной, а над несколькими группами. При этом различие между экспериментальными группами может быть или в отношении условий, по которым стандартизован подопытный материал (например, если сформированы группы разного возраста или разного пола), или в отношении экспериментального режима (группы одинаковы, но в отношении каждой группы применяется различный экспериментальный режим). В этом случае принятая модель исследования дает возможность сравнивать как воздействие разных экспериментальных режимов (например, различные дозы), так и воздействие одного и того же экспериментального режима на различный подопытный материал.

Довольно часто наряду с экспериментальными группами исследователь формирует другую группу, называемую контрольной. По составу она та же, что и экспериментальная, но в отличие от нее не подвергается воздействию экспериментального режима. Предназначение контрольной группы - сравнение. Она - эталон-мера, при помощи которой устанавливается, насколько существенны различия полученных результатов и не зависят ли они от действия случайных факторов. В связи с назначением контрольной группы необходимо, чтобы обе группы (экспериментальная и контрольная) были одинаковыми и отличались бы только по тому фактору, который подвергается исследованию. Все другие факторы, способные усилить или ослабить действие испытуемого фактора, нужно устранить или хотя бы обеспечить их одинаковое влияние на обе группы.

Такого рода модели проведения научного исследования носят название схемы однофакторного анализа.

Доза

Полученные результаты

Экспериментальная группа




Контрольная группа







На практике, однако, часто приходится исследовать воздействие больше чем одного фактора. Тогда говорят о двухфакторном, трехфакторном и т. д. анализе. Увеличивая число исследуемых факторов, исследователь должен увеличивать и объем исследований, в частности число наблюдений.

Метод автоконтроля

В практике экспериментальных исследований имеется возможность использовать одну и ту же группу последовательно в качестве контрольной и в качестве экспериментальной. Метод автоконтроля удобен, но обладает существенным недостатком: при нем не ведется учет действия многочисленных посторонних факторов, которые могут повлиять на конечный результат. Ввиду этого, если есть основания опасаться, что за время, в которое длится эксперимент, на полученный результат могут повлиять другие факторы (помимо экспериментальных), рекомендуется вести исследование раздельно с контрольной и экспериментальной группой.
Метод дублирования
Сущность метода в следующем: прежде чем начать экспериментальное исследование, например над животными, подопытный материал находится под наблюдением и регистрируются те его признаки, которые подлежат исследованию. В зависимости от полученных результатов подопытный материал ранжируют по восходящей градации и нумеруют. Затем соединяют подопытных животных попарно, первая пара имеет номера 1 и 2, вторая 3 и 4, третья - 5 и 6 и т. д. Пары подопытных животных, сформированные подобным образом, имеют равные или приблизительно равные по величине характеристики. Затем жребием для каждой пары определяют, какое из животных должно идти в контрольную и какое в экспериментальную группу. По окончании эксперимента подытоживают результаты и для каждой пары животных определяют, существенны ли статистически полученные результаты.
Метод последовательного пополнения групп
Особенностью этого метода является то, что сначала исследование начинается над малым числом объектов. Полученные результаты дают возможность разобраться в ряде подробностей изучаемого явления и помогают точнее и правильнее оценить необходимое число наблюдений. Разница между первоначально наблюдаемым числом и необходимым числом, получившаяся по окончании первого этапа исследований, показывает, сколько еще наблюдений следует дополнительно провести, чтобы иметь их достаточное число. Не рекомендуется применять этот метод тогда, когда изучаемые показатели с течением времени меняют свою величину (например, сезонные изменения уровня гормонов).

Численность контрольных и экспериментальных групп
Почти всегда при определенном числе наблюдений большая точность результатов исследования обеспечивается при численном равенстве контрольной и экспериментальной групп. Если это равенство не обеспечено, точность результатов уменьшается в тем большей степени, чем больше неравенство. Однако стоимость проведения одного исследования в одной группе может быть равна стоимости нескольких исследований в другой группе. Кроме того, у исследователя не всегда имеются в распоряжении возможности (лаборатория, аппаратура, персонал и т. д.), необходимые для проведения необходимого числа наблюдений. Все это играет роль при определении правильного соотношения между числами наблюдений в обеих группах. Если стоимость одного наблюдения в контрольной группе в 10 раз ниже стоимости одного наблюдения в экспериментальной группе, то, незначительно уменьшая число наблюдений в экспериментальной группе, исследователь может в 10 раз увеличить число наблюдений в контрольной группе. Так как размер точности результатов исследования зависит от общего количества наблюдений, то в этом случае нарушение численного равенства обеих групп приводит к увеличению общего числа наблюдений и к увеличению точности.

Научные гипотезы
Формулирование гипотез систематизирует предположения иссле­дователя и представляет их в четком и лаконичном виде. Благодаря гипотезам исследователь не теряет путеводной нити в процессе расчетов и ему легко понять после их окончания, что, собственно, он обнаружил.

Статистические гипотезы подразделяются на нулевые и альтерна­тивные, направленные и ненаправленные.

Нулевая гипотеза - это гипотеза об отсутствии различий.

Она обозначается как Hо называется нулевой потому, что содержит число 0: X1—Х2=0, где X1, X2 - сопоставляемые значения признаков.

Нулевая гипотеза - это то, что мы хо­тим опровергнуть, если перед нами стоит задача доказать значимость различий.

Альтернативная гипотеза - это гипотеза о значимости различий.

Она обозначается как Н1. Альтернатив­ная гипотеза - это то, что мы хотим до­казать, поэтому иногда ее называют
экспериментальной гипотезой.

Бывают задачи, когда мы хотим доказать как раз незначимость различий, то есть подтвердить нулевую гипотезу. Например, если нам нужно убедиться, что разные испытуемые получают хотя и различные, но уравновешенные по трудности задания, или что экспериментальная и контрольная выборки не различаются между собой по каким-то значи­мым характеристикам. Однако чаще нам все-таки требуется доказать значимость различий, ибо они более информативны для нас в поиске нового. Нулевая и альтернативная гипотезы могут быть направленными и ненаправленными.
Направленные гипотезы

H0: X1 не превышает Х2

H1: X1 превышает Х2
Ненаправленные гипотезы
H0; X1 не отличается от Х2
H1: X1 отличается от Х2
Если вы заметили, что в одной из групп индивидуальные значе­ния испытуемых по какому-либо признаку, например по росту, выше, а в другой ниже, то для проверки значимости этих различий нам необходимо сформулировать направленные гипотезы.

Если мы хотим доказать, что в группе А под влиянием каких-то экспериментальных воздействии произошли более выраженные измене­ния, чем в группе Б, то нам тоже необходимо сформулировать направ­ленные гипотезы.

Если же мы хотим доказать, что различаются формы распределения признака в группе А и Б, то формулируются ненаправленные гипотезы.

При описании каждого критерия в пособии даны формули­ровки гипотез, которые он помогает нам проверить.

Статистические критерии
Статистический критерий - это решающее правило, обеспечиваю­щее надежное поведение, то есть принятие истинной и отклонение ложной гипотезы с высокой вероятностью.

Статистические критерии обозначают также метод расчета опре­деленного числа и само это число.

Когда мы говорим, что достоверность различий определялась по критерию X2, тоимеем в виду, что использовали метод X2для расчета определенного числа.

Когда мы говорим, далее, что X2 = 12,676, то имеем в виду опре­деленное число, рассчитанное по методу X2