Файл: Учебнометодическое пособие знакомит студентов с основными понятиями о.doc
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 12.12.2023
Просмотров: 493
Скачиваний: 2
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
СОДЕРЖАНИЕ
Данный подход к оценке результатов сплошного наблюдения последовательно излагается в литературе по математической статистике. Его широко используют на практике, в частности для отсева незначимых по t-статистике факторов. Здесь необходимо отметить, что этот метод проверки существенности факторов заслуживает доверия лишь в тех случаях, когда признаки-факторы не коррелированы (или весьма слабо коррелированны), что зачастую невыполнимо на практике. В моделях множественной регрессии с взаимокоррелированными признаками возможны ситуации, когда t -критерий будет давать ложные результаты, указывая на статистическую незначимость признаков, в действительности существенно влияющих на результирующий признак.
Рассмотренный подход, на наш взгляд, более применим для оценки устойчивости параметров регрессионной модели, степени ее адекватности реальным данным. Но судить о том, насколько закономерна установленная по сплошным данным зависимость, не вызвана ли она стечением случайных обстоятельств, только на основе t - или F -критериев едва ли целесообразно. Здесь необходим качественный анализ, знание конкретных исторических условий, относящихся к изучаемому явлению.
При построении уравнений множественной регрессии основным этапом является отбор наиболее существенных факторов, воздействующих на результирующий признак. Этот этап построения модели множественной регрессии производится на основе качественного, теоретического анализа в сочетании с использованием статистических приемов. Обычно отбор факторов проходит две стадии. На первой стадии на основе содержательного анализа намечают круг факторов, теоретически существенно влияющих на результирующий признак. На второй стадии качественный анализ дополняется количественными оценками, которые позволяют отобрать статистически существенные факторы для рассматриваемых конкретных условий реализации связи. Таких оценок существует довольно много. Они основаны на использовании парных или частных коэффициентов корреляции факторных признаков с результирующим признаком Y, t-критерия вкладов факторов в объясненную дисперсию и т.д.
Отбор факторов на второй стадии исследования начинают обычно с анализа матрицы парных коэффициентов корреляции признаков, полученных на первой стадии. Выявляются факторы, тесно связанные между собой
. При наличии таких связей между факторными признаками один или несколько из них нужно исключить таким образом, чтобы между оставшимися факторами не было тесных связей (при этом коэффициенты корреляции между результирующим признаком Y и факторами могут быть, конечно, высокими). Эта процедура позволяет избежать отрицательных эффектов мультиколлинеарности.
Затем можно использовать стратегию шагового отбора, реализованную в ряде алгоритмов пошаговой регрессии. Здесь получили распространение две схемы отбора. В соответствии с первой схемой признак включается в уравнение в том случае, если его включение существенно увеличивает значение множественного коэффициента корреляции, что позволяет последовательно отбирать факторы, оказывающие существенное влияние на результирующий признак даже в условиях мультиколлинеарности системы признаков, отобранных в качестве аргументов из содержательных соображений36. При этом, очевидно, первым в уравнение включается фактор, наиболее тесно коррелирующий с Y, вторым в уравнение включается тот фактор, который в паре с первым из отобранных дает максимальное значение множественного коэффициента корреляции, и т.д. Существенно, что на каждом шаге получают новое значение множественного коэффициента (большее, чем на предыдущем шаге); тем самым определяется вклад каждого отобранного фактора в объясненную дисперсию Y.
Вторая схема пошаговой регрессии основана на последовательном исключении факторов с помощью t -критерия. Она заключается в том, что после построения уравнения регрессии и оценки значимости всех коэффициентов регрессии из модели исключают тот фактор, коэффициент при котором незначим и имеет наименьший коэффициент доверия t . После этого получают новое уравнение множественной регрессии и снова производят оценку значимости всех оставшихся коэффициентов регрессии. Если среди них опять окажутся незначимые, то опять исключают фактор с наименьшим значением t -критерия. Процесс исключения факторов останавливается на том шаге, при котором все регрессионные коэффициенты значимы. При использовании этой схемы пошаговой регрессии следует иметь в виду те особенности применения t -критерия, о которых шла речь выше (в частности, негативные последствия мулътиколлинеарности).
Характеризуя в целом последствия мультиколлинеарности, отметим, что при ее наличии снижается точность оценок регрессионных коэффициентов (стандартные ошибки коэффициентов получаются слишком большими); становится невозможной оценка статистической значимости коэффициентов регрессии с помощью
t -критерия, отсюда вероятно некорректное введение в анализ тех или иных переменных; резко возрастает чувствительность коэффициентов регрессии к особенностям исходных данных, так что добавление, например, небольшого числа наблюдений может привести к сильным сдвигам в значениях βi .
Отметим, что мультиколлинеарность может быть выявлена не только при анализе парных коэффициентов корреляции. Существуют более тонкие методы оценки существенности мультиколлинеарности и определения факторов, "ответственных" за нее.
При отсутствии мультиколлинеарности и выполнении остальных требований (они перечислены выше) модель множественной регрессии позволяет оценить значимость каждого из рассматриваемых факторов, определить степень существенности воздействия каждого фактора на результат (разные аспекты этой существенности проявляются в значениях β -коэффициентов и вкладов факторов, получаемых из пошаговой схемы), получить количественную оценку величины средних изменений результирующего признака при изменениях каждого из факторов (значения регрессионных коэффициентов Вj ). Наконец, величина коэффициента множественной корреляции R дает оценку веса учтенных факторов в объяснении вариаций результирующего признака Y (и соответственно оценку веса неучтенных факторов). Оценка неучтенных факторов представляется большим достоинством моделей множественной регрессии
Логистическая регрессия
При изучении линейной регрессии мы исследуем модели вида:
Y =a + b1*x1 + b2*x2 + …+bq * xq + e.
Здесь зависимая переменная Y является непрерывной, и мы определяем набор независимых переменных xi и коэффициенты при них bi, которые позволили бы нам предсказывать среднее значение Y с учетом наблюдаемой ее изменчивости.
Во многих ситуациях, однако, Y не является непрерывной величиной, а принимает всего два возможных значения . Обычно единицей в этом случае представляеют осуществления какого-либо события (успех), а нулем - отсутствие его реализации ( неуспех).
Среднее значение Y - обозначенное через p, есть доля случаев, в которых Y принимает значение 1. Математически это можно записать как:
p = P(Y=1) или,
p = P("Успех")
В этом случае нам хотелось бы уметь оценивать величину p и определять факторы (независимые переменные xi (непрерывные), которые влияют на переменную Y.
Вероятно, первой попыткой было бы опробование модели вида
p = a + b1 * x1. (2)
(Мы для простоты рассматриваем уравнение для одной независимой переменной).
В принципе это та же стандартная линейная регрессионная модель в которой Y - зависимая непрерывная переменная заменена на вероятность p. Однако, исследование такой модели показывает ее непригодность, поскольку p - вероятность и ее значения ограничиваются интервалом (0,1), а правая часть уравнения, напротив, может иметь значения , лежащие вне указанного выше интервала.
Можно попробовать применить модель вида
p = e a + b1 * x1
Это уравнение гарантирует, что оценки для p будут положительными. Однако, изучая модель, мы бы скоро осознали, что и эта модель не пригодна. В самом деле, правая часть уравнения может давать значения большие единицы.
Для устранения этого ограничения нам нужно применить модель вида
P = e a + b1 * x1 /(1 + e a + b1 * x1 )
Выражение, стоящее справа от знака равенства, называется логистической функцией. Она не может принимать как отрицательные значения, так и значения большие единицы, и, следовательно, ограничивает оценки для p требуемым интервалом.
Несложные математические преобразования позволяют от уравнения перейти к уравнению:
ln[ p / (1 - p)] = a + b1 * x1
По определению величина p / (1 - p) представляет собой "шансы успеха". По этой причине моделирование p с помощью логистической функции эквивалентно использованию линейной регрессионной модели, в которой непрерывная переменная Y заменена логарифмом от "шансов успеха", то есть мы полагаем, что зависимость между ln[ p / (1 - p)] и x1 линейная.
Для оценки статистической значимости всего уравнения в целом, с помощью метода правдоподобия вычисляется статистика χ2.
Анализ динамических изменений
Применение метода наименьших квадратов при исследовании
тенденции развития
Изучаемые биологией явления с течением времени часто меняют свою интенсивность; изменения эти отражаются на развитии явлений и при их изучении необходимо учитывать величину и направление изменений.
Методы статистики позволяют измерить размеры произошед-ших изменений и количественно охарактеризовать направление их развития. Количественное измерение изменений, наступающих с течением времени, можно провести при помощи следующих показателей.
-
Абсолютный уровень - фактический, количественный размер изучаемого явления. Ввиду того, что с течением времени эти размеры изменяются, абсолютный уровень обычно дается для каждого периода времени отдельно. Абсолютный уровень является основой для расчета производных показателей: абсолютный прирост, темп роста и темп прироста. -
Абсолютный прирост - величина - разность абсолютного уровня в данный период времени и абсолютного уровня предыдущего периода. Эта разность может быть как положительной, так и отрицательной величиной. -
Темп роста - процентное отношение между абсолютным уровнем данного периода и абсолютным уровнем предыдущего периода или какого-нибудь другого периода, принятого за исходный. В первом случае говорят о показателях темпа развития, вычисленных при цепном основании, а во втором - о показателях, вычисленных при постоянном основании. Показатели темпа развития, вычисленные при постоянном основании, носят также название показателей наглядности. Иногда показатели темпа развития, вычисленные при цепном основании, называются показателями динамики или коэффициентами роста. -
Темп прироста - процентное отношение между абсолютным приростом данного периода и абсолютным уровнем предшествующего периода. Абсолютный прирост может быть отрицательным или положительным, отсюда и темп прироста может быть отрицательным или положительным.