Файл: Курс лекций по дисциплине Информационные технологии в юридической деятельности.rtf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 08.11.2023

Просмотров: 516

Скачиваний: 3

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
, а значения другого являются жестко детерминированными, то говорят о регрессии, а не о статистической связи. Например, при анализе динамических рядов можно измерять регрессию уровня преступности на номера лет, но нельзя говорить о корреляции между ними и применять показатели корреляции с соответствующей им интерпретацией.

Корреляционная связь между признаками может возникать тремя путями. Во‑первых, она может проявиться как причинная зависимость результативного признака (его вариации) от вариации факторного признака. Например, признак X - уровень безработицы, признак Y - уровень преступности.

Во-вторых, она может проявиться между двумя следствиями общей причины. Известен пример, приведенный А.А.Чупровым: если в качестве признака X взять число пожарных команд в городе, а за признак Y - сумму убытков за год в городе от пожаров, то между признаками X и Y в совокупности городов России имеется прямая корреляция. В среднем, чем больше пожарников в городе, тем больше и убытков от пожаров! Данную корреляцию нельзя интерпретировать как связь причины и следствия; оба признака - следствия общей причины - размера города.

В-третьих, корреляция возникает при взаимосвязи признаков, каждый из которых может выступать и как причина, и как следствие. Такова, например, корреляция между уровнем производительности труда и уровнем оплаты одного часа труда (тарифной ставкой). С одной стороны, чем выше производительность труда, тем выше и оплата. Но с другой стороны, установленные тарифные ставки выступают в качестве стимулирующего фактора по отношению к производительности труда. В такой системе каждый признак может выступать и в роли независимой переменной X, и в качестве зависимой переменной Y.

Первым условием возможности изучения корреляции является общее условие всякого статистического исследования: - наличие данных по достаточно большой совокупности явлений. Какое именно число явлений достаточно для анализа корреляционной связи, зависит от цели анализа, требуемой точности и надежности параметров связи, от числа факторов, корреляция с которыми изучается. Обычно считают, что число наблюдений должно быть не менее чем в 5-6, а лучше - не менее чем в 10 раз больше числа факторов. При большом числе наблюдений вступает в действие закон больших чисел
, обеспечивающий взаимное погашение случайных отклонений от закономерного характера исследуемой связи.

Вторым условием возможности изучения корреляционной связи служит условие, обеспечивающее достоверное выражение закономерности в средней величине для чего необходима качественная однородность исследуемой совокупности. Например, не следует объединять в одну совокупность преступления, совершаемые обычными гражданами, с преступлениями, совершаемыми лицами, отбывающими наказание в исправительно-трудовых учреждениях, поскольку указанные преступления имеют существенные отличия.

Третьим условием корреляционного анализа является необходимость подчинения распределения совокупности по результативному Y и факторному X признакам нормальному закону распределения. Это условие связано с используемым при корреляционном анализе математическим аппаратом, дающим достоверную оценку параметров корреляции только при нормальном распределении. Однако на практике это условие чаще всего выполняется приближенно, но и в этом случае получаемые результаты обладают достаточной надежностью. При значительном отклонении распределений признаков от нормальных нельзя оценивать надежность корреляции, используя параметры данного распределения или распределения Стьюдента.

В статистике линейная зависимость между двумя признаками измеряется посредством простого (выборочного) коэффициента корреляции. Величина линейной зависимости одной переменной от нескольких других измеряется коэффициентом множественной корреляции. Возможно, вычисление частного коэффициента корреляции, который измеряет линейную зависимость между двумя признаками после устранения части линейной зависимости, обусловленной связью этих переменных с другими переменными.

По форме корреляционные связи могут быть линейными (прямолинейными) и нелинейными (криволинейными), а по направлению - прямыми (положительными) и обратными (отрицательными).

Прямая связь свидетельствует о том, что с увеличением (уменьшением) значений одного признака увеличиваются (уменьшаются) значения другого признака. При обратной связи увеличение (уменьшение) значений одного признака ведет к уменьшению (увеличению) значений другого признака.

Главная задача корреляционного анализа - измерение тесноты связи - решается путем вычисления различных коэффициентов корреляции и проверки их значимости.



Коэффициент корреляции может принимать значения при прямой связи от 0 до + 1, а при обратной - от - 1 до 0. При коэффициентах, близких к 0, считается, что статистическая линейная связь между признаками отсутствует; при абсолютных значениях коэффициентов, меньших 0,3, - связь слабая; при значениях 0,3...0,5 - связь умеренная; при 0,5...0,7 - связь значительная; при 0,7...0,9 - связь сильная; если значения коэффициентов больше 0,9, то связь считается очень сильной; если коэффициенты равны +1 или -1, то говорится о функциональной связи (что практически не встречается в статистических исследованиях).

Однако такая упрощенная оценка силы связи не всегда корректна, так как степень уверенности в наличии статистической связи зависит от объема исследуемой совокупности. Чем меньше объем совокупности, тем большим должно быть значение коэффициента корреляции для принятия гипотезы о существовании зависимости между признаками. С целью количественного измерения степени уверенности в существовании линейной статистической связи между признаками введены понятия уровня значимости и пороговых (критических) значений коэффициента корреляции.

Проверка значимости полученного коэффициента корреляции состоит в сравнении расчетного значения с критическим. При данном числе измерений и задаваемом уровне значимости находится критическое значение, которое сравнивается с расчетным. Если расчетное больше критического, то связь значима, если меньше, то связь или отсутствует (а такое значение коэффициента корреляции объясняется случайными отклонениями) или выборка мала для ее выявления.

Для определения существования и величины линейной зависимости между двумя переменными X и Y необходимо осуществить две процедуры. Первая заключается в графическом отображении точек [Xi, Yi, i=1,..., n] на плоскость [XY].



Рис. 2. Линейная зависимость Рис. 3. Линейная зависимость

существует. не просматривается.

Полученный график (рис. 2, 3) называется диаграммой рассеяния, анализ которой позволяет сделать вывод о допустимости предположения о линейной зависимости между переменными. Если такое предположение допустимо, то необходимо выразить в количественном виде величину линейной связи. Для этого используется выборочный коэффициент корреляции:



R = ,



где: , - среднеквадратические отклонения переменных X и Y соответственно.

Однако даже при наличии сильной статистически значимой связи между двумя переменными нельзя быть полностью уверенным в их причинно-следственной обусловленности, так как могут существовать другие причины (факторы), определяющие их совместную статистическую взаимосвязь. Статистические выводы должны быть всегда обоснованы надежной теоретической концепцией.

В то же время отсутствие статистически значимой связи не говорит об отсутствии причинно-следственных отношений, а заставляет искать другие пути и средства ее выявления, если содержательная концепция и практический опыт указывают на ее возможное существование.

Регрессионный анализ

Понятия корреляции и регрессии непосредственно связаны между собой. В корреляционном и регрессионном анализе много общих вычислительных приемов. Они используются для выявления причинно-следственных соотношений между явлениями и процессами. Однако если корреляционный анализ позволяет оценить силу и направление стохастической связи, то регрессионный анализ - еще и функцию зависимости. При этом следует отметить, что чем слабее взаимосвязь, тем больше диаграмма рассеяния похожа на облако (рис. 3) и тем труднее определить функцию зависимости.

Регрессия может быть: