Файл: 1 Корреляция и взаимосвязь величин 2 Показатели корреляции.docx

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 10.01.2024

Просмотров: 41

Скачиваний: 1

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Введение

1 Корреляция и взаимосвязь величин

2 Показатели корреляции

2.1 Параметрические показатели корреляции

2.1.1 Ковариация

2.1.2 Линейный коэффициент корреляции

2.2 Непараметрические показатели корреляции

2.2.1 Коэффициент ранговой корреляции Кендалла

2.2.2 Коэффициент ранговой корреляции Спирмена

2.2.3 Коэффициент корреляции знаков Фехнера

2.2.4 Коэффициент множественной ранговой корреляции (конкордации)

2.3 Свойства коэффициента корреляции

3 Корреляционный анализ

3.1 Ограничения корреляционного анализа

3.2 Область применения

Примечания
Литература

Введение

Корреля́ция (корреляционная зависимость) — статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом, изменения значений одной или нескольких из этих величин приводят к систематическому изменению значений другой или других величин.[1] Математической мерой корреляции двух случайных величин служит корреляционное отношение  [2], либо коэффициент корреляции   (или  )[1]. В случае, если изменение одной случайной величины не ведёт к закономерному изменению другой случайной величины, но приводит к изменению другой статистической характеристики данной случайной величины, то подобная связь не считается корреляционной, хотя и является статистической[3].

Впервые в научный оборот термин «корреляция» ввёл французский палеонтолог Жорж Кювье в XVIII веке. Он разработал «закон корреляции» частей и органов живых существ, с помощью которого можно восстановить облик ископаемого животного, имея в распоряжении лишь часть его останков. В статистике слово «корреляция» первым стал использовать английский биолог и статистик Фрэнсис Гальтон в конце XIX века.
[4]

Некоторые виды коэффициентов корреляции могут быть положительными или отрицательными (возможна также ситуация отсутствия статистической взаимосвязи — например, для независимых случайных величин). Если предполагается, что на значениях переменных задано отношение строгого порядка, то отрицательная корреляция — корреляция, при которой увеличение одной переменной связано с уменьшением другой переменной, при этом коэффициент корреляции может быть отрицательным; положительная корреляция в таких условиях — корреляция, при которой увеличение одной переменной связано с увеличением другой переменной, при этом коэффициент корреляции может быть положительным.

1. Корреляция и взаимосвязь величин

Значительная корреляция между двумя случайными величинами всегда является свидетельством существования некоторой статистической связи в данной выборке, но эта связь не обязательно должна наблюдаться для другой выборки и иметь причинно-следственный характер. Часто заманчивая простота корреляционного исследования подталкивает исследователя делать ложные интуитивные выводы о наличии причинно-следственной связи между парами признаков, в то время как коэффициенты корреляции устанавливают лишь статистические взаимосвязи. Например, рассматривая пожары в конкретном городе, можно выявить весьма высокую корреляцию между ущербом, который нанес пожар, и количеством пожарных, участвовавших в ликвидации пожара, причём эта корреляция будет положительной. Из этого, однако, не следует вывод «бо́льшее количество пожарных приводит к бо́льшему ущербу», и тем более не имеет смысла попытка минимизировать ущерб от пожаров путем ликвидации пожарных бригад.[5]

В то же время, отсутствие корреляции между двумя величинами ещё не значит, что между ними нет никакой связи. Более тонкий инструмент для изучения связи между двумя случайными величинами является понятие взаимной информации.

2. Показатели корреляции

2.1. Параметрические показатели корреляции

2.1.1. Ковариация

Важной характеристикой совместного распределения двух случайных величин является ковариация (или корреляционный момент). Ковариация являетcя совместным центральным моментом второго порядка.

[6] Ковариация определяется как математическое ожидание произведения отклонений случайных величин[7]:

,

где   — математическое ожидание.

Свойства ковариации:

  • Ковариация двух независимых случайных величин   и   равна нулю[8].

Доказательство

Так как   и   — независимые случайные величины, то и их отклонения   и   также независимы. Пользуясь тем, что математическое ожидание произведения независимых случайных величин равно произведению математических ожиданий сомножителей, а математическое ожидание отклонения равно нулю, имеем



  • Абсолютная величина ковариации двух случайных величин   и   не превышает среднего геометрического их дисперсий:  [9].

Доказательство

Введём в рассмотрение случайную величину   (где   — среднеквадратическое отклонение) и найдём её дисперсию  . Выполнив выкладки получим:



Любая дисперсия неотрицательна, поэтому



Отсюда



Введя случайную величину  , аналогично



Объединив полученные неравенства имеем




Или



Итак,



  • Ковариация имеет размерность, равную произведению размерности случайных величин, то есть величина ковариации зависит от единиц измерения независимых величин. Данная особенность ковариации затрудняет её использование в целях корреляционного анализа[8].

2.1.2. Линейный коэффициент корреляции

Для устранения недостатка ковариации был введён линейный коэффициент корреляции (или коэффициент корреляции Пирсона), который разработали Карл Пирсон, Фрэнсис Эджуорт и Рафаэль Уэлдон (англ.)русск. в 90-х годах XIX века. Коэффициент корреляции рассчитывается по формуле[10][8]:



Коэффициент корреляции изменяется в пределах от минус единицы до единицы[11].

Доказательство

Разделив обе части двойного неравенства   на   получим



Линейный коэффициент корреляции связан с коэффициентом регрессии в виде следующей зависимости:  где   — коэффициент регрессии,   — среднеквадратическое отклонение соответствующего факторного признака[12].

Для графического представления подобной связи можно использовать прямоугольную систему координат с осями, которые соответствуют обеим переменным. Каждая пара значений маркируется при помощи определенного символа. Такой график называется «диаграммой рассеяния».

Метод вычисления коэффициента корреляции зависит от вида шкалы, к которой относятся переменные. Так, для измерения переменных с интервальной и количественной шкалами необходимо использовать коэффициент корреляции Пирсона (корреляция моментов произведений). Если по меньшей мере одна из двух переменных имеет порядковую шкалу, либо не является нормально распределённой, необходимо использовать ранговую корреляцию Спирмена или 
 (тау) Кендалла. В случае, когда одна из двух переменных является дихотомической, используется точечная двухрядная корреляция, а если обе переменные являются дихотомическими: четырёхполевая корреляция. Расчёт коэффициента корреляции между двумя недихотомическими переменными не лишён смысла только тогда, когда связь между ними линейна (однонаправлена).

2.2. Непараметрические показатели корреляции

2.2.1. Коэффициент ранговой корреляции Кендалла

Применяется для выявления взаимосвязи между количественными или качественными показателями, если их можно ранжировать. Значения показателя X выставляют в порядке возрастания и присваивают им ранги. Ранжируют значения показателя Y и рассчитывают коэффициент корреляции Кендалла:

,

где S = P − Q.

P — суммарное число наблюдений, следующих за текущими наблюдениями с большим значением рангов Y.

Q — суммарное число наблюдений, следующих за текущими наблюдениями с меньшим значением рангов Y. (равные ранги не учитываются!)



Если исследуемые данные повторяются (имеют одинаковые ранги), то в расчетах используется скорректированный коэффициент корреляции Кендалла:







t — число связанных рангов в ряду X и Y соответственно.

2.2.2. Коэффициент ранговой корреляции Спирмена

Каждому показателю X и Y присваивается ранг. На основе полученных рангов рассчитываются их разности d и вычисляется коэффициент корреляции Спирмена:



2.2.3. Коэффициент корреляции знаков Фехнера

Подсчитывается количество совпадений и несовпадений знаков отклонений значений показателей от их среднего значения.