ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 11.01.2024
Просмотров: 70
Скачиваний: 1
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
1
Корреляционный анализ
Содержание
Парная корреляция. Основные понятия ............................................................ 1
Коэффициент корреляции Пирсона ................................................................... 2
Коэффициент корреляции Спирмена ................................................................. 6
Множественная корреляция ............................................................................... 9
Критические значения критерия Стьюдента .................................................. 11
Критические значения коэффициента корреляции Пирсона ........................ 12
Критические значения коэффициента корреляции Спирмена ...................... 14
Литература .......................................................................................................... 15
Парная корреляция. Основные понятия
Корреляционная связь – это согласованное изменение двух признаков, отражающее тот факт, что изменчивость одного признака находится в соответствии с изменчивостью другого.
Корреляционные связи различаются по форме, направлению и степени (силе).
По форме корреляционная связь может быть прямолинейной или криволинейной.
Прямолинейной может быть, например, связь между количеством тренировок на тренажере и количеством правильно решаемых задач в контрольной сессии.
Криволинейной может быть, например, связь между уровнем мотивации и эффективностью выполнения задачи. При повышении мотивации эффективность выполнения задачи сначала возрастает, затем достигается оптимальный уровень мотивации, которому соответствует максимальная эффективность выполнения задачи; дальнейшему повышению мотивации сопутствует уже снижение эффективности.
По направлению корреляционная связь может быть положительной (прямой) и отрицательной (обратной). При положительной прямолинейной корреляции более высоким значениям одного признака соответствуют более высокие значения другого, а более низким значениям одного признака – низкие значения другого. При отрицательной корреляции соотношения обратные. При положительной корреляции коэффициент корреляции имеет положительный знак, например r
xy
= 0,207, при отрицательной корреляции – отрицательный знак, например, r
xy
= -0,207.
Степень, сила или теснота корреляционной связи определяется по величине коэффициента корреляции. Сила связи не зависит от её направленности и определяется по абсолютному значению коэффициента корреляции. Максимальное возможное абсолютное значение коэффициента корреляции r
ху
= 1; минимальное
r
ху
= 0.
Рассмотрим общую классификация корреляционных связей:
сильная, или тесная при коэффициенте корреляции |r
ху
| > 0,70;
2
средняя при 0,50 < |r
xy
|< 0,69;
умеренная при 0,30 < |r
xy
|< 0,49;
слабая при 0,20 < |r
xy
|< 0,29;
очень слабая при |r
ху
|< 0,19.
Коэффициент корреляции Пирсона
Термин «корреляция» был введен в науку выдающимся английским естествоиспытателем Ф. Гальтоном в 1886 г. Однако точную формулу для подсчёта коэффициента корреляции разработал его ученик К. Пирсон.
Коэффициент характеризует наличие только линейной связи между признаками, обозначаемыми, как правило, символами X и Y. Формула расчёта коэффициента корреляции построена таким образом, что, если связь между признаками имеет линейный характер, коэффициент Пирсона точно устанавливает тесноту этой связи.
Поэтому он называется также коэффициентом линейной корреляции Пирсона. Если же связь между переменными X и Y не линейна, то Пирсон предложил для оценки тесноты этой связи так называемое корреляционное отношение.
Величина коэффициента линейной корреляции Пирсона не может превышать +1 и быть меньше, чем –1. Эти два числа +1 и –1 являются границами для коэффициента корреляции. Если при расчёте получается величина, большая +1 или меньшая –1, то произошла ошибка в вычислениях.
Знак коэффициента корреляции очень важен для интерпретации полученной связи. Подчеркнём ещё раз, что если знак коэффициента линейной корреляции положительный, то связь между коррелирующими признаками такова, что большей величине одного признака (переменной) соответствует большая величина другого признака (другой переменной). Иными словами, если один показатель (переменная) увеличивается, то соответственно увеличивается и другой показатель (переменная).
Такая зависимость носит название прямой зависимости.
Если же коэффициент корреляции отрицателен, то большей величине одного признака соответствует меньшая величина другого. Иначе говоря, при наличии знака минус увеличению одной переменной (признака, значения) соответствует уменьшение другой переменной. Такая зависимость носит название обратной зависимости.
Коэффициент корреляции Пирсона вычисляется по формуле:
,
)
(
)
(
у
х
y
x
y
x
r
xy
где х
i
– значения, принимаемые в выборке X, y
i
– значения, принимаемые в выборке Y;
x
– среднее значение по X,
y
- среднее значение по Y.
Замечание. Описание применения коэффициента корреляции Пирсона в MS
Excel приведено в лабораторной работе по корреляционному анализу.
3
Расчёт коэффициента корреляции Пирсона предполагает, что переменные Х и Y измеряются в шкале отношений, распределены нормально и число значений переменной Х равно числу значений переменной Y.
АЛГОРИТМ
1. Сформулировать для выбранного уровня значимости гипотезы.
Н
0
: коэффициент корреляции статистически не значим (случайно отличается от нуля).
Н
1
: коэффициент корреляции статистически значим (не случайно отличается от нуля).
2. Оценить достоверность коэффициента корреляции, используя эмпирическое значение коэффициента Стьюдента:
2 1
2
xy
xy
r
xy
r
r
n
r
S
r
t
(57)
3. Найти критическое значение критерия Стьюдента для числа степеней свободы
k = n – 2 по одноимённой статистической таблице из Приложения: t
крит
=
t(α; k).
Если t
r
< t
крит
, то принимают нулевую гипотезу, иначе
отвергают нулевую гипотезу.
Пример. Изучалась зависимость между массой шимпанзе-матерей
i
x , измеряемой в начале беременности (кг), и массой новорождённых детёнышей
i
y (кг)
(табл. 1).
Таблица 1
i
1 2
3 4
5 6
7 8
9 10
i
x
10 10 10,1 10,2 10,8 11 11,1 11,3 11,3 11,4
i
y
0,7 0,7 0,65 0,61 0,73 0,65 0,65 0,75 0,7 0,7
i
11 12 13 14 15 16 17 18 19 20
i
x
11,8 12 12 12,1 12,3 13 13,4 13,5 14,5 15,6
i
y
0,69 0,72 0,6 0,75 0,63 0,8 0,78 0,7 0,7 0,85
Решение.Для расчёта необходимых сумм и произведений составим вспомогательную таблицу 2.
Таблица 2
4
Масса матерей (
i
x )
Масса детёнышей (
i
y )
i
x
∙
i
y
2
i
x
2
i
y
10 0,7 7
100 0,49 10 0,7 7
100 0,49 10,1 0,65 6,565 102,01 0,4225 10,2 0,61 6,222 104,04 0,3721 10,8 0,73 7,884 116,64 0,5329 11 0,65 7,15 121 0,4225 11,1 0,65 7,215 123,21 0,4225 11,3 0,75 8,475 127,69 0,5625 11,3 0,7 7,91 127,69 0,49 11,4 0,7 7,98 129,96 0,49 11,8 0,69 8,142 139,24 0,4761 12 0,72 8,64 144 0,5184 12 0,6 7,2 144 0,36 12,1 0,75 9,075 146,41 0,5625 12,3 0,63 7,749 151,29 0,3969 13 0,8 10,4 169 0,64 13,4 0,78 10,452 179,56 0,6084 13,5 0,7 9,45 182,25 0,49 14,5 0,7 10,15 210,25 0,49 15,6 0,85 13,26 243,36 0,7225
Сумма 237,4 14,06 167,919 2861,6 9,9598
Сформулируем нулевую и альтернативную гипотезы. Н
0
: коэффициент корреляции статистически не значим (случайно отличается от нуля). Н
1
: коэффициент корреляции статистически значим (не случайно отличается от нуля).
Находим значение коэффициента корреляции по формуле (56):
2 20 06
,
14 20 9598
,
9 2
20 4
,
237 20 6
,
2861 20 06
,
14 20 4
,
237 20 919
,
167 2
2 2
2
y
y
x
x
y
x
y
x
r
xy
565
,
0 003781
,
0 1831
,
2 05134
,
0
5
Следовательно, между массой шимпанзе матерей и массой их новорождённых детёнышей существует линейная положительная средняя связь.
Оценим достоверность коэффициента корреляции:
9
,
2 565
,
0 1
2 20 565
,
0 1
2 2
2
XY
xy
r
r
n
r
t
Для уровня значимости α=0,05 найдём критическое значение критерия Стьюдента из Приложения: t
крит
= t(α; k) = t(0,05; 18)=2,1. Таким образом, t
r
t
крит
, так как
2,9 > 2,1, и на уровне значимости 0,05 делаем вывод о статистической значимости коэффициента корреляции.
Замечание. Если сравниваемые переменные, например X и Y, измеряются в
дихотомической шкале (частный случай шкалы наименований), то для определения связи целесообразно использовать коэффициент Пирсона для дихотомических шкал.
В тех случаях, когда нет необходимости подсчитывать частоту появления различных значений переменных X и Y, удобно проводить вычисления коэффициента корреляции с помощью таблицы сопряжённости, показывающей количество совместных появлений пар значений по двум переменным (признакам). А – количество случаев, когда переменная X имеет значение, равное нулю, и, одновременно, переменная Y имеет значение, равное единице; В – количество случаев, когда переменные X и Y имеют одновременно значения, равные единице; С – количество случаев, когда переменные X и Y имеют одновременно значения, равные нулю; D – количество случаев, когда переменная X имеет значение, равное единице, а переменная Y имеет значение, равное нулю (табл. 3).
Таблица 3
Общая таблица сопряжённости
Признак X
Всего
0 1
Признак
Y
1 0
А
С
В
D
A + B
C + D
Итого
A + C
B + D
N
В общем виде формула коэффициента Пирсона для дихотомических данных имеет вид:
)
(
)
(
)
(
)
(
)
(
D
C
B
A
D
B
C
A
AD
BC
6
Пример. Пусть две сравниваемые переменные X (семейное положение) и Y
(исключение из университета) измеряются в дихотомической шкале (частный случай шкалы наименований). Выяснить, существует ли взаимосвязь между семейным положением и исключением из университета.
Шифр испытуемого
Переменная X
Переменная Y
1 2
3 4
5 6
7 8
9 10 0
1 0
0 1
1 0
1 0
0 0
1 1
0 1
0 0
1 0
1
Решение. Составим по таблице исходных данных таблицу сопряжённости:
Признак X
Всего
0 1
Признак
Y
1 0
2 4
3 1
6 5
Итого
6 4
10
Подставим в формулу данные из таблицы сопряжённости, соответствующей рассматриваемому примеру:
32
,
0 1
4 3
2 1
3 4
2 1
2 4
3
Таким образом, коэффициент корреляции Пирсона для выбранного примера равен 0,32, то есть зависимость между семейным положением студентов и фактами исключения из университета незначительная.
Коэффициент корреляции Спирмена
В том случае, когда сравниваемые переменные X и Y являются ранговыми, то в качестве меры связи целесообразно использовать коэффициент ранговой корреляции
Спирмена (r
s
), число значений переменной Х равно числу значений переменной Y (n).
7
АЛГОРИТМ
1. Определить, какие два признака или две иерархии признаков будут участвовать в сопоставлении как переменные Х и Y.
2. Выдвигаем нулевую гипотезу Н
0
: коэффициент корреляции статистически не значим (случайно отличается от нуля); альтернативную гипотезу Н
1
: коэффициент корреляции статистически значим (не случайно отличается от нуля).
3. Проранжироватъ значения переменной X, начисляя первый ранг наименьшему значению, в соответствии с правилами ранжирования.
Проранжироватъ значения переменной Y в соответствии с теми же правилами.
4. Подсчитать разности между рангами Х и Y по каждой строке таблицы и обозначить их через d. Возвести каждую разность в квадрат (d
2
) и подсчитать их сумму.
5. Рассчитать коэффициент ранговой корреляции r
s
по формуле: а) при отсутствии одинаковых рангов вычисляется по формуле:
n
n
d
r
n
i
i
s
3 1
2 6
1
; где d = rankХ ‒ rankY. б) при наличии одинаковых рангов:
n
n
T
T
d
r
b
a
n
i
i
s
3 1
2 6
1
, где Σd
2
– сумма квадратов разностей между рангами; n – количество испытуемых или признаков, участвовавших в ранжировании; Т
а
и Т
b
– поправки на одинаковые ранги:
,
12
,
12 3
3
b
b
T
a
a
T
b
a
где а – объём каждой группы одинаковых рангов в ранговом ряду Х; b – объём каждой группы одинаковых рангов в ранговом ряду Y.
6. Оценим достоверность коэффициента корреляции по формуле:
2 1
2
xy
xy
r
xy
r
r
n
r
S
r
t
7. Найдем критическое значение критерия для уровня значимости α и для числа степеней свободы
k = n – 2 с помощью статистической функции
СТЬЮДЕНТ.ОБР.2Х(α; k).
8. Вывод:
8 1) если t
r
t
крит
, то отвергают нулевую гипотезу Н
0
, то есть при выбранном уровне значимости делают вывод о статистической значимости коэффициента ранговой корреляции;
2) если t
r
< t
крит
, принимают нулевую гипотезу Н
0
, то есть при выбранном уровне значимости делают вывод о статистической значимости коэффициента ранговой корреляции.
Пример. Преподавателю и студенту было предложено расположить 10 профессий в порядке их общественной значимости. Выяснить, существует ли связь между мнениями преподавателя и студента (табл. 4).
Таблица 4
Преподаватель
Профессия
Студент
3
Профессор
2 1
Врач
1 4
Учитель школы
7 2
Директор магазина
4 8
Бухгалтер
5 6
Банкир
3 9
Водитель
9 5
Журналист
8 10
Ди-джей
10 7
Программист
6
Решение. Выполним расчеты в MS Excel.