Файл: Руководство для профессиональных аналитиков москва 2009 rv удк 001. 51 Ббк72 с 40.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 05.12.2023

Просмотров: 537

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
показать, однокачественны ли явления, признаки которых подлежат изучению. Измерять связи можно лишь между признаками однородных совокупностей явлений. Очень важно посредством предварительного теоретического анализа установить, имеется ли между известными признаками связь, и если да, то какая.
Встречаются случаи обнаружения так называемых ложных связей. Так, в печати публиковались данные о том, что автомобильные катастрофы чаще случаются на широких автомагистралях, а не в узких улочках. Из этого следовало, что чем шире дороги, тем больше на них катастроф. Этот вывод неправильный: не учтена степень интенсивности движения на дорогах различной ширины. Известно, что на широких дорогах движение значительно интенсивней. По этой причине и автокатастроф на них больше. Таким образом, наличие формально обнаруживаемой связи не обязательно свидетельствует о наличии причинно-следственных связей между изучаемыми признаками. В частности, такая связь может быть обнаружена, когда оба изучаемых признака оказываются зависимыми от третьего.
После того как исследователь пришѐл к заключению, что связи между изучаемыми признаками, скорее всего, наличествуют, и сформулировал некую гипотезу, можно применить те или иные способы их измерения.
Статистика выработала немало приѐмов установления и измерения связей.
Так, теснота корреляционной связи выражается с помощью одного из коэффициентов корреляции.
Какой из них применять в каждом конкретном случае, зависит от того, какими шкалами измеряются переменные в данной задаче. К числу наиболее распространенных относятся следующие три коэффициента:
1. Коэффициент парной корреляции Пирсона (обслу живает переменные, которые измеряются количествен ными шкалами: доход, рост, вес).
2. Коэффициент ранговой корреляции Спирмена
(обслуживает ранговые переменные).
3. Коэффициент ассоциации Юла (попытка провести корреляцию альтернативных переменных, которые измеряются на качественных или номинальных шкалах).
Коэффициент парной корреляции ввел в научный обиход К
АРЛ
П
ИРСОН
,
ученик Ф. Г
АЛЬТОНА
Сам коэффициент характеризует наличие только линейной связи между признаками, обозначаемыми, как правило, символами X и У. Формула расчета коэффициента корреляции построена таким образом, что если связь между признаками имеет линейный характер, коэффициент Пирсона точно устанавливает тесноту этой связи. Поэтому он называется также коэффициентом линейной корреляции Пирсона. Если же связь между переменными Хи Уне линейна, то Пирсон предложил для оценки тесноты этой связи так называемое корреляционное отношение, о котором можно прочитать в соответствующей литературе
70
Коэффициент Пирсона выступает показателем тесноты связи.
Формула этого коэффициента применительно к прямолинейной связи следующая:
ста где о
- среднеквадратичное отклонение значений соответствующего признака, ху - среднее попарных произведений значений обоих признаков
Коэффициент Пирсона применим, если оба признака имеют значения, располагающиеся на количественной шкале.
Величина коэффициента линейной корреляции
Пирсона не может превышать +1 и быть меньше, чем -
1. Эти два числа +1 и -1 - являются границами для коэффициента корреляции.
Когда при расчете получается величина большая +1 или меньшая -1, это означает, что произошла ошибка в вычислениях. Если коэффициент корреляции по модулю оказывается близкими 1, то это
70 Т
ЮРИН
Ю , М
АКАРОВ
А Цит соч
272 273
г =

соответствует высокому уровню связи между переменными. Так, в частности, при корреляции переменной величины с самой собой величина коэффициента корреляции будет равна +1. Подобная связь характеризует прямо пропорциональную зависимость. Если же значения переменной х будут расположены в порядке возрастания, а те же значения
(обозначенные теперь уже как переменная у ) будут располагаться в порядке убывания, то в этом случае корреляция между переменными х и у будет равна точно -1. Такая величина коэффициента корреляции характеризует обратно пропорциональную зависимость.
При этом выбор переменной, которой приписывается характер (тенденция) возрастания, произволен. Это может быть как переменная х, так и переменная у. Если аналитик-исследователь будет считать, что увеличивается переменная х, то переменная
у будет соответственно уменьшаться, и наоборот. Эти положения очень важно четко усвоить для правильной интерпретации полученной корреляционной зависимости.
Графически корреляционные связи различной тесноты и направления могут быть изображены с помощью диаграмм т.н. полей рассеяния (рис. 15).
а)
J
S
t
О
Л.
f n \ J

*t

Рис. 15. Поля рассеяния значений признаков х и у:
(а) сильная прямая корреляционная связь
(б) умеренная прямая корреляционная связь
1

Рис. 15. Поля рассеяния значений признаков х и у:
(в) корреляционная связь, отсутствует (г)
умеренная обратная корреляционная связь
(д) сильная обратная корреляционная связь (е)
умеренная нелинейная корреляционная связь
Для применения коэффициента корреляции
Пирсона необходимо соблюдать следующие условия:
1. Сравниваемые переменные должны быть получе ны в интервальной шкале или шкале отношений.
2. Распределения переменных х и у должны быть близки к нормальному.
3. Число варьирующих признаков сравниваемых пе ременных х и у должно быть одинаковым.
Как известно, реальные жизненные явления складываются под воздействием не одной, а многих причин, поэтому в практике корреляционного анализа приходит-
274 275
ся иметь дело со многими факторами, определяющими тот или иной результат. В силу этого статистики сталкиваются с необходимостью заниматься как минимум парной корреляцией, а как максимум - множественной, т.е. такой, посредством которой изучается зависимость результативного признака от ряда признаков-факторов.
Методология
множественной
корреляции
основывается на тех же общих принципах, которые относятся к парной корреляции. Однако в ней многие проблемы усложняются, значительно возрастает и сложность математического аппарата.
Весьма существенными методологическими вопросами корреляционного анализа вообще, но особенно методологии множественной корреляции, являются вопросы о единице наблюдения и сопоставимости уровней коррелируемых признаков.
Включаемые в расчет уровни должны быть сопоставимыми по всем известным направлениям.
Единица наблюдения (в пространстве - человек, семья, учреждение и т.д.; во времени -месяцы, кварталы, годы) должна быть такой, чтобы в ней могли отразиться те стороны явлений, которые интересуют исследователя. Например, в данных об отдельном человеке не могут найти отражения его жилищные и бытовые условия, информация о которых может быть получена лишь при наблюдении за семьей (если, конечно, речь не идет об одиноком гражданине).
Следовательно, при исследовании жилищно-бытовых условий единицей наблюдения надо взять семью, а не отдельного человека.
Главная принципиальная сложность множественной корреляции - отбор факторов для расчета и составления уравнения связи отобранных признаков. Исходя из теоретических соображений и поставленной задачи, аналитик устанавливает теоретически возможные связи и определяет круг взаимосвязанных признаков. Он должен взять все существенные и важные признаки- факторы, оказывающие влияние на результативный признак.
На следующем этапе из выбранной в итоге качественного анализа системы признаков отбираются та-
276

кие, что могут быть включены в уравнение связи. Из системы исключаются, во-первых, такие признаки, которые уже по предварительным логическим соображениям мало значимы; во-вторых, те, что невозможно количественно измерить в силу отсутствия необходимой для этого информации.
После этого следует выяснить, насколько существенны отобранные признаки-факторы. В частности, под- считываются парные коэффициенты корреляции и их критерии надежности (при незначительной величине г соответствующие факторы могут быть сразу исключены), коэффициенты регрессии и т.д. Нельзя оставлять для исследования факторы, тесно связанные между собой (об их взаимосвязи могут свидетельствовать коэффициенты парной корреляции), а также факторы, в достоверности которых нет уверенности.
Отобрав в итоге предварительной работы соответствующие значимые факторы, устанавливают конкретный вид уравнения связи.
При небольшом числе исходных данных в случае, когда количественные сведения носят приближенный характер или когда можно обойтись приближенной количественной характеристикой связи, а также при наличии атрибутивных признаков со значениями различной интенсивности (отлично, хорошо, темно- синий, синий, светло-синий и т.д.), молено использовать коэффициент корреляции рангов.
Графическое представление метода ранговой
корреляции.
Чаще всего корреляционную связь представляют графически в виде облака точек или в виде линий, отражающих общую тенденцию размещения точек в пространстве двух осей: оси признака А и признака
Б.
Попробуем изобразить ранговую корреляцию в виде двух рядов ранжированных значений, которые попарно соединены линиями (рис. 16). Если ранги по признаку А и по признаку Б совпадают, то между ними оказывается горизонтальная линия, если ранги не совпадают, то линия становится наклонной. Чем больше несовпадение рангов, тем более наклонной становится линия. Слева на рисунке отображена максимально высокая положи-
277
тельная корреляция (р=+1,0) - практически это
«лестница». В центре отображена нулевая корреляция - плетенка с неправильными переплетениями. Все ранги здесь перепутаны. Справа отображена максимально высокая отрицательная корреляция (р=-1,0) - паутина с правильным переплетением линий.
в)
Рис. 16. Графическое изображение ранговой корреляции
а) сильная положительная корреляционная связь
б) нулевая корреляция в) сильная
отрицательная корреляционная связь
Коэффициент ранговой корреляции Спирмена.
Количественно эту идею оформил С
ПИРМЕН
71
, введя коэффициент ранговой корреляции р:
ковый. Ведь количественный признак всегда можно превратить в порядковый.
Используем ранжированный ряд по стажу работы, занумерованный с 1 по 10, занумеруем также второй ряд в порядке возрастания тарифных разрядов. При этом в случае наличия одинаковых вариантов для полной объективности рекомендуется брать среднее арифметическое значение рангов
72
. Соответствующий расчет разности рангов, хорошо знакомый социологам, экономистам и психологам, приводится в таб. 8.
Расчет коэффициента корреляции
рангов «стаж-квалификация» по 10 рабочим
Таблица 8
2
I
D
О fj
эс a
о
р = 1 -
n(n
2
- 1)
где n - число сопоставляемых пар, d - разность между рангами (порядковыми номерами) в двух рядах.
Методику расчета коэффициента корреляции рангов покажем на примере с 10 рабочими. Их имена А, Б,... К.
Нас интересует, в какой степени стаж работы (в годах) работника связан с повышением квалификации (в виде тарифного разряда). При этом нас не должно смущать, что первый признак количественный, а второй поряд-
71. Ч
АРЛЬЗ
С
ПИРМЕН
(1863 - 1945) - английский психолог. Разработал цикл
статистических методов с целью измерения структуры интеллекта. Изучая
корреляции между результатами выполнения различных заданий и используя
факторный анализ, предложил двухфакторную теорию интеллекта (Спирмен Ч.
Способности человека. - 1927.).
278
8
0
0,25 0,25 2,25 4
0,25 а)
ей
а
ч
f
А
Б
В
Г
д
Е
Ж
3
И
К
2 4
4 5
6 11 15 19 21 28 1
2
3
4
5
6
7
8
9
10
1
2,5
2,5
4
5
6
7
8
9
10
1
2
2
3
2
3
5
4
5
6
1
2
3
5
4
6
8
7
9
10
1
3
3
5,5
3
5,5
8,5
7
8,5
10
0
-0,5
0,5
-1,5
2
0,5
-1,5
1
0,5
0


2,25 1
0,25 0 d
2
=10,50
72. Среди 10 рабочих 2-й тарифный разряд имеют трое рабочих с рангами 2, 3 и
4; средняя - 3; этот ранг для расчета присвоен всем трем рабочим.
279

Обратим внимание, что разности рангов вычисляются с использованием колонок 4 и 7, содержащих так называемые расчетные ранги.
Исходные ранги (колонки 3 и 6) для расчетов не годятся, поскольку они могут быть «конфликтными».
Так, рабочие Б и В претендуют на второе место по стажу работы. Этот конфликт разрешается в четвертой колонке: каждый из них получил ранг 2,5. Нас интересует сумма квадратов разности рангов, а именно сумма, исчисленная по последней колонке. Она равна
10,5. Теперь молено вычислить коэффициент Спирмена и получить окончательный ответ.
= 0 9 4 990
Уровень корреляции мы получили очень высокий (почти 1). Вывод: на данном предприятии созданы условия для квалификационного роста. Правда, попался один лодырь (а именно, рабочий Д), который, отработав 6 лет, так и застрял во 2 разряде.
Коэффициент корреляции рангов, так же, как и парный коэффициент корреляции, принимает значение от -1 до +1. Смысл у р такой же, что и у г. Однако ранговый коэффициент имеет преимущество перед парным в том, что его исчисление может производиться при любой форме распределения исследуемой совокупности, тогда как г приспособлен и дает хорошие результаты лишь при нормальном распределении.
Коэффициент Спирмена также используется для вычисления ранговой корреляции индивидуальных профилей двух объектов (например, таковы типичные задачи, решаемые кадровыми службами коммерческих структур). Очевидно, что кандидаты на заполнение тех или иных вакансий характеризуются профилями, включающими в качестве составляющих те или иные индивидуальные черты (или переменные). В качестве переменных используются составляющие профилей.
Так,
при сравнении профилей родителей и их взрослых детей пара «мать-дочь» заполняет анкету, в которой каждой из женщин предложено ранжировать 18 ценностей, а именно «Активная, деятельная жизнь»,
«Здоровье», «Интересная работа» и т.д. Анализ корреляционной связи ответов обеих анкет позволяет сравнить отношение к жизни двух поколений
73
Имеются ограничения применимости коэффициента ранговой корреляции. Для приемлемой точности по каждой переменной должно быть представлено не менее 5 наблюдений. Верхняя граница выборки определяется примерно 40 наблюдениями.
Коэффициент Спирмена при большом количестве одинаковых рангов по одной или обеим сопоставляемым переменным дает огрубленные значения. В идеале оба коррелируемых ряда должны представлять собой две последовательности несовпадающих значений. В случае если это условие не соблюдается, необходимо вносить поправку на одинаковые ранги.
Несколько замечаний по поводу измерения связей между атрибутивными или качественными признаками. Как уже отмечалось в разделе 7.1., если значения качественных признаков различаются интенсивностью (в силу чего им можно присвоить ранги), связь между ними может быть охарактеризована посредством ранговых коэффициентов. Во всех остальных случаях тесноту связи между атрибутивными признаками измеряют с помощью специальных коэффициентов.
Представим простейший случай: выяснение связи двух атрибутивных альтернативных признаков (т.е. признаков, значения которых возникают как ответ на дихотомический вопрос). Этих значений у каждого из признаков два: «да» и «нет». Соответствующие данные эмпирического исследования могут быть сведены в так называемую четырехпольную (или четырехклеточную) таблицу (таб. 9):
73 С
ИДОРЕНКО
Е.В. Методы математической обработки в психологии - СПб . ООО
.Речь», 2001.
280 281 р = 1 -
= 1-
п(п
2
-


Таблица четырех полей
Таблица
9
А
Ъ
С
d
Здесь а, Ь, с, d- частоты сопоставляемых признаков.
Например, нас интересует связь пола рабочего со степенью выполнения им норм выработки. Всего обследовано 100 рабочих (70 мужчин и 30 женщин).
Данные можно представить в виде следующей таб. 10
(главные четыре поля обведены).
Зависимость между степенью выполнения
норм выработки и полом рабочих
Таблица 10
Выполняющие нормы
Не выполняющие нормы
Итого
Мужчины
65 5
70
Женщины
27 3
30
Итого
92 8
100
В этой таблице а=65, b=5, c=27, d=3.
Теснота связи двух атрибутивных признаков, имеющих по два варианта, определяется посредством коэффициента ассоциации:
__
ad-be
Коэффициент ассоциации свидетельствует о значимой связи, если его абсолютная величина не меньше 0,5. В данном примере:
.195- 135 195 +135
=
Полученная в данном примере величина коэффициента очень мала. При величине ниже 0,5 коэффициенту ассоциации не следует придавать существенного значения.
Данные здесь понятия и иллюстрирующие их примеры показывают, что в аналитических исследованиях проведение таких относительно простых вычислений и учет тесноты связей признаков могут играть достаточно серьезную роль при формулировании выводов относительно той или иной системы или подсистемы изучаемой целостности.
1   ...   11   12   13   14   15   16   17   18   ...   25