ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 12.11.2020
Просмотров: 2491
Скачиваний: 17
112
Глава 4. Статистические методы в политическом анализе
данной переменной. Несмотря на отсутствие полного соответствия
очевидна близость распределения переменной к нормальному.
Такого рода гистограмма строится на основе таблиц распределения
частот встречающихся значений переменной в определенных интер
валах. Число интервалов в современных статистических программах
может быть задано пользователем. Таблица частот в данном случае бу
дет иметь вид:
Интервал
Частота
% от всех случаев
0 - 2 % голосов
3
3,4%
2 - 4 %
8
8,9%
4 - 6 %
14
15,7%.
6 - 8 %
23
25,8%
8 - 1 0 %
26
29,3%
1 0 - 1 2 %
8
8,9%
1 2 - 1 4 %
3
3,4%
1 4 - 1 6 %
2
2,3%
1 6 - 1 8 %
1
1,1%
1 8 - 2 0 %
1
1,1%
В то же время
ненормальность
распределения сама по себе может
представлять интерес для исследователя. К примеру, мы имеем следу
ющее распределение электоральной поддержки некоторой политиче
ской партии по регионам страны:
4.2. Анализ связей между неметрическими переменными
113
Как видно из гистограммы, мы имеем распределение, по сути, об
ратное нормальному: преобладают регионы с очень высокой или, на
против, очень низкой поддержкой данной партии, тогда как средние
значения явно «провисают». Содержательно такую картину мы мо
жем интерпретировать как
электоральный раскол
между регионами
страны по критерию поддержки данной партии. Подобную картину
можно было наблюдать, например, при голосовании за партию ХСС в
Германии.
4.2. Анализ связей между неметрическими переменными
Прежде всего необходимо напомнить, что неметрическими (категори
альными) переменными называют переменные, измеряемые на номи
нальном уровне. Номинальные переменные — пол, принадлежность к
той или иной политической партии, предпочтение определенного кан
дидата — соотносят изучаемые объекты с определенным набором непе
ресекающихся классов (мужской/женский; член К П Р Ф / член Л Д П Р /
член «Единой России» и т.д.; поддерживает кандидата
А /
кандидата
В /
кандидата Q. К неметрическим относятся также порядковые перемен
ные с небольшим числом категорий. Порядковые переменные ранжи
руют объекты по интенсивности определенного признака (например,
интенсивность интереса к политике: низкая / средняя / высокая).
Анализ связей между переменными предполагает получение отве
та на три основных вопроса:
• Существует ли связь между переменными?
• Какова интенсивность (плотность) связи между переменными,
если она существует?
• Какова направленность (характер) этой связи?
8 - 3863
114
Глава 4. Статистические методы в политическом анализе
Таблицы сопряженности
Наиболее простым и распространенным способом выявления связи
между категориальными переменными является построение
таблиц
сопряженности,
которые показывают, сколько случаев относится од
новременно и к определенной категории переменной
А,
и к опреде
ленной категории переменной
В.
Предположим, имеется две номинальные переменные: 1) пол ре
спондента с категориями «мужской» и «женский»; 2) политические
предпочтения респондента с категориями «поддержка кандидата в
президенты
А»
и «поддержка кандидата в президенты
В»
(«выбор
кандидата»). Всего опрошено 54 респондента, мужчин и ж е н щ и н
среди них поровну (по 27). К а н д и д а т у р отдали предпочтение 24 ре
спондента, кандидату
В —
30. Возникает вопрос: существует ли связь
между половой принадлежностью респондентов и их выбором меж
ду кандидатом
А
и кандидатом
В?
Чтобы ответить на него, построим
матрицу сопряженности переменных «пол» и «выбор кандидата»
(этот прием называется
кросстабуляцией).
В ней будет четыре кате
гории частот:
1) мужчины, поддерживающие кандидата
А;
2) мужчины, поддерживающие кандидата
В;
3) ж е н щ и н ы , поддерживающие кандидата
А;
4) ж е н щ и н ы , поддерживающие кандидата
В.
Пол мужской
Пол женский
Всего
Кандидат
А
19
5
24
Кандидат
В
8
22
30
Всего
27
27
54
Даже беглого взгляда на матрицу сопряженности достаточно, что
бы убедиться в наличии связи. Так, среди поддерживающих кандида
та
А
явно доминируют мужчины (18 мужчин из 23 случаев), электорат
же кандидата
В
представлен в основном женщинами (21 женщина из
29 случаев).
В рамках анализа таблиц сопряженности мы располагаем рядом
способов сделать понимание связи более глубоким. Первый из них
позволяет вычислить отношения между (1) реально наблюдаемыми
частотами и (2) частотами, которые мы ожидали бы увидеть в том слу
чае, если бы связи не существовало. При отсутствии связи между пе
ременными «пол» и «выбор кандидата» логично ожидать равного вы
бора кандидата
А
и кандидата
В
для каждого пола.
4.2. Анализ связей между неметрическими переменными
1 15
Таблица ожидаемых частот для нашего примера выглядит следую
щим образом:
Пол мужской
Пол женский
Всего
Кандидат
А
12
12
24
Кандидат
В
15
15
30
Всего
27
27
54
Как видим, среди поддерживающих кандидата
А
частота значений
«мужской пол» выше ожидаемой, а частота значений «женский
пол» — ниже. Для кандидата
В
ситуация обратная. Полезно вычис
лить точные отклонения между наблюдаемыми и ожидаемыми часто
тами, вычтя вторые из первых. Полученные разности будут называть
ся
остатками.
Таблица остатков в нашем примере будет иметь вид:
Пол мужской
Пол женский
Кандидат
А
7
- 7
Кандидат
В
-1
7
Еще один способ сделать наше понимание связи между перемен
ными более глубоким — дополнить абсолютные частоты процентны
ми отношениями:
Пол мужской Пол женский
Всего
Частота
19
5
24
Кандидат
А
% от «кандидат»
79,2%
20,8%
100%
Кандидат
А
% от «пол»
70,4%
18,5%
44,4%
% от «всего»
35,2%
9,3%
44,4%
Частота
8
22
30
Кандидат
В
% от «кандидат»
26,7%
73,3%
100%
Кандидат
В
% от «пол»
29,6%
81,5%
55,6%
% от «всего»
14,8%
40,7%
55,6%
Частота
27
27
54
Всего
% от «кандидат»
50%
50%
100%
Всего
% от «пол»
100%
100%
100%
% от «всего»
50%
50%
100%
Из приведенной таблицы следует, в частности, что кандидата
А
поддерживают 19 из 27, или 70%, опрошенных мужчин. Этого же кан
дидата поддерживает 5 из 27, или 18%, опрошенных женщин. Доля
мужчин в совокупном электорате кандидата
А
составляет 79%, доля
женщин — 2 1 % . Среди всех опрошенных доля мужчин, поддержива-
8'
116
Глава 4. Статистические методы в политическом анализе
ющих кандидата
А,
составляет 35%, ж е н щ и н — 9%. Аналогичным об
разом оценивается и распределение мужской и женской поддержки
для кандидата
В.
Наиболее показательными с точки зрения оценки связи между пе
ременными являются доли мужчин и ж е н щ и н среди поддерживаю
щих кандидата
А
и
В
соответственно (в таблице эти значения выделе
н ы ж и р н ы м ш р и ф т о м ) . П о этим з н а ч е н и я м м о ж н о построить
наглядную столбчатую гистограмму:
Полученные результаты позволяют сделать вывод не только о на
личии связи, но и о ее характере: мужчины склонны в большей степе
н и , чем ж е н щ и н ы , поддерживать кандидата
А;
женщины, напротив,
в своем большинстве отдают предпочтение кандидату
В.
Меры связи категориальных переменных
С помощью таблиц сопряженности мы получили наглядное представ
ление о сочетаниях категорий переменных и сделали обоснованное
предположение о наличии и характере связи между ними. Однако
нельзя ли дополнительно получить некую единую числовую «меру
уверенности» в том, что связь действительно существует и является
значимой? Кроме того, нет ли возможности выявить числовую меру
интенсивности (плотности) этой связи? Во многих случаях — особен
но если требуется сопоставить связи между различными переменны
ми — единый числовой коэффициент удобнее, нежели обширная ста
тистика таблиц сопряженности.
Действительно, статистические инструменты позволяют получить
ответы на оба вопроса. Существует несколько коэффициентов связи
между категориальными переменными.
Идея, лежащая в основе вычисления к о э ф ф и ц и е н т а х и -
к в а д р а т ( х
2
) , уже была нами затронута при рассмотрении матриц
4.2. Анализ связей между неметрическими переменными
117
сопряженности. Хи-квадрат оценивает значимость различий между
ожидаемыми и наблюдаемыми частотами. Если наблюдаемые значе
ния совпадают с ожидаемыми, переменные считаются взаимно неза
висимыми. Оценивая степень взаимной независимости переменных,
хи-квадрат косвенно устанавливает их зависимость.
Хи-квадрат можно рассчитывать разными путями: чаще всего ис
пользуются
формула Пирсона
и
метод максимального правдоподобия.
Формула Пирсона имеет следующий вид:
где
Уд
— наблюдаемое з н а ч е н и е , ^ — ожидаемое значение.
В нашем случае хи-квадрат по формуле Пирсона равен 14,7. Мно
го это или мало? Чтобы разобраться в этом, следует сначала познако
миться с двумя важными статистическими понятиями:
степень свобо
ды
и
уровень статистической значимости.
Степень свободы (обозначается
df—
от
англ.
degrees of freedom) —
это количество ячеек таблицы, которые могут быть заполнены числа
ми, прежде чем содержание всех остальных ячеек станет постоян
ным
1
. Степень свободы вычисляется по формуле:
где
г —
количество категорий переменной в строке,
с —
количество
категорий переменной в столбце.
Для н а ш е г о п р и м е р а с п е р е м е н н ы м и «пол» и «выбор кандида-
та»
df=
(2 — 1) (2 - 1) = 1 х 1 = 1. Другими словами, в ы я с н и в , что
число мужчин, поддержавших кандидата
А,
составляет 19, мы тем
самым предопределяем з н а ч е н и я во всех остальных ячейках таб
л и ц ы .
Статистическая значимость результата (/^-уровень) представляет
собой меру уверенности в том, что результат не является случайным,
т.е. результат репрезентативен для более широкой выборки. Три ос
новных значения р-уровня, используемых в статистике, — 0,05, 0,01 и
0,001. Если выявленная статистическая связь надежна на уровне 0,05
(5%), имеется не более чем 5%-ная вероятность того, что найденная
связь носит случайный характер и не проявится в генеральной сово
купности. На /7-уровне 0,01 вероятность случайности результата сни
жается до 1 % и т.д.
1
См.:
Мангейм, Дж., Рич, Р.
Политология : методы исследования. С. 422.
118
Глава 4. Статистические методы в политическом анализе
И н т е р п р е т а ц и я к о э ф ф и ц и е н т а хи-квадрат п р о и з в о д и т с я н а
различных /ьуровнях с учетом степени свободы. Имеется специ
альная таблица распределения
у } ,
фрагмент которой приводится
ниже
1
.
df
0,05
0,01
0,001
1
3,841
6,635
10,827
2
5,991
9,210
13,815
3
7,815
11,345
16,266
4
9,488
13,277
18,467
5
11,070
15,086
20,515
Н а п о м н и м , что для случая с п е р е м е н н ы м и «пол» и «выбор кан
дидата» нами был получен к о э ф ф и ц и е н т 14,7. Степень свободы со
ставляет 1. Чтобы быть статистически з н а ч и м ы м на определенном
/ьуровне, хи-квадрат должен превышать значение, указанное в
таблице для д а н н о г о />-уровня при соответствующей степени сво
боды. В нашем примере полученный результат з н а ч и м и на уровне
0,05 (14,7>3,841), и на уровне 0,01 (14,7>6,635), и на уровне 0,001
(14,7>10,827). Таким образом, мы можем быть уверены относи
тельно статистической надежности полученного результата. Суще
ствует не более одного шанса из тысячи, что связь между полом ре
с п о н д е н т о в и п о д д е р ж к о й одного из к а н д и д а т о в я в и т с я
о с о б е н н о с т ь ю и с к л ю ч и т е л ь н о одной изученной в ы б о р к и и не
будет ф и к с и р о в а т ь с я вне ее.
Однако мы еще не получили прямого ответа на вопрос о степени
интенсивности связи между переменными. Это можно сделать, рас
считав несколько специальных к о э ф ф и ц и е н т о в плотности связи
между категориальными переменными, наиболее простым из кото
рых является к о э ф ф и ц и е н т а с с о ц и а ц и и . О н определяет от
ношение разности произведений диагональных ячеек матрицы со
пряженности к их сумме:
1
Ц е л и к о м эта таблица приводится во многих математических и статистических
справочниках. См. также:
Мангейм, Дж., Рич, Р.
Политология: методы исследования
С. 519.
4.2. Анализ связей между неметрическими переменными
119
Схематично для нашего примера это выглядит так:
Пол мужской
П о л ж е н с к и й
Кандидат
А
1 9 ( а ) ~ ^ _ ^ ^ 5 ( 6 )
Кандидат
В
~ - * - 2 2
(d)
К о э ф ф и ц и е н т ассоциации в нашем случае равен 0,79. Для боль
шинства статистических коэффициентов, отражающих плотность
связи, близость к единице (иногда к ±1) отражает высокую степень
связи переменных, близость к 0 — слабую связь или ее отсутствие. Для
коэффициента ассоциации статистически показательным является
значение, превышающее 0,5.
Чтобы лучше понять логику этих вычислений, рассмотрим расчет
коэффициента ассоциации для ожидаемых значений, при которых
связь отсутствует. Вернемся к таблице сопряженности, где указаны
ожидаемые значения сопряженности переменных «пол» и «выбор
кандидата»:
Несложные вычисления покажут, что отношение разности произ
ведений диагональных ячеек и их суммы составит 0/360 = 0.
Существенное ограничение использования коэффициента ассо
циации состоит в том, что обе изучаемые переменные должны быть
номинальными и дихотомическими (альтернативными), т.е. изме
ряться всего двумя взаимоисключающими категориями, охватываю
щими все пространство универсума. Типичной номинальной дихото
мической переменной является «пол»: две категории «мужской» и
«женский» охватывают все возможные состояния признака.
Несколько иной подход к расчету связи неметрических перемен
ных используется при вычислении к о э ф ф и ц и е н т а л я м б д а .
Прежде всего посмотрим на изучаемые переменные «пол» и «вы
бор кандидата» через призму о т н о ш е н и й в л и я н и я . Зависимой пере
менной будет «выбор кандидата», независимой — «пол респонден
та». Лямбда позволит понять, насколько хорошо мы способны
предсказать з н а ч е н и я зависимой п е р е м е н н о й , используя значения
независимой. Д л я этого сначала следует рассмотреть наши шансы
предсказать з н а ч е н и е зависимой п е р е м е н н о й без обращения к неза
висимой.
120
Глава 4. Статистические методы в политическом анализе
В нашем примере кандидата
А
поддерживают 24 человека, или
44,4% всех респондентов, без различения пола. Кандидата
В
поддер
живают 30 человек, или 55,6% респондентов. Если нам придется уга
дывать выбор кандидата в каждом отдельном случае, логично называть
более часто встречающееся значение, т.е. «кандидат
В».
В результате
мы окажемся правы в 55,6% случаях и не правы в 44,4%.
Следующий вопрос состоит в том, сможем ли мы повысить вероят
ность правильного определения выбора респондентов, если будем
учитывать их половую принадлежность. Обратимся еще раз к таблице
сопряженности, которую построили ранее:
Пол мужской
Пол женский
Всего
Кандидат
А
19
5
24
Кандидат
В
8
22
30
Всего
27
27
54
Для респондентов-мужчин логично сделать предположение о под
держке кандидата
А:
в этом случае мы угадаем верное значение 19 раз и
не угадаем 8 раз. Относительно женщин будет уместна гипотеза о выбо
ре кандидата
В —
она подтвердится в 22 случаях и не подтвердится в 5
случаях. В общей сложности мы будем правы 41 раз (41 = 19 + 22; 75,9%
от всех случаев) и не правы 13 раз (13 = 8 + 5; 24,1% от всех случаев).
Теперь сопоставим точность наших прогнозов без учета независи
мой переменной и с учетом таковой:
Верно
О ш и б к а
Без учета пола
30 (55,6%)
24 (44,4%)
С учетом пола
41 (75,9%)
13(24,1%)
Невооруженным глазом видно, что наши предсказания во втором
случае стали существенно точнее: доля ошибки снизилась с 44,4% до
24,1%. Собственно говоря, коэффициент лямбда как раз и дает нам
точную меру сокращения ошибок (улучшения качества прогноза) при
использовании независимой переменной.
Для вычисления меры связи категориальных переменных исполь
зуются также
коэффициент контингенции, коэффициенты взаимной со
пряженности Пирсона и Чупрова.
Способы их расчета можно найти в
большинстве учебников по статистике.
Для переменных, измеренных на порядковом уровне, можно ис
пользовать как охарактеризованные выше техники (таблицы сопря
женности, хи-квадрат, лямбду), так и совершенно иные. Напомним,
что значения переменных порядкового уровня выстраивают объекты
4.2. Анализ связей между неметрическими переменными
121
в соответствии со степенью выраженности признака (больше — мень
ше), и это дает новые возможности для оценки связи.
Основными мерами связи неметрических порядковых перемен
ных являются
гамма (у), d Сомера
и
Тау-б (Т
ь
Кендалла).
Вычисление
каждого из этих критериев основано на одном общем принципе: под
счете количества «инверсий», или «нарушений порядка». Так, отно
шение инверсии возникает в том случае, когда переменные ранжиру
ются в противоположном порядке: возрастанию значений одной
переменной соответствует уменьшение значений другой. Напротив,
соответствием считается однонаправленная вариация переменных:
увеличение значений одной переменной сопровождается увеличени
ем значений другой.
Наиболее простым коэффициентом связи порядковых перемен
ных является гамма, представляющая собой отношение разности со
ответствий и инверсий к их сумме:
где
р—
частота соответствий вариации двух переменных, /— частота
инверсий.
Коэффициент может принимать значение от 1 до - 1 . Модульное
значение коэффициента показывает интенсивность связи: чем ближе
оно к 1, тем связь плотнее. При у = 0 связь отсутствует. Знак «—» или
«+» (последний не записывается) указывает на направление связи. От
рицательные значения у свидетельствуют об обратной (отрицательной)
связи, положительные — о прямой. В таблице ниже приведены приме
ры вариации порядковых переменных, когда: (а) у = 1 и (б) у = - 1 .
( а ) у = 1
(б)
У
= - 1
А
В
А
D
1
3
1
8
1
3
1
8
1
4
1
7
2
4
2
7
2
5
2
6
2
5
2
6
3
6
3
5
3
6
3
5
3
7
3
4
4
7
4
4
4
8
4
3
4
8
4
3