ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 12.11.2020
Просмотров: 2503
Скачиваний: 17
!6С
Глава 4. Статистические методы в политическом анализе
Продолжение
Путин Примаков Зюганов Явлинский Жири
новский Ельцин
Сдержанность, рассуди
тельность
22,2
27,8
20,6
17,5
0,8
11,1
Волевые качества, муже
ственность
35,9
7,8
12,5
7,8
18,0
18,0
Культура, образован
ность
18,0
26,1
10,8
37,8
2,7
4,5
Государственный подход
к решению проблем
23,5
27,5
19,6
12,7
5,9
10,8
Четкая, последователь
ная политическая линия
19,4
16,5
14,6
31,1
16,5
7,8
8,7
Стремление к порядку и
законности
31,5
16,5
14,6
20,2
12,4
14,6
6,7
Независимость
11,9
10,9
9,9
18,8
29,7
18,8
Честность, порядочность 20,2
33,3
22,6
14,3
2,4
7,1
Личное обаяние
32,9
16,5
6,3
20,3
12,7
11,4
Опыт хозяйственной
деятельности
6,0
28,6
20,2
10,7
3,6
31,0
Уважительное отноше
ние к простым людям
19,6
14,3
41,1
12,5
3,6
8,9
7,0
Готовность защищать ин
тересы простых людей
19,3
12,3
38,6
10,5
12,3
8,9
7,0
Гибкость, способность
к компромиссам
19,3
21,1
8,8
21,1
10,5
19,3
13,6
Открытость, доступность 18,2
9,1
20,5
11,4
27,3
19,3
13,6
Бескорыстность
18,2
1
18,2
13,6
22,7
9,1
18,2
Используя эти данные, мы можем оценить сходство/различия обра
зов политиков в многомерном пространстве дескрипторов, эти образы
фиксирующих. В результате образы политиков становятся объектами
(наблюдениями) многомерной классификации, а дескрипторы — клас
сифицирующими переменными.
4.6. Кластер-анализ
161
Используя и е р а р х и ч е с к и й кластер-анализ, получим д е н д р о -
грамму:
0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0
Отдельный кластер образуют образы Путина и Жириновского,
причем этот кластер наиболее удален от всех остальных объектов.
Также отдельный кластер формируют образы Примакова и Явлинско
го. Образы Зюганова и Ельцина можно рассматривать и как кластер,
и как два изолированных объекта — «расстояние» между ними доста
точно велико.
На п е р в ы й взгляд, полученные результаты вызывают удивление
(особенно близость Ж и р и н о в с к о г о и Путина). П р о в е р и м их с по
м о щ ь ю метода К-средних. При р а з б и е н и и на два кластера полу
чим:
Кластер
Расстояние
Путин
2
6,9
Примаков
1
6,2
Зюганов
1
8,9
Явлинский
1
6,8
Жириновский
2
6,9
Ельцин
1
8,1
Эти данные в целом соответствуют результатам, полученным с по
мощью древовидной кластеризации. Так, совершенно четко выделен
кластер, включающий образы Путина и Жириновского. Образы Яв
линского и Примакова значительно ближе к центру второго кластера
(6,8 и 6,2), чем образы Ельцина (8,1) и Зюганова (8,9). Причины появ
ления именно такой картины сходства образов вытекают из результа
тов дисперсионного анализа, представленных в таблице:
11 - 3863
162
Глава 4. Статистические методы в политическом анализе
Межгрупповая
дисперсия
Внутригрупповая
дисперсия
/•-отноше
ние
Опыт политической деятельности
228,85
44,67
20,49
Ахтивность, энергичность
1011,84
52,23
77,49
Профессиональные, интеллектуаль
ные качества
90,02
381,80
0,94
Умение связно излагать свои мысли
34,76
274,38
0,51
Сдержанность, рассудительность
79,84
373,68
0,85
Волевые качества, мужественность
317,43
231,48
5,49
Культура, образованность
119,31
797,42
0,60
Государственный подход к решению
проблем
11,53
326,80
0,14
Четкая, последовательная политичес
кая линия
28,36
328,73
0,35
Стремление к порядку и законности
121,62
235,45
2,07
Независимость
51,06
230,12
0,89
Честность, порядочность
86,10
540,32
0,64
Личное обаяние
112,30
315,25
1,42
Опыт хозяйственной деятельности
425,17
255,10
6,67
Уважительное отношение к простым
людям
76,80
782,05
0,39
Готовность защищать интересы про
стых людей
2,31
654,82
0,01
Гибкость, способность к компромис
сам
9,23
143,12
0,26
Открытость, доступность
110,19
113,64
3,88
Бескорыстность
27,55
82,64
1,33
В этом примере, как и в предыдущем, переменные очень неравно
мерно распределены по «вкладу» в формирование кластеров. Так, аб
солютным «лидером» является дескриптор, связанный с активностью
и энергичностью (/-отношение равно 77,5). Если мы посмотрим на
исходные данные, то увидим: именно эти качества в наибольшей сте
пени выражены, по мнению респондентов, у Путина и Жириновско
го. Кроме того, их образы объединяет высокая оценка волевых ка
честв, а это также «весомый» дескриптор (/"-отношение равно 5,5). По
двум другим «сильным» дескрипторам — политическому (20,5) и хо
зяйственному (6,7) опыту — образы Жириновского и Путина сущест
венно уступают образам других политиков (не будем забывать, что оп-
4.7. Д и с к р и м и н а н т н ы й анализ
163
рос проводился в начале 2000 г., совпавшем с началом первого прези
дентского срока Путина).
Разумеется, полученные результаты позволяют сделать еще целый
ряд выводов. Кроме того, на материале исследования качеств полити
ческих лидеров можно составить представление о структуре самих
дескрипторов: какие группы сходства они образуют. К этой теме мы
еще вернемся в рамках изучения факторного анализа.
4.7. Дискриминантный анализ
Дискриминантный анализ, наряду с алгоритмами кластер-анализа,
относится к методам многомерной классификации. Однако если кла
стер-анализ устанавливает близость/удаленность объектов в много
мерном признаковом пространстве,
то дискриминантный ана
лиз определяет принадлежность объекта к одной из нескольких (как
правило, двух) заданных заранее групп.
Многомерный характер метода
объясняется тем, что решение о принадлежности объекта к группе оп
ределяется на основе анализа его значений по нескольким независи
мым переменным. Иначе говоря, дискриминантный анализ устанав
ливает, какие переменные лучше всего различают (дискриминируют)
две или более группы. Группирующая переменная имеет порядковое
или номинальное измерение, как в уже изученном нами примере с ак
тивными и пассивными избирателями.
В такой формулировке цель дискриминантного анализа похожа на
цель дисперсионного анализа, но дискриминантный анализ является
гораздо более м о щ н ы м статистическим инструментом. Во-первых, в
данном методе корректно использовать независимые переменные,
измеренные и на порядковом, и на номинальном уровнях, и — что
особенно важно — на интервальном уровне. Так, в дисперсионном
анализе переменную «возраст» мы были вынуждены приводить к по
рядковому виду (младший — средний — старший), что имело след
ствием потерю информации и ухудшение качества классификации.
Очевидно, что интервальная переменная «возраст» является лучшим
предиктором участия в выборах, чем вероятность «человек старшего
возраста скорее пойдет на выборы, чем человек младшего возраста».
Во-вторых, дискриминантный анализ использует несколько незави
симых переменных, выстраивает целостную модель классификации
объектов.
Модель дискриминантного анализа
очень напоминает модель мно
жественной регрессии (в целом дискриминантный анализ как бы
и *
164
Глава 4. Статистические методы в политическом анализе
«вбирает в себя», синтезирует черты нескольких более простых мето
дов, изученных нами ранее). В центре дискриминантного анализа —
вычисление так называемой
дискриминантной функции.
По аналогии с
регрессией она рассчитывается как сумма «вклада» факторных пере
менных в изменение зависимой переменной:
где
d
— значение дискриминантной функции, по которому судят о
принадлежности объекта к тому или иному классу;
Xj — x
n
—
значения
переменных, соответствующих рассматриваемым случаям;
bj — Ь
п
—
к о э ф ф и ц и е н т ы , определяющие вклад каждой независимой перемен
ной в итоговый результат;
а —
константа.
И м е н н о коэффициенты вклада и константу рассчитывает дискри-
минантный анализ, причем таким образом, чтобы значение функции
(d)
с максимально возможной точностью показывало принадлеж
ность объекта к классу.
Расчет дискриминантной функции может осуществляться тремя
основными способами:
• стандартным,
предполагающим включение в анализ всех неза
висимых переменных одновременно;
• пошаговым с включением,
предполагающим включение в модель
на первом шаге переменной, которая лучше всего дискриминирует за
висимую переменную, на втором — вторую по «вкладу» независимую
переменную и т.д.;
• пошаговым с исключением,
когда все переменные будут сначала
включены в модель, а затем на каждом шаге будут удаляться вносящие
малый вклад в предсказания. Этот метод оптимален, когда исследова
тель желает оставить в модели только те факторы, которые являются
сильными предикторами зависимой переменной.
Стандартный метод, как правило, используется в том случае, если
число независимых переменных относительно невелико и каждая из
них обладает предсказательной силой по отношению к зависимой пе
ременной. В ситуации поискового исследования (когда в анализ вклю
чается большое число переменных, причем в отношении «предсказа
тельной силы» многих из них сформулированы л и ш ь самые общие
предположения) рекомендуется пошаговый метод с исключением. Он
позволит «очистить» модель от явно слабых предикторов. К тому же
всегда полезно сопоставление результатов, полученных разными мето
дами.
Рассмотрим пример. Пусть зависимой (группирующей) перемен
ной, как и ранее, будет участие/неучастие в выборах. Это номиналь-
4.7. Дискриминантный анализ
165
ная дихотомическая переменная с двумя значениями: 0 (неучастие);
1 (участие). В качестве независимых переменных возьмем:
• Возраст — интервальная переменная, годы;
• Пол — номинальная переменная
(1
— мужской,
2
— женский);
• Доход — интервальная переменная, тыс. руб.
Имеем следующие исходные данные (пример учебный):
№
Возраст
Пол
Доход Участие
№
Возраст
Пол
Доход Участие
87
1
10
1
16
77
2
4
1
19
1
I
0
17
35
2
6
1
з
35
1
2
0
18
51
2
0,9
1
г *
42
1
0,6
0
19
40
2
12
1
5
19
1
3
0
20
33
2
2
6
38
2
5
1
21
21
1
8
1
7
54
2
8
1
22
84
1
2
1
8
76
2
3
1
23
67
1
4
1
9
22
2
2
0
24
24
1
1
10
34
2
2,5
0
25
43
1
1,5
1
11
60
1
2
1
26
39
2
9
1
12
20
1
3
0
27
45
2
6
1
13
54
1
0,7
0
28
55
2
7
1
14
48
1
0,5
0
29
70
2
2,2
1
15
35
1
0,9
0
30
46
2
3
1
Вычислительный алгоритм дискриминантного анализа относи
тельно сложен, и мы не будем здесь рассматривать его подробно. Ска
жем лишь, что в нем используются элементы дисперсионного анали
за, а ключевые вычислительные процедуры базируются на алгоритмах
канонического анализа.
Этот метод, к а к и изученный нами метод Пир
сона, выявляет корреляции, но не между двумя переменными, а меж
ду двумя множествами переменных.
Остановимся на интерпретации ключевых позиций весьма обшир
ной итоговой статистики дискриминантного анализа.
В первую очередь (как и в регрессионном анализе) рассматривает
ся статистика, свидетельствующая о качестве полученной модели.
Сначала анализируется дисперсионная статистика для изучаемых пе
ременных, которая включает:
• таблицу средних значений каждой переменной для: (а) группы
«неучаствующих» (участие = 0), (б) группы «участвующих» (участие = 1)
и (в) обеих групп вместе;
166
Глава 4. Статистические методы в политическом анализе
•значения теста на значимость различий средних переменных в
группах «участвующих» и «неучаствующих». В качестве тестовой вели
чины в дискриминантном анализе обычно служит лямбда
(X)
Уилка
(Wilk's Lambda), иногда используется и простой дисперсионный анализ.
Средние значения переменных
Группа
Возраст
Пол
Доход
Участие = 0
54,89
1,67
5,2
Участие = 1
32,08
1,25
9,73
Обе группы
45,77
1,5
7,01
Значимость различий средних значений
Лямбда Уилка
/)-значение
Возраст
0,619915
0,000305
Пол
0,408189
0,123504
Доход
0,538459
0,002121
Гипотеза о различии средних полностью подтвердилась для пере
менных «возраст» и «доход». Переменная «пол» не проходит тест на
уровне /КО,05, однако пока что (в учебных целях) оставим ее в модели.
Теперь можно сделать предположение об «удельном весе» каждой пе
ременной в конечной дискриминантной функции, исходя из /ьзначения
лямбды Уилка. Так, наибольший вклад в дискриминацию внесет пере
менная «возраст», для которой
р-
значение самое низкое — 0,000305. На
втором месте «доход», на третьем — с большим отставанием — «пол».
Рассчитанные коэффициенты самой дискриминантной функции
представлены в стандартизированном и нестандартизированном виде
(округлены до второго знака после запятой); в статистических про
граммах они обозначаются как Standardized (Unstandardized)
Canonical Discriminant Function Coefficients.
Стандартизированные коэффициенты
Нестандартизированные коэффициенты
Возраст
0,85
Возраст
0,05
Пол
0,38
Пол
0,81
Доход
0,74
Доход
0,29
Константа
-4,69
Нестандартизированные к о э ф ф и ц и е н т ы — это те, по которым,
собственно, и рассчитываются значения дискриминантной функции
(множители заданных значений переменной). В нашем случае:
4.7. Дискриминантный анализ
167
d =
0,05 х Возраст,, + 0,81 х Пол„ + 0,29 х Доход,- - 4,69.
Нестандартизированные коэффициенты нельзя сравнивать непо
средственно. Фактически это прямой аналог коэффициента
b
в множе
ственном регрессионном анализе. Стандартизированные же коэффици
енты отражают «вклад» каждой независимой переменной в изменение
зависимой и в этом отношении являются прямыми аналогами бета-ко
эффициентов множественной регрессии. Наши предположения, осно
ванные на анализе дисперсионной статистики, подтвердились: самым
весомым фактором оказался возраст (стандартизированный коэффици
ент 0,85), несколько слабее фактор уровня доходов (0,74), существенно
слабее — фактор половой принадлежности (0,38).
Используя нестандартизированные к о э ф ф и ц и е н т ы , мы можем
вычислить все значения дискриминантной функции для наших слу
чаев. К примеру, значение
d
для случая 1 составит:
d=
3,54 = 0,05 х 87 + 0,81 х 1 + 0,29 х 10 - 4,69.
Для случая
2d=
- 2 , 6
= 0,05 х 19 + 0,81 х 1 + 0,29 х 1 - 4,69 и т.д.
№
Возраст Пол Доход Участие
d
№
Возраст Пол Доход Участие
d
1
87
1
10
1
3,54
16
77
2
4
1
2,11
2
19
1
1
0
-2,60
17
35
2
6
1
0,49
3 ~ 3 5 ~ ~
1
2
0
-1,47
18
51
2
0,9
1
-0,14
4
42
1
0,6
0
-1,51
19
40
2
12
1
2,47
5
19
1
3
0
-2,02
20
33
2
2
-0,76
6
38
2
5
1
0,36
21
21
1
8
1
-0,49
7
54
2
8
1
2,05
22
84
1
2
1
1,09
8
76
2
_____
3
_____
1
1,77
23
67
1
4
1
0,77
9
22
0
-1,34
24
24
1
1
-2,34
10
34
2
2,5
0
-0,57
25
43
1
1,5
1
-1,20
11
60
1
2
1
-0,17
26
39
2
9
1
1,55
12
20
1
3
0
-1,97
27
45
2
6
1
1,01
13
54
1
0,7
0
-0,85
28
55
2
7
1
1,82
14
48
1
0,5
0
-1,22
29
70
2
2,2
1
1,23
15
35
1
0,9
0
-1,79
30
46
2
3
1
0,20
Но каким образом по значению функции определить, к какой
группе принадлежит объект? Для этого рассчитываются так называе-
168
Глава 4. Статистические методы в политическом анализе
мые
групповые центроиды дискриминантной функции.
Делается это
очень просто: рассчитываются средние значения дискриминантной
функции для группы «участвующих» (участие = 1) и для группы
«неучаствующих» (участие = 0). В нашем случае:
Групповые центроиды
Участие = 0
-1,54
Участие = 1
1,03
Именно групповые центроиды являются «критериями» для отне
сения объекта к той или иной группе. Вычисляется расстояние между
значением дискриминантной функции в конкретном случае и обоими
центроидами. Если значение ближе к центроиду группы «участие =
0», объект классифицируется как принадлежащий к группе «неучаст
вующих», и наоборот.
Наличие подсчитанных значений дискриминантной функции по
зволяет дополнительно оценить качество модели. Так, мерами удач-
ности дискриминантной функции служат:
• канонический корреляционный коэффициент
между ее значениями
и показателем принадлежности к группе. В нашем примере он равен
0,793, что свидетельствует о достаточно высоком качестве модели;
•лямбда Уилка,
показывающая, значимо ли в обеих группах (учас
твующих и неучаствующих) различие в средних значениях дискрими
нантной функции. В нашем случае
р
= 0,0000009, что свидетельствует
об очень высокой значимости;
• собственное значение
(eigenvalue), соответствующее отношению сум
мы квадратов между группами к сумме квадратов внутри групп. Это зна
чение можно получить, проведя дисперсионный анализ значений дис
криминантной функции по переменной «участие». Чем больше
собственное значение (относительно 1), тем лучше подобрана функция.
В нашем случае eigenvalue = 1,69, что также можно считать хорошим по
казателем.
Однако наиболее комплексным показателем качества модели явля
ется сопоставление результатов классификации, произведенной с помо
щью дискриминантной функции по значениям независимых перемен
ных, и исходных значений зависимой переменной. Проще говоря, нас
интересует процент соответствия предсказаний модели и истинных зна
чений. В нашем случае модель неверно классифицировала два случая из
30, что составляет 6,6%. Правильно классифицированных случаев — 28,
или 93,3%:
4.8. Факторный анализ
169
Результаты классификации
Предсказания
Всего
Участие = 0
Участие = 1
Исходные
12
0
12
Исходные
2
16
18
%
100
0
100
%
11,11
88,89
100
Всего
93,3% случаев классифицированы корректно
Как видно из итоговой таблицы, два «активных» избирателя были
ошибочно классифицированы как «пассивные» (в нашем примере это
случаи 21 и 25). Постарайтесь самостоятельно определить, почему
именно эти случаи оказались «ошибочными».
Если бы мы использовали для тех же самых данных пошаговый
анализ с исключением, то переменных в модели оказалось бы всего
две: «возраст» и «доход». При этом ее качество снизилось бы очень не
существенно. Это означает, что обычно интервальные переменные
являются куда лучшими предикторами, чем номинальные.
Стандартный метод
(три переменные в модели)
Пошаговый метод
с исключением
(две переменные в модели)
р-значение лямбды Уилка
0,0000009
0,000006
Канонический коэффици
ент корреляции
0,793
0,769
Собственное значение
1,69
1,45
Процент корректно клас
сифицированных случаев
93,3
93,3
4.8. Факторный анализ
Факторный анализ является одним из наиболее мощных статистиче
ских средств анализа данных. В его основе лежит процедура объеди
нения групп коррелирующих друг с другом переменных («корреляци
онных плеяд» или «корреляционных узлов») в несколько факторов.
И н ы м и словами,
цель факторного анализа — сконцентриро
вать исходную информацию, выражая большое число рассматриваемых
признаков через меньшее число более емких внутренних характеристик,
которые, однако, не поддаются непосредственному измерению
(и в этом
смысле являются
латентными).
Для примера гипотетически представим себе законодательный ор
ган регионального уровня, состоящий из 100 депутатов. В числе раз-