Файл: Akhremenko_A_S_-_Politicheskiy_analiz_i_prognozi.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 12.11.2020

Просмотров: 2498

Скачиваний: 17

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
background image

1 4 0 

Глава 4. Статистические методы в политическом анализе 

числяется линия регрессии. Как и в рамках корреляционного анализа, 

линии регрессии строятся методом наименьших квадратов. 

Чтобы более наглядно проиллюстрировать различия между двумя 

методами анализа данных, обратимся к уже рассмотренному приме­

ру с переменными «поддержка СПС» и «доля сельского населения». 

Исходные данные идентичны. Отличие в диаграммах рассеяния бу­

дет заключаться в том, что в регрессионном анализе корректно от­

кладывать зависимую переменную — в нашем случае «поддержка 
СПС» по оси

 Y,

 тогда как в корреляционном анализе это не имеет 

значения. После чистки выбросов диаграмма рассеяния имеет вид: 

О 20 40 60 до 100 

Сел. нас. 

Принципиальная идея регрессионного анализа состоит в том, что, 

имея общую тенденцию для переменных — в виде  л и н и и регрессии, — 
можно предсказать значение зависимой переменной, имея значения 
независимой. 

Представим обычную математическую линейную функцию. Лю­

бую прямую в евклидовом пространстве можно описать формулой: 

у — Ьх + а, 

где

 а

 — константа, задающая смещение по оси ординат;

 b

 — коэффи­

циент, определяющий угол наклона линии. 

Зная угловой  к о э ф ф и ц и е н т и константу, можно рассчитать (пред­

сказать) значение

 у

 для любого

 х. 

Эта простейшая функция и легла в основу модели регрессионного 

анализа с той оговоркой, что значение

 у

 мы предскажем не точно, а в 

рамках определенного доверительного интервала, т.е. приблизительно. 

Константой является точка пересечения  л и н и и регрессии и оси 

ординат (F-пересечение, в статистических пакетах, как правило, 
обозначаемое «interceptor»). В нашем примере с голосованием за  С П С 

4.5. Регрессионный анализ 

141 

ее округленное значение составит 10,55. Угловой коэффициент

 b

 бу­

дет равен примерно  - 0 , 1 (как и в корреляционном анализе, знак по­

казывает тип связи — прямая или обратная). Таким образом, получен­
ная модель будет иметь вид  С П С = —0,1 х Сел. нас. + 10,55. 

Имея регрессионную формулу, можно рассчитать предсказанные 

значения переменной «поддержка СПС» и сопоставить их с исходны­
ми значениями. Так, для случая «Республика Адыгея» с долей сель­

ского населения 47% предсказанное значение составит 5,63: 

С П С = -0,10 х 47 + 10,55 = 5,63. 

Разность между исходным и предсказанным значениями называет­

ся остатком (с этим термином — принципиальным для статистики — 
мы уже сталкивались при анализе таблиц сопряженности). Так, для 
случая «Республика Адыгея» остаток будет равен 3,92 - 5,63 = —1,71. 
Чем больше модульное значение остатка, тем менее удачно предсказа­
но значение. 

Рассчитываем предсказанные значения и остатки для всех случаев: 

Случай 

Сел. нас. 

С П С 

(исходное) 

С П С 

(предсказанное) 

Остатки 

Республика Адыгея 

47 

3,92 

5,63 

- 1 , 7 1 ~ 

Республика Алтай 

76 

5,4 

2,59 

2,81 

Республика Башкортостан 

36 

6,04 

6,78 

-0,74 

Республика Бурятия 

41 

8,36 

6,25 

2,11 

Республика Дагестан 

59 

1,22 

4,37 

- 3 , 1 5 

Республика Ингушетия 

59 

0,38 

4,37 

3,99 

И

 т.д. 

Анализ  с о о т н о ш е н и я исходных и предсказанных значений служит 

для оценки качества полученной модели, ее прогностической спо­

собности. Одним из главных показателей регрессионной статистики 
является

 множественный коэффициент корреляции R

 —  к о э ф ф и ц и е н т 

корреляции между исходными и предсказанными значениями зави­
симой переменной. В парном регрессионном анализе он равен обыч­
ному  к о э ф ф и ц и е н т у корреляции Пирсона между зависимой и неза­
висимой переменной, в нашем случае — 0,63. Чтобы содержательно 
интерпретировать множественный

 R,

 его необходимо преобразовать 

в

 коэффициент детерминации.

 Это делается так же, как и в корреля­

ционном анализе — возведением в квадрат.  К о э ф ф и ц и е н т детерми­
нации Я-квадрат

 (R

2

)

 показывает долю вариации зависимой пере­

менной, объясняемую независимой (независимыми) переменными. 


background image

1 4 2 

Глава 4. Статистические методы в политическом анализе 

В нашем случае

 R

2

 =

 0,39 (0,63

2

); это означает, что переменная «доля 

сельского населения» объясняет примерно 40% вариации перемен­
ной «поддержка СПС». Чем больше величина  к о э ф ф и ц и е н т а детер­
минации, тем выше качество модели. 

Другим показателем качества модели является

 стандартная ошиб­

ка оценки

 (standard error of estimate). Это показатель того, насколько 

сильно точки «разбросаны» вокруг линии регрессии. Мерой разброса 

для интервальных переменных является стандартное отклонение. Со­
ответственно, стандартная ошибка оценки — это стандартное откло­
нение распределения остатков. Чем выше ее значение, тем сильнее 
разброс и тем хуже модель. В нашем случае стандартная ошибка со­
ставляет 2,18. Именно на эту величину наша модель будет «ошибать­
ся в среднем» при прогнозировании значения переменной «поддерж­

ка СПС». 

Регрессионная статистика включает в себя также

 дисперсионный 

анализ.

 С его помощью мы выясняем: 1) какая доля вариации (дис­

персии) зависимой переменной объясняется независимой перемен­

ной; 2) какая доля дисперсии зависимой переменной приходится на 
остатки (необъясненная часть); 3) каково отношение этих двух вели­
чин (/^-отношение). Дисперсионная статистика особенно важна для 
выборочных исследований — она показывает, насколько вероятно 
наличие связи между независимой и зависимой переменными в гене­

ральной совокупности. Однако и для сплошных исследований (как в 
нашем примере) изучение результатов дисперсионного анализа не­
бесполезно. В этом случае проверяют, не вызвана ли выявленная ста­

тистическая закономерность стечением случайных обстоятельств, 
насколько она характерна для того комплекса условий, в которых на­
ходится обследуемая совокупность, т.е. устанавливается не истин­
ность полученного результата для какой-то более обширной гене­
ральной совокупности, а степень его закономерности, свободы от 
случайных воздействий. 

В нашем случае статистика дисперсионного анализа такова: 

SS 

df 

MS 

/>-значение 

Регрес. 

258,77 

1,00 

258,77 

54,29 

o.oooboooooT 

Остат. 

395,59 

83,00 

4,77 

Всего 

654,36 

/•"-отношение 54,29 значимо на уровне 0,0000000001. Соответ­

ственно, мы можем с уверенностью отвергнуть нулевую гипотезу (что 
обнаруженная нами связь носит случайный характер). 

4.5. Регрессионный анализ 

143 

Аналогичную функцию выполняет критерий

 t,

 но уже в отношении 

регрессионных коэффициентов (углового и F-пересечения). С помо­
щью критерия

 t

 проверяем гипотезу о том, что в генеральной совокуп­

ности регрессионные коэффициенты равны нулю. В нашем случае мы 
вновь можем уверенно отбросить нулевую гипотезу. 

р-значение 

Intercpt 

19,42 

0,0000000000 

Сел. нас. 

-7,37 

0,0000000001 

Множественный регрессионный анализ 

Модель множественной регрессии практически идентична модели 

парной регрессии; разница  л и ш ь в том, что в линейную функцию по­
следовательно включаются несколько независимых переменных: 

Если независимых переменных больше двух, мы не имеем возмож­

ности получить визуальное представление об их связи, в этом плане 
множественная регрессия менее «наглядна», нежели парная. При на­

личии двух независимых переменных данные бывает полезно отобра­

зить на трехмерной диаграмме рассеяния. В профессиональных ста­
тистических пакетах программ  ( н а п р и м е р , Statistica) существует 
опция вращения трехмерной диаграммы, позволяющая хорошо визу­
ально представить структуру данных. 

При работе с множественной регрессией, в отличие от парной, не­

обходимо определять алгоритм анализа.

 Стандартный алгоритм 

включает в итоговую регрессионную модель все имеющиеся предик­
торы.

 Пошаговый алгоритм

 предполагает последовательное включе­

ние (исключение) независимых переменных, исходя из их объясни­
тельного «веса». Пошаговый метод хорош, когда имеется много 
независимых переменных; он «очищает» модель от откровенно сла­
бых предикторов, делая ее более компактной и лаконичной. 

Дополнительным условием корректности множественной регрес­

сии (наряду с интервальностью, нормальностью и линейностью) яв­
ляется отсутствие

 мультиколлинеарности

 — наличия сильных корре­

ляционных связей между независимыми переменными. 

Интерпретация статистики множественной регрессии включает в 

себя все элементы, рассмотренные нами для случая парной регрессии. 

Кроме того, в статистике множественного регрессионного анализа 

есть и другие важные составляющие. 


background image

1 4 4 

Глава 4. Статистические методы в политическом анализе 

Работу с множественной регрессией мы проиллюстрируем на при­

мере тестирования гипотез, объясняющих различия в уровне электо­
ральной активности по регионам России. В ходе конкретных эмпири­

ческих исследований были  в ы с к а з а н ы предположения, что на 
уровень явки избирателей влияют: 

• национальный фактор

 (переменная «русское население»; опера-

ционализирована как доля русского населения в субъектах РФ). 
Предполагается, что увеличение доли русского населения ведет к сни­

жению активности избирателей; 

• фактор урбанизации

 (переменная «городское население»; опера-

ционализирована как доля городского населения в субъектах  Р Ф , с 
этим фактором мы уже работали в рамках корреляционного анализа). 
Предполагается, что увеличение доли городского населения также ве­

дет к снижению активности избирателей. 

Зависимая переменная — «интенсивность избирательной активно­

сти» («актив.») операционализирована через усредненные данные яв­
ки по регионам на федеральных выборах с 1995 по 2003 г. Исходная 

таблица данных для двух независимых и одной зависимой перемен­
ной будет иметь следующий вид: 

Случай 

Переменные

Случай 

Актив. 

Гор. нас. 

Рус. нас. 

Республика Адыгея 

64,92 

53 

68 

Республика Алтай 

68,60 

24 

60 

Республика Бурятия 

60,75 

59 

70 

Республика Дагестан 

79,92 

41 

Республика Ингушетия 

75,05 

41 

23 

Республика Калмыкия 

68,52 

39 

37 

Карачаево-Черкесская Республика 

66,68 

44 

42 

Республика Карелия 

61,70 

73 

73 

Республика Коми 

59,60 

74 

57 

Республика Марий Эл 

65,19 

62 

47 

И т.д. (после чистки выбросов остается 83 случая из 88) 

'  Д а н н ы е по удельному весу городского и русского населения приводятся по офи­

циальным результатам Всероссийской переписи населения 1989 г. 

4.5. Регрессионный анализ 

145 

Статистика, описывающая качество модели: 

1. Множественный

 R =

 0,62; Л-квадрат = 0,38. Следовательно, на­

циональный фактор и фактор урбанизации

 вместе

 объясняют около 

38% вариации переменной «электоральная активность». 

2. Средняя ошибка составляет 3,38.  И м е н н о настолько «в среднем 

ошибается» построенная модель при прогнозировании уровня явки. 

3. /^-отношение объясненной и необъясненной вариации состав­

ляет 25,2 на /ьуровне 0,000000003. Нулевая гипотеза о случайности 

выявленных связей отвергается. 

4. Критерий / для константы и регрессионных коэффициентов пе­

ременных «городское население» и «русское население» значим на 
уровне 0,0000001; 0,00005 и 0,007 соответственно. Нулевая гипотеза о 
случайности коэффициентов отвергается. 

Дополнительная полезная статистика в анализе соотношения ис­

ходных и предсказанных значений зависимой переменной —

 расстоя­

ние Махаланобиса

 и

 расстояние Кука.

 Первое — мера уникальности слу­

чая (показывает, насколько сочетание значений всех независимых 
переменных для данного случая отклоняется от среднего значения по 
всем независимым переменным одновременно). Второе — мера влия­
тельности случая. Разные наблюдения по-разному влияют на наклон 
линии регрессии, и с помощью расстояния Кука можно сопоставлять 
их по этому показателю. Это бывает полезно при чистке выбросов (вы­

брос можно представить как чрезмерно влиятельный случай). 

В нашем примере к уникальным и влиятельным случаям, в частно­

сти, относится Дагестан. 

Случай 

Исходные 

значения 

Предска­

занные 

значения 

Остатки 

Расстояние 

Махаланобиса 

Расстояние 

Кука 

Адыгея 

64,92 

66,33 

-1,40 

0,69 

0,00 

Республика Алтай 

68,60 

69.91 

-1,31 

6,80 

0,01 

Республика Бурятия 

60,75 

65,56 

-4,81 

0,23 

0,01 

Республика Дагестан 

79,92 

71,01 

8,91 

10,57 

0,44 

Республика Ингушетия 

75,05 

70,21 

4,84 

6,73 

0,08 

Республика Калмыкия 

68,52 

69,59 

-1,07 

4,20 

0,00 

Собственно регрессионная модель обладает следующими парамет­

рами: У-пересечение (константа) = 75,99;

 Ь

 (Гор. нас.) =  - 0 , 1 ;

 b

 (Рус. 

нас.) = -0,06. Итоговая формула: 

Актив. =  - 0 , 1 х Гор. нас.„ + -0,06 х Рус. нас.

я

 + 75,99. 

10-3863 


background image

146 

Глава 4. Статистические методы в политическом анализе 

Можем ли мы сравнивать «объяснительную силу» предикторов, 

исходя из значения коэффициента

 61

 В данном случае — да, так как 

обе независимые переменные имеют одинаковый процентный фор­
мат. Однако чаще всего множественная регрессия имеет дело с пере­
менными, измеренными в разных шкалах (к примеру, уровень дохода 

в рублях и возраст в годах). Поэтому в общем случае сравнивать пред­
сказательные возможности переменных по регрессионному коэффи­
циенту некорректно. В статистике множественной регрессии для этой 

цели существует специальный

 бета-коэффициент (В),

 вычисляемый 

отдельно для каждой независимой переменной. Он представляет со­
бой частный (вычисленный после учета влияния всех других предик­

торов) коэффициент корреляции фактора и отклика и показывает не­
зависимый вклад фактора в предсказание значений отклика. В парном 
регрессионном анализе бета-коэффициент по понятным причинам 

равен коэффициенту парной корреляции между зависимой и незави­
симой переменной. 

В нашем примере бета (Гор. нас.) = -0,43, бета (Рус. нас.) = -0,28. Та­

ким образом, оба фактора отрицательно влияют на уровень электо­
ральной активности, при этом значимость фактора урбанизации су­

щественно выше значимости национального фактора. Совокупное 
влияние обоих факторов определяет около 38% вариации переменной 
«электоральная активность» (см. значение Л-квадрат). 

4.6. Кластер-анализ 

К л ас тер - анализ представляет собой группу алгоритмов много­

мерной классификации объектов, под которой понимается упорядочение 

в наглядные структуры или группы сходства/различия объектов, облада­
ющих множеством характеристик.

 В качестве объектов могут высту­

пать не только наблюдения (респонденты, политические партии 
и т.д.), но и переменные. 

Например, в парламентских выборах 17 декабря 1995 г. приняли 

участие 43 избирательных объединения, выборы проводились во всех 
89 регионах России. Наша задача — разбить субъекты Федерации на 
несколько групп по признаку близости политических предпочтений 
избирателей, выявленных в ходе голосования за избирательные объ­

единения и блоки. Наши исходные данные в этом случае составят таб­

лицу с 89 столбцами и 43 строками, всего 3287 (43 х 89) числовых дан­

ных. Даже если мы проведем предварительное «сжатие» данных с 
п о м о щ ь ю группировки или типологизации, например объединим 

4.6. Кластер-анализ 

147 

блоки в несколько идеологически близких групп, — все равно решить 
поставленную задачу будет крайне проблематично. Если, конечно, не 
применять кластер-анализ, который как раз и предназначен для ре­
шения подобного рода проблем. 

Среди различных алгоритмов классификации, объединяемых клас­

тер-анализом, наиболее распространены три —

 иерархический кластер-

анализ

 (tree clustering),

 метод К-средних

 (K-means)

 и двухходовое объеди­

нение

 (two-way joining). Мы рассмотрим первые два алгоритма как более 

активно используемые в анализе политической информации. 

Иерархический кластер-анализ 

Иерархический кластер-анализ организует данные в наглядные «дре­
вовидные» структуры, или

 дендрограммы.

 Пример такой структуры 

приводится ниже; в качестве объектов выступают политические пар­
тии и блоки, упорядоченные с точки зрения близости в пространстве 
голосований в 16 районах Северо-Восточного АО г. Москвы на парла­
ментских выборах 1999 г. 

«Яблоко» 

с п с

  — Г ~

  _ |

 , i 

К П Р Ф

 1

 j 

«Единство» 1! 

«Блок Жиринов- р 

ского» (БЖ) j ; 

«Отечество — вся : 

Россия» (ОВР) | 

0 0,5 1,0 1,5 2,0 

Ось  р а с с т о я н и я 

Это

 горизонтальная

 дендрограмма. На ней расстояния между объ­

ектами и группами объектов (кластерами) различаются по горизон­
тальной оси

1

. Так, наименьшее расстояние зафиксировано между 

объектами партий «Яблоко» и  С П С — они соединены самой корот­
кой ветвью. Вторые по близости —  К П Р Ф и кластер «"Яблоко" — 
СПС». Третьи по близости объекты — «Единство» и «Блок Жиринов­

ского»

2

 и т.д. 

1

 В

 вертикальных

 древовидных диаграммах вертикальные оси представляют рассто­

яние объединения. 

2

 В 1999 г.  Л Д П Р участвовала в федеральных парламентских выборах под этим на­

званием. 

10' 


background image

148 

Глава 4. Статистические методы в политическом анализе 

В древовидной классификации нет четкого правила определения, 

какие объекты входят в один кластер, а какие нет. Все зависит от ис­
следовательского критерия уникальности объектов. Если критерий 

уникальности «слабый», т.е. вы хотите получить минимальное число 
кластеров, можно считать таковыми «"Яблоко" —  С П С —  К П Р Ф » (1) 
и «"Единство" — БЖ — ОВР» (2). Эти два кластера, между прочим, 
будут сильно различаться по плотности: расстояния в первом класте­

ре значительно меньше, чем во втором. 

При более «сильном» критерии уникальности можно рассматри­

вать ОВР как изолированный объект, не входящий ни в один кластер. 
При максимально сильном критерии уникальности можно говорить о 
кластере «"Яблоко" — СПС» и четырех изолированных объектах. 

Создание дендрограммы: вычислительный аспект 

Для указанного примера мы имеем исходные данные в виде процен­
тов голосов, набранных 6 ведущими партиями и избирательными 
объединениями в 16 районах Северо-Восточного АО г. Москвы на вы­
борах депутатов Госдумы 1999 г. Они представлены в таблице. 

Район 

«Яблоко»  «Единство» 

БЖ 

ОВР 

КПРФ 

СПС 

Алексеевский 

10,72 

5,91 

1,94 

39,83 

12,68 

14,91 

Алтуфьевский 

8,13 

7,39 

3,73 

43,57 

10,42 

9,70 

10,75 

Бабушкинский 

8,95 

6,68 

3,04 

42,03 

12,44 

9,70 

10,75 

Бибирево 

9,29 

9,58 

3,21 

40,25 

11,04 

11,09 

Бутырский 

10,04 

6,84 

2,82 

40,51 

12,18 

12,13 

Лианозово 

8,49 

6,73 

3,16 

45,20 

11,46 

9,17 

Лосиноостровский 

9,14 

6,51 

2,41 

43,64 

12,80 

10,60 

10,60 

Марфино 

9,42 

6,55 

2,84 

44,25 

11,51 

10,60 

10,60 

Марьина Роща 

10,00 

6,83 

2,51 

41,07 

12,26 

12,04 

Останкинский 

10,61 

5,78 

1,92 

39,97 

12,31 

14,64 

Отрадное 

9,71 

6,74 

3,38 

42,42 

10,93 

11,07 

Ростокино 

8,98 

6,97 

2,23 

41,66 

11,88 

12,49 

Свиблово 

9,00 

6,38 

2,71 

43,16 

11,17 

11,29 

Северное Медведково 

8,83 

6,67 

3,21 

45,27 

10,70 

9,95 

Южное Медведково 

9,03 6,55 2,89 

44,52 

11,43 

10,11 

Ярославский 

8,54 6,68 2,88 

44,25 

11,50 

10,88 

4.6. Кластер-анализ 

149 

В кластер-анализе используется принцип геометрического представ­

ления, о котором уже говорилось ранее. Мы представляем объекты как 
точки в л-мерной системе координат. В нашем случае каждая партия бу­
дет иметь определенную позицию в 16-мерном (по числу районов) при­

знаковом пространстве. Естественно, если число измерений превышает 
три, мы не можем получить визуальное геометрическое представление. 
Впрочем, это никоим образом не мешает нашему исследованию. 

Создание дендрограммы происходит в два этапа: 

1) построение матрицы расстояний (измерение расстояния между 

всеми парами имеющихся объектов); 

2) построение дендрограммы на основе полученной матрицы рассто­

яний. 

Уже  н а стадии  п о с т р о е н и я  м а т р и ц ы  р а с с т о я н и й воз­

никает возможность выбирать из нескольких вариантов: что именно 
считать расстоянием, какую метрику использовать? В стандартных 
компьютерных программах кластер-анализа мы имеем семь-восемь 
различных

 мер близости

 (или

 мер расстояния — англ.

 distance measure). 

Среди них: евклидово расстояние, взвешенное евклидово расстояние, 
манхэттенское расстояние, расстояние Чебышева, степенное расстоя­
ние, процент несогласия, коэффициент Пирсона. Более подробно ос­
тановимся на евклидовом расстоянии (eucledian distance) и расстоянии, 
основанном на коэффициенте корреляции Пирсона (1 —

 г). 

Евклидово расстояние —

 это кратчайшее расстояние (dist) между 

двумя точками

 х

 и

 у

 в л-мерном евклидовом пространстве. Оно вы­

числяется по простой формуле: 

Так, если мы имеем

 х

 с координатами (1;—1) и

 у

 (2; 0), то расстоя­

ние между ними составит: 

dist

 = V

  ( 1 - 2 )

2

+  ( - 1 - 0 )

2

 = 2. 

Используя эту формулу, можно подсчитать все парные расстояния 

для наших исходных данных и получить матрицу расстояний: 

«Яблоко»  «Единство» 

Б Ж 

ОВР 

К П Р Ф 

С П С 

«Яблоко» 
«Единство» 

11,17 

Б Ж 

26,37 

16,21 

ОВР 

133,53 

143,45 

159,31 

К П Р Ф 

9,8 

20,14 

35,74 

124,05 

С П С 

9,08 

19,8 

35,03 

125,71 

5,28