ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 12.11.2020
Просмотров: 2490
Скачиваний: 17
ГЛАВА 4
Статистические методы в политическом анализе
Статистические методы давно и прочно заняли одну из центральных
позиций в методическом арсенале политического анализа. Как будет
показано, статистика позволяет решать множество разнообразных за
дач, обеспечивая исследователя точными количественными характе
ристиками различных свойств совокупностей объектов. Причем мно
гие из этих количественных характеристик отражают скрытые,
неявные свойства и связи, которые невозможно обнаружить «нево
оруженным глазом».
Статистические методы помогают обрабатывать очень большие
массивы данных. В современном мире, перенасыщенном информа
цией, это чрезвычайно полезное свойство. Именно статистические
подходы лежат в основе большинства методов Data Mining
(англ.) —
«раскопки данных», поиска практически полезных и нетривиальных
сведений в большом объеме сырой информации.
Ниже приводятся перечень и краткая характеристика «типовых за
дач», которые способна решать статистика в политическом анализе и
прогнозировании.
1.
Получение усредненных данных.
Как правило, в процессе исследо
вания бывает важно не только получить характеристики отдельных
объектов, но взглянуть на их совокупность в целом через призму ка
кого-то конкретного свойства. Вместо большого числа отдельных по
казателей нам требуется одно значение, которое было бы типичным
для всей совокупности объектов. Каково отношение «среднего» рос
сиянина к перспективам вступления России в ВТО? Принадлежность
к какой социальной или возрастной группе наиболее типична для
членов определенной партии? Сколько раз в среднем в месяц студен
ты смотрят общественно-политические телепрограммы? Ответы на
эти вопросы дает анализ одномерных распределений, в частности
Глава 4. Статистические методы в политическом анализе
103
подсчет средних величин для разных уровней измерения. Анализ од
номерных распределений позволяет заодно установить, насколько ти
пичное значение в действительности типично, репрезентативно по
отношению к совокупности данных.
2.
Оценка связей между переменными.
Утверждение о наличии стати
стической связи между переменными правомочно в том случае, если
изменение значений одной переменной приводит к изменению рас
пределения другой
1
. Для порядковых и интервальных переменных по
нятие связи более определенно: связанные переменные обладают
общностью вариаций. Возрастание значений одной переменной будет
соответствовать возрастанию (и тогда связь будет положительной, или
прямой) или уменьшению (связь будет отрицательной, или обратной)
значений другой переменной. Наличие связи позволяет делать пред
положения относительно зависимой переменной на основании ин
формации о независимой.
В статистическом анализе такие предсказания никогда не будут
стопроцентно точными, случаи однозначного соответствия значений
переменных практически не встречаются. Речь идет скорее об увели
чении шансов получить правильный ответ относительно значений
зависимой переменной на основании значений независимой перемен
ной. Например, мы можем объяснить определенную часть всех случа
ев (долю вариации) голосования за либеральные политические партии
с помощью независимой переменной «принадлежность к городскому
населению».
Статистические методы позволяют ответить на вопрос об интен
сивности (плотности, тесноте) связи между переменными. Числен
ная оценка интенсивности будет называться
коэффициентом связи;
для разного типа переменных вычисляются разные коэффициенты,
их общее количество в статистике достаточно велико.
3.
Классификация.
Ряд статистических техник дает возможность
соотнести исследуемые объекты с н е с к о л ь к и м и заранее определен
н ы м и классами. Н а п р и м е р , м о ж н о выделить класс граждан, участ
вующих в выборах, и класс не участвующих в них (абсентеистов).
Далее, о п и р а я с ь на ряд характеристик (возраст, уровень образова
н и я , п р о ж и в а н и е в городе/на селе и т.д.), исследователь может
предсказать с определенной долей вероятности принадлежность ре
спондентов к одному или другому классу. В п р и н ц и п е , задачу клас
с и ф и к а ц и и можно считать ч а с т н ы м случаем задачи обнаружения
связи: в н а ш е м примере мы устанавливаем связь переменных «воз-
См.: Статистика : учебник / П о д ред. И.И. Елисеевой. М., 2006. С. 77.
104
Глава 4. Статистические методы в политическом анализе
раст» (интервальная), «уровень образования» (порядковая), «про
живание в городе или на селе» (номинальная) с н о м и н а л ь н о й пере
м е н н о й «участие в выборах».
4.
Кластеризация.
Под кластеризацией понимается разбиение
объектов на группы по критерию их близости в определенном про
странстве п р и з н а к о в . Например, нас интересуют три признака, ха
рактеризующие идеологию политических партий: степень поддерж
ки д е й с т в у ю щ е г о п о л и т и ч е с к о г о руководства с т р а н ы , видение
социальной роли государства, восприятие западных демократий в
качестве оптимальной модели политического устройства России.
С п о м о щ ь ю определенных статистических процедур мы можем вы
яснить, какие партии будут близки друг к другу в пространстве всех
этих п р и з н а к о в одновременно. Кластеризация отличается от клас
с и ф и к а ц и и тем, что в первом случае заранее определенные классы
отсутствуют.
5.
Редукция данных.
Слово «редукция» означает сокращение, сжа
тие. Решение этой задачи важно в ситуации, когда объекты измерены
большим числом переменных и исследователь ищет способ сгруппи
ровать их по какому-то смысловому признаку. К примеру, при изуче
нии образов политических лидеров используется большое число при
знаков описания (так называемых дескрипторов): интеллектуальные
качества, энергичность, опыт, волевые качества, честность, личное
обаяние и т.д. Чтобы сделать описание более компактным, мы можем
объединить отдельные признаки в группы, основываясь на выявле
н и и скрытых связей между ними. Способность статистических тех
н и к решать задачи редукции данных обусловливает их высокую по
лезность в качестве методов Data Mining.
Существуют статистические методы, которые приспособлены к
р е ш е н и ю какой-то одной из указанных задач, а также многофунк
ц и о н а л ь н ы е , «многозадачные» техники. Ниже мы рассмотрим при
меры тех и других. Следует оговориться, что наше изложение стати
стических методов не преследует цель заменить отдельный курс
статистики (который совершенно необходим для современного по
литолога). Н а ш е й задачей будет, во-первых, продемонстрировать
палитру тех возможностей, которые открывает перед политическим
аналитиком статистика; во-вторых, дать ясное представление о
практическом использовании ряда наиболее полезных и распро
страненных техник.
4.1. Анализ одномерных распределений
105
4.1. Анализ одномерных распределений
Когда мы говорим об анализе одномерных распределений, то име
ем в виду анализ свойств распределения значений
одной
перемен
ной. Вопросы, ответы на которые мы находим в процессе одномер
ного анализа, могут звучать п р и м е р н о т а к и м образом: к а к о в а
поддержка населением действующего президента в целом по стра
не? насколько т и п и ч н а эта усредненная поддержка, насколько она
отражает показатели поддержки в различных регионах или среди
различных социальных групп? каков о б щ и й размах колебаний этой
поддержки, в каких пределах она варьируется? не отражает ли фор
ма распределения поддержки по с о ц и а л ь н ы м группам наличия по
литического раскола в обществе? Во всех случаях мы имеем дело с
одной п е р е м е н н о й — «поддержка действующего президента населе
нием», — со з н а ч е н и я м и , которая д а н н а я переменная принимает в
отдельных случаях.
Наиболее важными операциями в рамках одномерного анализа яв
ляются, во-первых, вычисление средней с определением степени
разброса данных вокруг нее, во-вторых — определение формы рас
пределения значений переменной.
Средние величины и меры разброса
Средняя величина является в большинстве случаев весьма инфор
мативной мерой «центрального положения» наблюдаемой перемен
ной. Она позволяет оценивать и сравнивать свойства не отдельных
объектов, но
групп объектов в целом.
Н а п р и м е р , мы проводим опрос
среди студентов одной учебной группы с целью выявить их полити
ческую с а м о и д е н т и ф и к а ц и ю в качестве «левых», «либералов», «на
ционал-патриотов» и «центристов». Всего опрашивается 15 чело
век, каждый респондент относит себя к той или и н о й категории
политических взглядов. Соответственно, по итогам исследования у
нас будет ясное представление о политической самоидентифика
ции каждого из студентов курса, т.е. о том, какие значения прини
мает п е р е м е н н а я «политическая самоидентификация» в каждом из
15 изученных случаев.
Но почти наверняка мы захотим получить информацию не только
о взглядах каждого отдельного студента, но и о том: 1) как распреде
лены студенты по категориям политических убеждений в группе в це
лом; 2) какова «средняя» политическая самоидентификация группы в
целом. И здесь мы вступаем на путь статистических расчетов.
106
Глава 4. Статистические методы в политическом анализе
Переменная «политическая самоидентификация» является номи
нальной: мы попросту распределяем совокупность изучаемых объек
тов (15 респондентов) по четырем категориям, каждой из которых
произвольно присваивается числовой код. Например: 1 — «левые»,
2 — «либералы», 3 — «национал-патриоты», 4 — «центристы». Пред
положим, по итогам опроса мы получаем следующий ряд значений:
( 2 , 3 , 4 , 4, 1, 1, 1,4, 4 , 2 , 2 , 3 , 3 , 4 , 2).
Для превращения этих данных в осмысленную статистическую
картину необходимо прежде всего рассчитать
частотное распределе
ние
— показатель того, сколько раз встречается каждое из значений
переменной. В нашем случае частота значения 1 («левые») составит 3,
значения 2 («либералы») — 4, значения 3 («национал-патриоты») —
3, з н а ч е н и я 4 («центристы») — 5. На о с н о в а н и и частотного распре
деления легко вычислить
процентное соотношение
респондентов,
принадлежащих к четырем категориям политической самоиденти
ф и к а ц и и .
Таблица частот для нашего примера будет иметь следующий вид:
Категория
Частота
% от всех случаев
1 («левые»)
3
20%
2 («либералы»)
4
26,7%
3 («национал-патриоты»)
3
20%
4 («центристы»)
5
33,3%
Подобного рода данные удобно визуализировать, сделать нагляд
н ы м и при п о м о щ и построения
круговой диаграммы
или
столбчатой
гистограммы.
Следует подчеркнуть, что визуализация данных в ста
тистике сама по себе является аналитической процедурой. Сделав
данные наглядными, мы сможем обнаружить скрытые в них законо
мерности.
Для нашего примера:
Круговая диаграмма Столбчатая гистограмма
4.1. Анализ одномерных распределений
1 0 7
Мы выяснили характер распределения студентов по категориям по
литических предпочтений в группе, теперь следует определиться со
средней величиной. На номинальном уровне измерения средняя вели
чина определяется на основе частотного распределения. Это попросту
наиболее часто встречающееся значение, именуемое
модой
(модальным
значением). В нашем случае модой является 4; иными словами, в груп
пе наиболее распространены центристские убеждения. Имеющееся
распределение будет называться
унимодальным,
так как значение моды
всего одно. В ситуации, когда модальных значений несколько, распре
деление является
мультимодалъным.
Наконец, необходимо выяснить, насколько средняя в действитель
ности отражает характер распределения, т.е. насколько центристские
политические взгляды на самом деле типичны для группы в целом. По
казателем типичности средней для числового ряда в статистике являет
ся
коэффициент вариации.
Он показывает, насколько существен раз
брос значений вокруг средней.
Как и средние величины, меры вариации различаются на разных
уровнях измерения. На н о м и н ал ьн о м у р о в н е и з м е р е н и я
можно использовать л и ш ь один простой показатель — отношение об
щего числа немодальных (т.е. не соответствующих моде) значений к
общему числу значений. В нашем случае все респонденты немодаль
ных категорий («левые» + «либералы» + «национал-патриоты») со
ставляют 10; всего же опрошено 15 респондентов. Соответственно,
отношение (10:15) составит примерно 0,6. Чем ближе значение коэф
фициента к 0, тем лучше мода описывает реальное распределение;
чем ближе к 1 — тем менее она репрезентативна.
По существу, операциями по расчету частотного распределения,
п р о ц е н т н о г о с о о т н о ш е н и я , моды и к о э ф ф и ц и е н т а вариации исчер
пываются все возможные в ы ч и с л е н и я на н о м и н а л ь н о м уровне.
Столь небольшое число о п ц и й обусловлено тем, что числа на этом
уровне и з м е р е н и я служат не более чем «ярлыками», «опознаватель
н ы м и знаками» категорий п р и з н а к а , не отражая его какие-либо со
держательные свойства.
Н а п о р я д к о в о м у р о в н е и з м е р е н и я , где присутствует
упорядочивание категорий с точки зрения возрастания/убывания ин
тенсивности признака, открываются новые статистические возмож
ности.
Основной средней величиной для порядковых переменных явля
ется
медиана (М).
Медиана представляет собой середину ранжирован
ного числового ряда: выше и ниже медианы должно быть равное чис
ло элементов. Так, для ряда (1, 1, 2, 4,
4,
6, 7, 8, 9) медианой будет 4.
[OS
Глава 4. Статистические методы в политическом анализе
В случае, когда число элементов является четным (1, 1, 2, 4,
4, 6,
7,
8,
9, 9) и возникают как бы две середины числового ряда (4 и 6), медиа
ной станет их среднее арифметическое — 5.
Распространенным способом измерить разброс значений вокруг
средней на порядковом уровне является вычисление
квартилей —
чет
вертей ранжированного ряда. Значение нижнего (первого,
Qj)
квар
тиля показывает середину части числового ряда от его начала до ме
дианы, верхнего (третьего,
Qj)—
середину части от медианы до конца
ряда. Второй квартиль совпадает с медианой. Чем больше интервал
между н и ж н и м и верхним квартилем, тем больше разброс значений
вокруг средней и тем в меньшей степени средняя является репрезен
тативной для числового ряда. Разность между верхним и нижним
квартилем называется
квартильным рангом
и служит мерой вариации
для порядковых переменных.
Проиллюстрируем одномерный анализ порядковых переменных
следующим примером. Предположим, имеется две группы по 11 рес
пондентов в каждой, которые должны дать оценку политической вли
ятельности лидера
А
по шкале от 0 до 10, где 0 — отсутствие влиятель
ности, 10 — максимальная влиятельность. Получены также оценки:
Группа
Оценки
1
1, 1,2, 3 , 4 , 5 , 6 , 7 , 8 , 9 , 10
2
3 , 3 , 4 , 4 , 5 , 5 , 5 , 5 , 6 , 6 , 7
В обеих группах медианы получились одинаковые — 5. Другими
словами, политическая влиятельность лидера Л оценена респондента
ми обеих групп на одинаковом среднем уровне. Но насколько эта
усредненная оценка отражает реальное распределение мнений в каж
дой из групп, насколько едино мнение респондентов в каждой из
групп относительно данной оценки?
Чтобы выяснить это, рассчитаем квартальные ранги для каждого
случая. В первой группе н и ж н и й квартиль равен 2, верхний — 8, квар
тальный ранг равен 6 (6 = 8—2). Во второй группе нижний квартиль
составляет 4, верхний — 6, квартальный ранг равен 2 ( 2 = 6—4).
Группа
М
Qi
Q
3
(3-ранг
1
5
2
8
6
2
5
4
6
2
Глядя на эту статистику, можно утверждать, что в первой группе
средняя 5 является скорее случайным значением, не репрезентатив-
4.1. Анализ одномерных распределений
109
ным по отношению к общей совокупности мнений: разброс вокруг
средней очень велик. Напротив, во второй группе наблюдается в до
статочной мере консолидированное мнение, и оценку влиятельности
политика
А
«на среднем уровне» можно считать действительной оцен
кой группы в целом.
Н а и н т е р в а л ь н о м у р о в н е и з м е р е н и я , предполагаю
щем не только упорядочение категорий по признаку «больше—мень
ше», но и установление фиксированного интервала измерения, мы
способны осуществлять все операции с натуральными числами. На
иболее распространенной средней величиной для интервальных вы
числений является хорошо знакомое еще со школьной скамьи
среднее
арифметическое.
Среднее арифметическое представляет собой ре
зультат деления суммы всех элементов совокупности на общее их чис
ло. Так, для числового ряда (1, 2, 3, 4, 5, 6, 7, 8, 9) среднее арифмети
ческое составит 5 (5 = ( 1 + 2 + 3 + 4+ 5 + 6 + 7 + 8 + 9 ) :9).
Характерной особенностью среднего арифметического является
высокая чувствительность к кренам в распределении, связанным с
наличием в совокупности одного или нескольких предельных значе
ний. Например, если за партию
Хв
четырех районах из пяти проголо
совало по 2% избирателей, а в одном — 90%, среднее арифметическое
составит 19,6% — совершенно не информативное с точки зрения ре
альной картины распределения число.
Кстати, к т а к и м предельным з н а ч е н и я м совершенно не чувстви
тельна медиана, что обусловлено с п е ц и ф и к о й порядкового уровня.
Н а п р и м е р , в ряду ( 1 , 2, 3, 4, 5) число 3 является и медианой (боль
ше и м е н ь ш е его по два з н а ч е н и я ) , и средним арифметическим.
Однако если мы находимся на порядковом уровне измерения, то
имеем право, к примеру, заменить число 5 на число 100. Такая воз
можность обусловлена тем, что 100 по-прежнему больше единицы,
двойки, т р о й к и и четверки, т.е. порядок чисел с точки зрения отно
ш е н и я «больше — меньше» не и з м е н и л с я . В числовом ряду ( 1 , 2, 3,
4, 100) медианой остается 3, тогда как среднее арифметическое ме
няется радикально — 22. Среднее арифметическое чувствительно к
абсолютным з н а ч е н и я м чисел, а медиана — нет. Соответственно,
находясь на п о р я д к о в о м уровне и з м е р е н и я , мы не можем коррект
ным образом рассчитать среднее арифметическое, в то же время
расчет м е д и а н ы для интервальных переменных может оказаться
весьма уместным.
Здесь следует подчеркнуть одно правило, связанное с использова
нием вычислительных процедур на разных уровнях измерения. В бо
лее сложных измерениях могут использоваться все вычисления, при-
1 ш
Глава 4. Статистические методы в политическом анализе
менимые на более простых уровнях, но не наоборот. Так, на интер
вальном уровне можно рассчитывать и среднее арифметическое, и
моду, и медиану; на порядковом — моду и медиану; на номиналь
ном — только моду.
Традиционной мерой разброса значений вокруг средней на интер
вальном уровне выступает
стандартное отклонение.
Вычисление
стандартного отклонения — несколько более изощренная процедура
по сравнению с подсчетом медианы и моды. Она включает следующие
стадии:
• подсчет разностей между средним значением и всеми имеющи
мися значениями, как бы определение расстояния (отклонения) от
каждой точки числового ряда до его середины. В нашем примере с
экстремальным показателем поддержки партии в одном из пяти рай
онов мы получим четыре одинаковые разности: -17,6 (2—19,6) и одно
значение 70,4 (90—19,6);
• возведение в квадрат каждого из полученных отклонений. Полу
чаем четыре значения 309,62 (—17,б
2
) и одно значение 4956,16 (70,4
2
);
• суммирование всех квадратов отклонений. В нашем случае полу
чится 6195,2 (309,62 + 309,62 + 309,62 + 309,62 + 4956,16);
• деление суммы квадратов отклонений на общее число элементов
с о в о к у п н о с т и минус 1
(N—
1). В нашем случае получим 1548,8
(6195,2: ( 5 - 1 ) ) ;
• извлечение из полученного частного квадратного к о р н я : 39,35
(Vl548,8). Это очень большое значение стандартного отклонения. Ес
ли бы «аномальный» район отдал партии не 90%, а 10% голосов, зна
чение стандартного отклонения сократилось бы до 3,57.
Таким образом, стандартное отклонение представляет собой сумму
квадратов отклонений всех измеренных значений от их среднеарифме
тического значения, деленную на количество элементов совокупности,
минус 1.
При одномерном анализе распределений интервальных перемен
ных используют и такие показатели, как минимум (наименьшее зна
чение), максимум (наибольшее значение), размах (разница между ми
нимумом и максимумом).
Форма распределения значений переменной
Оценка ф о р м ы распределения переменной важна с двух точек зрения.
Во-первых, многие статистические методы предъявляют особые тре
бования к форме распределения; если реальное распределение значе
ний переменной не отвечает данным требованиям, результаты анали-
4.1. Анализ одномерных распределений
1 1 1
за могут быть поставлены под сомнение. Во-вторых, форма распреде
ления переменной для политического аналитика может представлять
интерес сама по себе, независимо от использования того или иного
статистического инструментария. Форма распределения значений пе
ременной может отражать содержательные характеристики изучаемо
го явления.
Большинство статистических методов, работающих с интерваль
ными данными (а это основная часть вообще всех статистических ме
тодов), исходит из предположения о
нормальном распределении
значе
ний переменной, т.е. большая часть значений группируется около
некоторого среднего значения, по обе стороны от которого частота
наблюдений равномерно снижается. В более точном смысле основное
свойство нормального распределения характеризуется тем, что 68%
всех наблюдаемых значений переменной лежит в диапазоне ±1 —
стандартное отклонение от среднего, а диапазон ±2 стандартного от
клонения содержит 95% значений. Если же говорить совсем просто,
суть «нормальности» распределения состоит в том, что средние и
близкие к средним значения встречаются чаще, чем крайние (экстре
мально большие и экстремально малые).
Почему и м е н н о такое распределение называется «нормальным»?
Потому что оно т и п и ч н о для окружающего мира, действительности в
целом. К примеру, если мы случайно отберем достаточно большое
количество людей и измерим их рост, логично предположить, что
большинство из них окажутся среднего или близкого к среднему ро
ста, а число очень высоких и людей очень маленького роста будет
сравнительно небольшим. Согласитесь, весьма странно в такой ситу
ации смотрелась бы толпа, состоящая в основном из «великанов» и
«карликов».
Нормальное распределение описывается
колоколообразной кривой
(колокол Гаусса). В действительности нормальное распределение «в
чистом виде» — т.е. полностью соответствующее кривой Гаусса —
можно наблюдать довольно редко. Для большинства статистических
методов важно, чтобы распределение в целом соответствовало нор
мальному. Наиболее распространенный (хотя и не единственный)
способ тестирования распределения на нормальность — визуальный
анализ
диаграммы распределения.
Наиболее удобная ее форма — уже
упоминавшаяся нами столбчатая гистограмма.
На рисунке ниже приведена столбчатая гистограмма, показываю
щая распределение голосов, поданных за одну из политических пар
тий по регионам России на федеральных парламентских выборах
2003 г. Кривая показывает идеальное нормальное распределение для