Файл: Руководство для профессиональных аналитиков москва 2009 rv удк 001. 51 Ббк72 с 40.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 05.12.2023

Просмотров: 538

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
Глава 8
ИСПОЛЬЗОВАНИЕ СТАТИСТИКИ, ТЕОРИИ
ВЕРОЯТНОСТИ, ЭЛЕМЕНТОВ КОМБИНАТОРИКИ
ДЛЯ ВЫЯВЛЕНИЯ ЗАКОНОМЕРНОСТЕЙ
ФУНКЦИОНИРОВАНИЯ И ПОВЕДЕНИЯ СЛОЖНЫХ
СОЦИАЛЬНЫХ И ЭКОНОМИЧЕСКИХ СИСТЕМ
8.1. Статистический выборочный метод
Под выборочным методом понимают технологию выявления признаков свойств генеральной совокупности бб по данным анализа малой совокупности.
Альтернативой выборочному методу является сплошное обследование
-дорогостоящий метод, чреватый приписками, волюнтаризмом, очковтирательством.
Математика показывает также, что сплошное отслеживание по точности не лучше выборочного, поэтому искусство делать выборку сейчас
65 Несмотря на то, что сегодня эти задачи быстро решаются на компьютерах, знать математическое содержание проблемы необходимо, для того чтобы дать правильную интерпретацию полученных результатов
66. Генеральная совокупность - вся изучаемая выборочным методом статистическая совокупность объектов и/или явлений общественной жизни, имеющих общие качественные признаки или количественные переменные
262
очень востребовано. Кроме того, встречаются ситуации, при которых выборочный метод является единственно возможным методом анализа, например, контроль качества при производстве изделий одноразового пользования
(огнетушителей, патронов и др.), исследования, апеллирующие к безграничной генеральной совокупности (медицинская статистика, статистика в биологии).
При выборочном обследовании из генеральной совокупности выделяется для сплошного обследования некоторая часть, называемая выборкой. Есть много способов формирования выборки, но только один из них обеспечивает репрезентативность
(«представительность») - это случайный выбор.
Случайный выбор позволяет контролировать, как мы увидим далее, и точность полученных выводов, основываясь на результатах выбора.
На практике простой случайный выбор организовать нелегко. Поэтому практикуют различные способы квазислучайного выбора. Поскольку главное при выборочных обследованиях - это правильно составленная выборка, то такими выборками дорожат и часто обращаются к одним и тем же выборкам неоднократно

(например, при бюджетных обследованиях семей). Самое первое, главное и отстоящее от всех других требований заключается в том, чтобы обеспечить всем опрашиваемым или исследуемым единицам равный шанс на участие в выборке. Если этого не делать, выборка получается, как говорят специалисты, «смещенной». Выводы, сделанные на основе смещенной выборки, заведомо неправильные и не должны использоваться в аналитических исследованиях.
Классический пример неправильно построенной выборки относится к 1936 г., когда, в разгар президентской избирательной кампании в США журнал
«Literary Digest» разослал своим подписчикам, имеющим телефоны, вопросник по поводу вероятного исхода голосования (всего было разослано около 10 млн. анкет).
Поступило около 2300 тыс. ответов. Они уверенно предсказывали победу республиканскому кандидату
Л
ЭНДОНУ
Победил же, причем с большим отрывом, демократический кандидат

263

Ф. Р
УЗВЕЛЬТ
Очевидно, что принадлежавшие к высшему обществу США подписчики данного журнала, к тому же обладавшие редкими тогда телефонными аппаратами, не могли представлять все американское общество.
Другой классический пример связан с мобилизацией армии и флота в США в 1940 г. Десять тысяч капсул с номерами, соответствующими именам призывников, помещались в некое устройство, наподобие современного лототрона, и перемешивались. Далее в присутствии публики из лототрона наугад извлекались капсулы и определялись те молодые люди, кто пойдет служить. В результате было много номеров, выпавших подряд. Разбирательство показало, до какой степени был недоучтен фактор необходимости гораздо более длительного перемешивания этого огромного количества капсул.
Точность выборочного метода. Предположим, что образующие генеральную совокупность объекты могут обладать (а могут и не обладать) некоторым определенным свойством. Назовем его свойством А. Цель обследования - определить, какую долю генеральной совокупности составляют объекты, обладающие свойством А. Случайный выбор одного элемента из генеральной совокупности называют простым, если все элементы имеют равные вероятности быть выбранными.
Случайный выбор предписанного числа п элементов совокупности называют простым, если на каждом шаге производится простой случайный выбор элементов.
Ради простоты предположим, что объем выборки пренебрежимо мал по сравнению с объемом генеральной совокупности. В этом случае можно считать, что на каждом шаге формирования выборки имеется одна и та же вероятность выбора объекта со свойством А, и равна она доле 0 этих объектов во всей совокупности.
Пусть X обозначает число элементов выборки, которые обладают свойством А. При случайном выборе величина X тоже случайна. Вообще говоря, доля объектов выборки, обладающих свойством А, не совпадает с их долей во всей генеральной совокупности, т.е. 2L ф
Q
.
264
Однако:
a) при простом случайном выборе ожидаемая доля таких объектов равна именно 0 (говорят также, что ма тематическое ожидание величины 2L. равно 9): м— * 6J
b) с ростом объема выборки эта доля приближается к 0.
Так что при больших п пункты а) и Ь) дают новое понимание репрезентативности, когда выбор случаен.
Разность между ожидаемой в выборке долей объектов, обладающих свойством А, и их долей в генеральной совокупности как раз и называют смещением выборки.
Отсутствие смещения может быть обеспечено только планом обследования и его аккуратным осуществлением.
Большая часть ошибок при выборочных обследованиях связана именно со смещениями. Смещения возникают иногда из-за трудности, а то и невозможности осуществить простой случайный выбор.
Точность приближенного равенства -К. s 0 можно оценить по самой выборке. А именно, в силу описанной выше нами центральной предельной теоремы выполняется следующее неравенство:
X
Это значит, что расхождение между измеренной долей Ж. носителей признака А и ее истинной величиной
0 всегда может быть уменьшено относительно заданной величины, а у исследователя есть резервы повышения точности обследования
67
. По своему статистическому смыслу последнее выражение - дисперсия случайной ве-
67 Однако системным аналитикам нужно четко понимать, какой уровень точности необходим для удовлетворительного решения той или иной задачи Иногда, и это часто встречается при анализе быстро меняющихся ситуаций в бизнесе или социально- политических процессах, на дополнительные вычисления может уйти достаточно много времени даже при использовании мощных вычислительных машин Но суть дела это может и не изменить Поэтому зачастую приходится, опираясь на те или иные ограничения, находить удовлетворительный уровень точности в статистических и вероятностных вычислениях с тем, чтобы погоня за максимальной точностью не привела к запаздыванию в получении основных аналитических результатов
265

личины _2С. Поэтому впредь, говоря о точности той или
Л.
иной несмещенной оценки 8 , мы будем иметь в виду ее дисперсию. На точность оценки, в свою очередь, влияет:
a) Число наблюдений п, точнее \п. Чтобы увеличить точность оценки вдвое, надо увеличить п вчетверо; b) Величина 0(1-9) : чем она больше, тем ниже точ ность. В свою очередь, 6(1-8) зависит определенным образом от измеряемой величины 6. Если внимательно проанализируем последнее неравенство, то увидим, что, чем ближе 9 к 0 или к 1, тем меньше ошибка измерения величины 8 при заданном объеме выборки п.
Обратим внимание на то, что при выводе выражений мы нигде не встречались с тем, какую долю составляет численность выборки относительно численности генеральной совокупности. Поэтому такая величина, как процент охвата, вообще не должна участвовать в планировании статистических обследований. Возникает вопрос, можем ли мы уменьшить нашу выборку до 2-3 человек, а потом по этой выборке судить о миллионе. Ответ именно в том, что на малой выборке точность невысока, но увеличение числа респондентов для достижения точности и обеспечение мифического процента охвата - совершенно разные понятия
68
При проведении системного анализа сложных явлений может оказаться так, что генеральная совокупность будет представлять собой совокупность нескольких меньших и непересекающихся совокупностей. Их называют слоями или стратами. В этом случае хорошей альтернативой простому случайному выбору является выбор из расслоенной совокупности или, другими словами, стратифицированный выбор. Признак, в отношении которого генеральная совокупность разбивается на слои
(страты), называется стратифицирующим.
Мы уже отмечали, что точность оценивания 9 тем больше, чем дальше это значение отстоит от центра интервала (0,1). Может оказаться, что в отдельных стратах доля объектов со свойством А сильно отличается от сред-
68. Т
ЮРИН
Ю., М
АКАРОВ
А. Анализ данных на компьютере. - М.: Инфра-М, 2003.
него по всей генеральной совокупности: в этих частях она может быть близкой либо к 0, либо к 1. Если так, то для оценивания 8 в этих совокупностях достаточны выборки небольших объемов по сравнению с простым случайным выбором. Эта идея и реализуется в стратифицированном выборе.
Предположим, что доля ш, каждого слоя I в генеральной совокупности известна, и что из каждого слоя может быть извлечена простая случайная выборка.
Пусть 9, -доля объектов с признаком А в слое номер I.
Ясно, что
Из каждого слоя I извлечем выборку объема п,
причем п=пш,, где п - суммарный объем совокупной выборки. Математикой доказано, что уже известное нам выражение 9(1-9) (дисперсия при простом случайном
п выборе) превосходит дисперсию стратифицированной оценки на величину, пропорциональную 2(6,-б)
2
!/;,. Эта последняя величина положительна почти всегда, исключая случай, когда никакого расслоения нет, т.е. при
e
1
=...e
2
=...e
3
=...9
!
=...
Разделение совокупности (особенно, когда речь идет о сложных иерархических системах) на слои обычно производится с помощью какого-либо признака или признаков (иного, чем нас интересующий). Полученный выше результат можно сформулировать так:
стратифицированный выбор не дает улучшения по
сравнению с простым случайным выбором только
тогда, когда признак А и стратифицирующий признак
(стратифицирующие признаки) независимы. Во всех других случаях стратифицированный выбор дает лучшие по точности результаты по сравнению с простым случайным выбором.
План обследования расслоенной совокупности возможен, если известны численности слоев (т.е. их доли


266 267
в общей совокупности). Для разделения на слои следует выбирать признаки, наиболее тесно связанные с интересующим нас признаком, т.е. наиболее согласованные с целями обследования. Разделение на слои осуществить тем легче и эффективнее, чем лучше изучена генеральная совокупность. Поэтому стратифицированному выбору предшествует обычно пилотное обследование генеральной совокупности.
Каждый слой должен быть как можно более однородным с точки зрения изучаемого признака. Исследуя удовлетворенность уровнем жизни, аналитик может выбрать следующие грубые страты: миллиардеров в
России - 78 человек, миллионеров - 119 тыс., далее идет страт - лица с состоянием от 500 тыс. до 1 млн. долларов и т.д. По всей совокупности процент удовлетворенных уровнем жизни будет существенно отличаться от величины удовлетворенности в каждом страте.
Наградой за правильное деление совокупности на слои является резкое уменьшение необходимого объема общей выборки по сравнению с планом обследования, предполагающим простой случайный выбор, и, следовательно, значительная экономия средств. Выбор из расслоенной совокупности широко используется в маркетинговых и социально-политических исследованиях, поскольку людей достаточно легко классифицировать по профессиональным, экономическим, социальным, религиозным и другим группам.
Организационные трудности, денежные затраты, стремление провести обследование быстро и прочие подобные причины часто заставляют исследователей отступать от описанных выше классических схем и проводить исследования по какому-либо другому плану.
Таких планов известно много. Более того, каждое конкретное исследование идет по своему собственному плану. Поэтому говорить обо всех них невозможно.
Ограничимся примером так называемого ступенчатого
(многоступенчатого) или кластерного выбора.
Предположим, что генеральная совокупность каким-либо естественным образом разбивается на «кластеры», т.е. на отдельные совокупности.
В отличие от упоминавшихся ранее страт, кластеры по
268
численности невелики, но многочисленны. Обследование проводится так: единицами простого случайного выбора служат кластеры; выбранные кластеры затем исследуют сплошь. Если кластеры слишком велики, внутри кластера может быть осуществлен какой-либо случайный выбор
(например, снова кластерный
- это уже многоступенчатый выбор).
К сожалению, кластерный выбор дает смещенную оценку. Это смещение пренебрежимо мало, только если число кластеров в выборке велико. Кластерный выбор дает и менее точные результаты, чем простой случайный выбор, при одинаковых объемах обследованных объектов.
Выигрыш при применении кластерного или других видов ступенчатых обследований может достигаться за счет того, что число обследованных объектов может быть большим. Главная же опасность — возможные смещения.
К другим планам выбора относятся также систематическая выборка (контроль качества продукции на конвейере) и визит-выборка
(медицинская статистика). Систематическая выборка предполагает, что с помощью таблицы случайных чисел определяется лишь номер первого оцениваемого объекта, а далее отбирается каждый десятый (или сотый, в зависимости от необходимой точности) объект
69
. Если первым выпал третий номер объекта (например, бутылки пива на конвейере), то следующей отбирается 13-я бутылка, 23-я,
33-я и т.д. Визит-выборка состоит в том, что врач учитывает подряд, без исключений всех пациентов, обратившихся к нему с жалобой на данное заболевание.
Так, он должен описать все 50 последних случаев проявления острого аппендицита. Исключение любого случая нарушает истинно случайный характер визит- выборки.
8.2. Корреляционный анализ
Подсистемы (компоненты) различных уровней и элементы сложных иерархических систем связаны определенными взаимодействиями, отношениями и т.д., поэто-
69. Langley R. Practical statistics simply explained. - N Y.: Dover Pub., 1971.
269

му статистический анализ связей, их влияния на функционирование или динамику той или иной системы требует применения особых методов, получивших название «корреляционный анализ». Для практических аналитиков они представляют первостепенный интерес
(например, корреляционный анализ взаимосвязей роста цен на нефть и биржевых котировок тех или иных ценных бумаг).
Известно, что все явления объективного мира, в том числе и общественные, находятся в причинно- следственных взаимных связях и взаимной обусловленности. Глубокое познание социальных явлений означает их познание во всех или решающих взаимосвязях и взаимозависимостях. В силу этого одной из основных задач статистика-исследователя является установление причинно-следственных связей, имеющихся в общественных явлениях. Пр*и решении многих задач системного анализа требуется установить, как связаны между собой две или более переменные, характеризующие признаки отдельных единиц исследуемой совокупности. Термин «корреляция» был введен в науку выдающимся английским ученым Ф.
Г
АЛЬТОНОМ В
1886 г.
Выявление, установление связей между социальными явлениями имеет не только чисто теоретическое, познавательное, но и непосредственно практическое значение, так как позволяет перейти от констатации фактов к их объяснению и активному на них воздействию. Связи между признаками явлений и самими явлениями бывают различные. Различают, прежде всего,
связи функциональные и корреляционные. Функциональная связь - это такая связь, когда изменению значения одного признака соответствует изменение другого признака на строго определѐнную величину. Например, с увеличением радиуса окружности на 1 см, длина окружности увеличивается на 6,28 см. Корреляционная связь - это согласованное изменение двух признаков, отражающее тот факт, что изменчивость одного признака находится в соответствии с изменчивостью другого.
Иными словами, при одном и том же значении признака х встречаются разные значения признака у, при этом, однако, между ними имеется та-
270 кое соотношение, что определѐнному изменению первого признака соответствуют средние изменения признака второго. Так, при одном и том лее стаже работы отдельные рабочие могут иметь различную квалификацию, выражающуюся в присвоенном им тарифном разряде, тем не менее, с увеличением стажа тарифный разряд рабочих в среднем также увеличивается. Следовательно, корреляционная связь - это связь, проявляющаяся в общем, в среднем, во всей совокупности явлений в целом. Наличие этой связи характерно для процессов, складывающихся под влиянием множества причин. Изучать корреляционные связи можно только на представительных выборках методами математической статистики.
Корреляционные связи бывают прямолинейные
и криволинейные. Под прямолинейной корреляционной связью понимают такую связь, при которой с возрастанием одного признака происходит непрерывное возрастание (или убывание) другого признака в среднем на постоянную величину. При криволинейной связи между признаками имеется не постоянное, а меняющееся соотношение
(результативный признак то увеличивается, то уменьшается с различной степенью интенсивности).
Если функциональные связи присущи преимущественно явлениям из области естественных наук, то в области общественной действуют почти исключительно связи корреляционные. Связи по общему направлению могут быть прямые и обратные, они также могут быть различной степени тесноты. Если значению признака х соответствуют близкие друг другу, тесно расположенные около своей средней значения признака у, то связь является тесной. Если значения признака у при одном и том лее значении признака х
варьируют значительно - связь менее тесная. Таким образом, степень тесноты связи зависит от степени варьирования у при фиксированном значении х.
Прежде чем устанавливать наличие и измерять связи статистически, во всех случаях необходимо произвести предварительный анализ материального содержания изучаемого процесса. Такой анализ в первую очередь должен
271