Файл: Руководство для профессиональных аналитиков москва 2009 rv удк 001. 51 Ббк72 с 40.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 05.12.2023
Просмотров: 542
Скачиваний: 4
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
мощью одних и тех же процедур. Поэтому требования неискушенных пользователей, чтобы им предоставили инструмент для анализа данных именно в банковском деле или именно в медицине, редко бывают обоснованными. Такой инструмент мог бы быть создан, если бы решаемые этими пользователями задачи были исключительно специфичны и не встречались ни в какой другой области. Как правило, это не так, и все нужные этим пользователям задачи могут быть решены с помощью универсальных пакетов компьютерных программ (подобно тому, как практически для всех пользователей нужные им средства подготовки документов обеспечиваются универсальными редакторами документов типа Word).
Разумеется, нет правил без исключений. Например, в программе Word трудно на надлежащем уровне подготавливать документы с большим количеством формул, проводить верстку книг, невозможно печатать ноты, поэтому в таких случаях используются специальные средства. Точно так же существуют и области человеческой деятельности, для которых требуются специфические статистические программы.
Однако таких областей очень мало. По-видимому, наиболее важная из них -страховые (актуарные) расчеты, используемые страховыми компаниями.
Чтобы решить, какие методы анализа надо применить к имеющимся данным и насколько удовлетворительны полученные результаты статистических процедур, нужно иметь возможность наглядно представлять себе эти данные и результаты.
Поэтому практически все статистические пакеты обеспечивают широкий набор средств визуализации данных: построение графиков, двух- и трехмерных диаграмм, а часто и различные средства деловой графики. Это помогает системным аналитикам лучше представить обрабатываемые данные, получить общее представление об их особенностях и закономерностях.
Результаты применения статистических процедур, как правило, представляются в наглядном графическом виде.
228
Хотя статистические пакеты для персональных компьютеров резко упростили применение методов статистического анализа данных, все же для осмысленного их употребления пользователи должны обладать определенной подготовкой: понимать, в каких ситуациях применимы различные статистические методы, знать, каковы их свойства, уметь интерпретировать результаты.
Российским аналитикам рекомендуется использовать по возможности отечественные, а не зарубежные статистические пакеты - они, как правило, гораздо проще в использовании, снабжены понятной документацией и средствами интерпретации результатов.
Особенно стоит порекомендовать пакеты STADIA
(универсальный статистический пакет), ЭВРИСТА
(специализированный пакет для анализа временных рядов и регрессионного анализа) и SPSS. В статистических пакетах целесообразно тщательно изучать прилагаемую документацию, поскольку в ней подробно описаны средства анализа данных, в том числе и самых мощных многомерных методов.
К сожалению, ни одна, даже самая лучшая компьютерная программа не убережет аналитического исследователя от досадных ошибок, если тот не владеет культурой обращения с числовыми данными. И, наоборот, при использовании программ беспомощность анализа проявляется еще более наглядно. В результате на телеэкране появляются забавляющие всех рекламные ролики, например, о том, что ресницы под действием косметики удлиняются на 72%, закручиваются на 72% , и морщины разглаживаются на те же самые 72%. Исследователь, особенно молодой, должен обладать определенным иммунитетом к навязываемым ему со стороны СМИ и «квазинаучных» публикаций бредовым числовым данным, а также иметь определенный самоконтроль при подготовке собственных результатов.
Принято считать, что существует семь видов ошибочных представлений в интерпретации числовых величин. Цена этих ошибок - утрата доверия к вашему исследованию со стороны заказчика, коллег, широкой общественности. Рассмотрим здесь эти виды:
229
Разумеется, нет правил без исключений. Например, в программе Word трудно на надлежащем уровне подготавливать документы с большим количеством формул, проводить верстку книг, невозможно печатать ноты, поэтому в таких случаях используются специальные средства. Точно так же существуют и области человеческой деятельности, для которых требуются специфические статистические программы.
Однако таких областей очень мало. По-видимому, наиболее важная из них -страховые (актуарные) расчеты, используемые страховыми компаниями.
Чтобы решить, какие методы анализа надо применить к имеющимся данным и насколько удовлетворительны полученные результаты статистических процедур, нужно иметь возможность наглядно представлять себе эти данные и результаты.
Поэтому практически все статистические пакеты обеспечивают широкий набор средств визуализации данных: построение графиков, двух- и трехмерных диаграмм, а часто и различные средства деловой графики. Это помогает системным аналитикам лучше представить обрабатываемые данные, получить общее представление об их особенностях и закономерностях.
Результаты применения статистических процедур, как правило, представляются в наглядном графическом виде.
228
Хотя статистические пакеты для персональных компьютеров резко упростили применение методов статистического анализа данных, все же для осмысленного их употребления пользователи должны обладать определенной подготовкой: понимать, в каких ситуациях применимы различные статистические методы, знать, каковы их свойства, уметь интерпретировать результаты.
Российским аналитикам рекомендуется использовать по возможности отечественные, а не зарубежные статистические пакеты - они, как правило, гораздо проще в использовании, снабжены понятной документацией и средствами интерпретации результатов.
Особенно стоит порекомендовать пакеты STADIA
(универсальный статистический пакет), ЭВРИСТА
(специализированный пакет для анализа временных рядов и регрессионного анализа) и SPSS. В статистических пакетах целесообразно тщательно изучать прилагаемую документацию, поскольку в ней подробно описаны средства анализа данных, в том числе и самых мощных многомерных методов.
К сожалению, ни одна, даже самая лучшая компьютерная программа не убережет аналитического исследователя от досадных ошибок, если тот не владеет культурой обращения с числовыми данными. И, наоборот, при использовании программ беспомощность анализа проявляется еще более наглядно. В результате на телеэкране появляются забавляющие всех рекламные ролики, например, о том, что ресницы под действием косметики удлиняются на 72%, закручиваются на 72% , и морщины разглаживаются на те же самые 72%. Исследователь, особенно молодой, должен обладать определенным иммунитетом к навязываемым ему со стороны СМИ и «квазинаучных» публикаций бредовым числовым данным, а также иметь определенный самоконтроль при подготовке собственных результатов.
Принято считать, что существует семь видов ошибочных представлений в интерпретации числовых величин. Цена этих ошибок - утрата доверия к вашему исследованию со стороны заказчика, коллег, широкой общественности. Рассмотрим здесь эти виды:
229
1. Типичные арифметические ошибки. Причиной арифметических ошибок являются спешка, самонадеян ность, невнимательность исследователя. Осенью 2007 г. авторитетный ведущий одного из центральных ТВ- каналов Сергей Б. решил наглядно продемонстрировать драматическую ситуацию, связанную со стремительным ростом цен на продовольствие в России. Держа в руках внушительный круг сыра, он зачитал телеграмму из Ли пецкой области о том, что сыры там подорожали на 25%.
Далее, он схватил нож и отрезал - в соответствии с теле граммой — от круга четвертинку. Со словами: «Теперь тру дящийся Липецка на свой рубль может позволить себе лишь % от прежнего количества сыра», он передал кусочек ассистентке, и четвертинка исчезла за кулисами. Потом он проделал то же самое с буханкой хлеба. И опять в его комментариях присутствовала непозволительная, проти- ражированная на всю страну ошибка. Какая же именно?
Так ведь очевидно, что при данном подорожании липец кий трудящийся может себе позволить 1/1,25=0,8 преж него количества, что будет побольше, чем
3
А. Все еще со мневающиеся в неправоте Сергея Б. могут рассмотреть ситуацию, когда сыр подорожает на 100%, и тогда, по логике ведущего, ассистентка унесет за кулисы весь сыр, а липецкий трудящийся останется вообще ни с чем.
2. Ошибка в представлении процентных соотноше
ний. Эти ошибки весьма распространены и проистека ют в основном из-за нежелания сопоставлять процен ты с реальными величинами. Первый пример возьмем из выступления мэра американского городка: «Следует повысить стоимость мужских причесок в парикмахер ских на треть, так как за последние 2 года зарплата па рикмахеров возросла на 10%, инструменты и расходные материалы подорожали на 8%, аренда помещения по дорожала на 10%, электричество - на 5%. Итого общий рост расходов - на 33%». Здесь налицо типичная ошиб ка суммирования процентов. Ведь даже если каждый из компонентов подорожает на 10%, то и общий рост всей услуги тоже будет составлять лишь 10%.
230
Из выступлений на пресс-конференции по аграрной тематике
(второй пример):
«Яблоки подешевели на 100%», «Из-за неблагоприятных погодных условий урожай оказался на 120% меньше прошлогоднего».
Действительно, при вычитании процентов нелепости встречаются «на каждом шагу». На самом деле авторы высказываний имели в виду, что яблоки подешевели вдвое, а урожай составил 45% от прошлогоднего. А получилось, что яблоки дают бесплатно.
Из материалов социологического опроса (третий пример): «Джон зарабатывает.на 1000% больше, чем Ян, т.е. В 10 раз больше!». Этот случай - пример неудачного обращения с большими процентами. Почему-то тысячи процентов действуют на неопытных авторов совершенно гипнотическим образом. Мы же, немного подумав, легко сообразим, что на самом деле Джон зарабатывает не в 10, а в 11 раз больше.
Четвертый пример из диссертации: «При испытании лекарства «Фузимин» 83,3% пациентов испытали его благотворное действие в течение 60 секунд». Здесь - типичная проблема использования процента в сочетании с реальными величинами. Из последующего текста становится ясно, что в испытаниях участвовали 6 пациентов, из которых пятерым лекарство действительно помогло. Согласимся, что десятые доли процента при анализе реакции 6 добровольцев выглядят нелепо.
3. Ложная точность. Этот, далеко не безобидный порок связан с желанием исследователя придать своим результатам наиболее наукообразную и солидную форму.
Рассмотрим, например, фразу: «Из числа населения
Земли по-венгерски говорят 8001112 человек»
48
Казалось бы, подсчет большой группы людей с точностью до одного человека должен внушать уважение. Однако за то время, что этот альманах лежал в типографии, наверняка еще не один десяток венгерских малышей научился лепетать какие-то фразы, что сделало бессмысленным приведенное число.
Числа, претендующие на исключительную точность, должны быть прокомментированы и обоснованы.
48. Мировой альманах. - Юнеско, 1950.
231
4. Искаженное графическое представление. Здесь, главным образом, речь идет о графиках, на которых ча сто встречается представление кривых, искусственно
«растянутых» по вертикальной оси. Без соответствую щих комментариев такое представление может только дезориентировать.
5. Неполнота данных. Спешка или умысел неред ко заставляют делать выводы на основе неполных дан ных. Например, на основании неполных данных было вынесено следующее суждение: «Статистика показыва ет, что риск погибнуть для водителей малолитражных автомобилей в 5,5 раз выше, чем для пассажиров ли музинов»
49
. Дополнительное исследование вопроса по зволяет установить недостающие данные - маленькие автомобили попадают в аварию в 5,5 раз реже, так что общий риск одинаков.'
6. Ошибки в выборках. В силу дороговизны выбороч ных обследований ошибки выборок часто становятся весьма широко известными. Эти случаи надолго «поселя ются» в учебниках статистики в качестве отрицательных примеров. В 1954 г. В США было проведено обширное, дорогостоящее исследование связи курения со смертно стью от рака легких
50
. На предмет пристрастия к этому пороку были опрошены 187766 мужчин, и через 20 ме сяцев были - путем повторного опроса этой же большой группы - выявлены причины смертности в опрошенной группе. Результаты сведены в таблицу 3.
Таблица 3
Численность группы
Количество смертей от рака легких
Смертность от рака легких, в %
Не курят или курят нерегулярно
79944 24 0,03
Курят регулярно
107822 143 0,013 49. Ммвлсн A. Future coming now // Time Magazine. - 1954. - 12 June.
50. H
AMMOND
E., H
ORN
D. Lung cancer as an object of statistical research // Journ.
Amer. Med. Assoc. - 1954. - Vol. 155. - P. 1234.
232
Казалось бы, из таблицы следует бесспорный вывод о заметной связи курения с заболеванием. Однако данные оказались ненадежными. Прежде всего, выборка сделана неправильно. На это указывает то, что общая смертность в данной группе оказалась много меньше, чем смертность в целом по США. Это означает, что в опросе не участвовали больные и малоподвижные люди.
Кроме того, доля курящих в опрошенной группе была заметно меньше, чем в среднем по США. Следовательно, многие курящие уклонились от опроса или дали о себе неверные сведения. Вывод: выборка даже очень большой численности может быть, как говорят, смещенной. И по ней нельзя судить о населении в целом.
В последующих разделах мы узнаем, что такое генеральная выборка, зачем эти выборки делаются, как их надо делать правильно.
7. Ошибочные сопоставления. Увы, в исследованиях часто сравнивают несопоставимые ситуации. За время
Американо-Испанской войны 1898 г. (боевые действия велись на море) смертность в ВМФ США составила 9 человек на каждую тысячу. За этот же период времени смертность в Нью-Йорке составила 16 человек на каждую тысячу. Можно ли утверждать, что воевать с
Испанией оказалось безопасней, чем жить в Нью-
Йорке
51
? Здесь ошибкой является попытка сравнить на первый взгляд сходные совокупности, которые на деле такими не являются. Действительно, во флоте служат крепкие молодые ребята, а типичная выборка по любому большому городу включает пожилых, младенцев, хронических больных и инвалидов. Эти подгруппы и дают наибольший вклад в общую смертность в Нью-
Йорке.
Приведенные здесь примеры взяты из самых различных областей жизни. Их задача не только показать, что статистические методы исследования применимы в различных сферах жизнедеятельности, но и проиллюстрировать, что в любых, даже несопоставимо более сложных задачах, статистические методы не являются автоматически безупречными.
Ясного понимания требуют вопросы,
51. Эта хрестоматийная ошибка впервые упомянута в замечательной книге H
UFF
D. How to he with statistics. - 1962.
233
какие типовые ошибки связаны с их использованием и чего нужно избегать при анализе сложных социально- экономических и общественно-политических систем.
В следующем параграфе мы рассмотрим основные понятия теории вероятностей, на которой базируются все статистические методы. Однако аналитики, изучавшие теорию вероятностей в ходе своего профессионального образования, могут пропустить этот параграф, так как он основан на предельно простых иллюстрациях. Излагаемый в нем понятийный аппарат необходим лишь для тех, кто совершенно незнаком с этой теорией.
В следующем параграфе мы рассмотрим основные понятия теории вероятностей, на которой базируются все статистические методы. Однако аналитики, изучавшие теорию вероятностей в ходе своего профессионального образования, могут пропустить этот параграф, так как он основан на предельно простых иллюстрациях. Излагаемый в нем понятийный аппарат необходим лишь для тех, кто совершенно незнаком с этой теорией.
1 ... 9 10 11 12 13 14 15 16 ... 25
7.3. Основные понятия теории вероятностей,
необходимые для аналитических исследований
Аргументация выводов математической и, соответственно, социальной статистики основывается на законах теории вероятностей.
События взаимосвязаны. Одни из них являются исходом или следствием других. Первичное действие назовем
«испытанием». Испытание приводит к появлению того или иного события. «Случайное событие» - такое событие, исход которого нельзя предугадать.
Случайному событию противопоставляется «событие детерминированное» с гарантированным исходом.
Принято говорить, что случайное событие состоит из тех или иных элементарных исходов испытания. Мы не можем предсказать, произойдет это событие или нет, не потому, что вообще ничего не знаем о его природе, а именно потому, что имеем дело со множеством возможных исходов, пусть даже каждый из них в отдельности мы можем описать. Подбрасывание монетки (игра в орлянку) влечет за собой 2 возможных элементарных исхода - орел или решка. Подбрасывание игрального кубика (игра в кости) влечет за собой 6 элементарных исходов.
Будем называть исходы «благоприятными», если они приводят к интересующему нас результату. Например, если нас интересует выпадение четного числа на грани кубика, то благоприятными оказываются 3 из 6 исходов. Исходы, имеющие одинаковые шансы, называют «равновозможными». Ситуация, при которой элементарные исходы имеют различные шансы к реализации, является крайне нежелательной и встречается в шулерской игре или связана с какими-то ошибками исследователя. Исходы, появление одного из которых в единичном испытании исключает появление другого в том же испытании, называют
«несовместными». «Вероятность случайного события» - количественная характеристика появления случайного события.
Р
А
- вероятность случайного события А - является отношением числа благоприятных исходов п к общему числу несовместных равновозможных событий N.
Р
А
= n/N
Очевидно, что имеют место следующие важные соотношения:
Р
А
=1 достоверное событие.
Р
А
=0 невозможное событие.
Если события А и Б несовместны, то вероятность того, что произойдет или то или другое, равна сумме вероятностей наступления каждого события:
р = р + р
А иди Б
А
Б
Нас устроит событие, состоящее в выпадении грани 2 или грани 3 при единичном подбрасывании кубика. При вероятности каждого из элементарных исходов 1/6 вероятность интересующего нас события -
1/6+1/6=1/3.
Если имеется сложное событие, состоящее в одновременном выполнении двух независимых событий, то вероятность того, что оно произойдет, равна произведению вероятностей каждого события.
р = Р*Р
234 235
Нас устроит событие, состоящее в том, что при двукратном подбрасывании кубика выпадут грани 2 и 3
(не важно, в какой последовательности). При вероятности каждого из элементарных исходов 1/6 вероятность интересующего нас события
-
1/6*1/6=1/36.
С развитием теории вероятности, когда обнаружился ее мощный потенциал для решения разного рода прикладных задач, появилось понятие
«случайной величины» или «случайного числа». Если случайные события состоят в появлении тех или иных чисел, то эти числа называют случайными. Случайная величина ставится в соответствие случайным событиям. Де-факто мы уже ввели ее, обсуждая игру в кости. Очень важно не путать случайную величину и случайное событие. Так, факт падения кубика той или иной гранью вверх - случайное событие, а число на этой грани - случайная величина. Случайные величины бывают как дискретными, так и непрерывными. Количество бракованных изделий, изменяющееся от партии к партии, представляет дискретную случайную величину. Рост и вес новорожденных представляет непрерывные случайные величины. Эти величины изменяются случайно от одного ребенка к другому, принимая любые значения в некотором интервале. Принципиально невозможно перечислить все значения такой величины хотя бы потому, что нельзя указать два соседних значения
(подобно тому, как нельзя указать на числовой оси две соседние точки). Кроме того, вероятность каждого конкретного значения непрерывной случайной величины равна нулю. В следующих разделах рассматриваются приемы анализа дискретных и непрерывных случайных величин.
Случайные числа возникают не только в результате эмпирических опытов. Искусственно полученный ряд случайных чисел используется для решения различных задач - при проведении лотерей, отбора и кастинга, при моделировании по методу Монте-Карло и другим методам, находящим применение в банковском деле, финансах и различных видах управленческой и аналити- ческой деятельности. Приходится встречать следующие понятия: генераторы случайных чисел, генераторы случайных событий, генераторы случайных символов и текстов. В качестве генераторов случайных чисел используется широкий ряд приспособлений: игральные кости, урны с шарами, «лототрон», таблица случайных чисел, и, конечно, специальные компьютерные программы. Системному аналитику сегодня часто приходится решать задачи в финансово-экономической области (например, задачи оптимизации взаимозачетов) с применением метода Монте-Карло, который в основе своей предполагает применение генератора случайных чисел. Генераторы случайных чисел незаменимы также и для построения случайных выборок при обследовании электората.
7.4. Искусство группировки дискретных данных
Для наглядного представления данных обследования (рассматриваем их как дискретную случайную величину) используются различные приемы, облегчающие, прежде всего, визуальный анализ полученной в эксперименте информации. К таким приемам относят таблицы, ряды распределений, графики и гистограммы. Их применяют с той целью, чтобы полученные данные представить наглядным образом. При этом можно в явной форме увидеть характерные особенности и результаты обследования.
Первичный материал, полученный исследователем, нуждается в соответствующей обработке. Обработка начинается с упорядочения и систематизации собранных данных.
Процесс систематизации результатов, объединение их в относительно однородные группы по некоторому признаку называется группировкой.
Группировка - это не просто технический прием,
представляющий первичные данные в ином виде, но,
прежде всего, операция, которая позволяет глубже
выявить связи между изучаемыми явлениями. От того, как группируется исходный материал, во многих случаях зависят выводы о природе изучаемого явления. По-
236 237
этому группировка должна быть обдуманной, отвечать требованию поставленной задачи и соответствовать содержанию изучаемого явления.
Наиболее распространенной формой группировки экспериментальных данных являются
статистические таблицы. Таблицы бывают простыми и сложными. К простым относятся таблицы, применяемые при альтернативной группировке, когда одна группа испытуемых противопоставляется другой; например, здоровые - больным, высокие люди - низким и т.п. Простые таблицы рекомендуется использовать, когда измерение изучаемых признаков производится в номинативной или ранговой шкале. При анализе финансовых и торговых операций, оценке электората также применяются таблицы.
Умение составлять таблицы из первичного «сырого» статистического материала пришло к людям не сразу.
Еще в XVIII в. таких умельцев уважительно называли «та- буляристами». К первым российским табуляристам относился знаменитый сподвижник П
ЕТРА
I И
ВАН
К
ИРИЛЛОВ
Усложнение таблиц происходит за счет возрастания объема и степени дифференцированности представленной в них информации. К сложным таблицам относят так называемые многопольные таблицы, которые могут использоваться при вьшснении причинно-следственных отношений между варьирующими признаками. Такие таблицы, как правило, имеют сложное строение, позволяющее одновременно осуществлять разные варианты группировки данных
52
. Примером сложной таблицы служит следующая таблица 4, в которой представлены классические данные Ф. Г
АЛЬТОНА
53
, иллюстрирующие наличие положительной зависимости между ростом родителей и их детей.
52. См , например, примеры заполнения компьютерных баз данных в части 4 настоящей книги
53. Цит по книге Е
РМОЛАЕВ
О Ю. Математическая статистика для психологов -
М.. Флинта, 2006
Таблица 4
Рост родителей
Рост детей в дюймах
Всего
60,7 62,7 64,7 66,7 68,7 70,7 72,7 74,7 74 4
4 72 1
4 11 17 20 6
62 70 1
2 21 48 83 66 22 8
251 68 1
15 56 130 148 69 11 430 66 1
15 19 56 41 11 1
144 64 2
7 10 14 4
37
Всего
5 39 107 255 387 163 58 14 928
Таблица организована таким образом, что позволяет оценить частоту встречаемости в популяции однозначно фиксируемых соотношений роста родителей и роста ребенка. Например, при низком росте родителей в 66 дюймов (1 дюйм равен 2,54 см) только один из 144 обследованных детей имел рост в
60,7 дюймов, а 56 детей имели рост 66,7 дюйма. В то же время высокий рост детей (74,7 дюйма) был зафиксирован только в тех семьях, где родители имели рост не ниже 70 дюймов.
Эта таблица позволяет выявить следующую тенденцию: у высоких родителей, как правило, дети имеют высокий рост, а у низкорослых родителей чаще бывают дети невысокого роста. Пример показывает, что таблицы имеют не только иллюстративное, но и аналитическое значение, позволяя обнаруживать разные аспекты связей между варьирующими признаками. Следует запомнить, что правильно составленные таблицы - это большое подспорье в аналитической работе, позволяющее одновременно осуществлять разные варианты группировки полученных данных.
Особую форму группировки данных представляют так называемые статистические ряды, или числовые значения признака, расположенного в определенном порядке.
238 239
В зависимости от того, какие признаки изучаются, статистические ряды делят на атрибутивные, вариационные, ряды динамики, регрессии, ряды ранжированных значений признаков и ряды накопленных частот. Построение ряда распределения или вариационного ряда является основным способом обобщения и сжатия несистематизированной статистической информации. Для такого построения проводится упорядоченное распределение единиц совокупности на группы по какому-либо варьирующему признаку. Каждой группе соответствует частота, т.е. количество единиц совокупности с необходимым признаком. Иногда в качестве частот рассматриваются относительные частоты, или частости, которые характеризуют доли или проценты от общего количества данных, попавших в соответствующие группы. Ряд распределения является'простой и компактной структурой, которая позволяет провести первичный анализ частотного распределения данных.
В статистике под рядом распределения понимают распределение частот по вариантам. Измеренные величины признака в выборке варьируют в пределах от минимального до максимального значения. Этот предел разбивают на так называемые классовые интервалы, которые, в зависимости от конкретных данных, могут быть как равными по величине, так и неравными.
Вариационным рядом распределения называют двойной ряд чисел, показывающий, каким образом числовые значения признака связаны с их повторяемостью в данной выборке. Например, работник кадровой службы провел тестирование интеллекта по определенному тесту (Векслера) у 25 менеджеров, и «сырые» данные оказались следующими:
6,9,5,7,10,8,9,10,8,11,9,12,9,8,10,11,9,10,8,10,7,9,10,9,11
Как видим, некоторые цифры попадаются в данном ряду по несколько раз. Следовательно, учитывая число повторений, данный ряд можно представить в более удобной, компактной форме:
240
Таблица 5
Варианты
X
L
6
9
5
7
10
8
11
12
Частоты вариант
f,
1
7
1
2
6
4
3
1
Это и есть вариационный ряд.
Числа, показывающие, сколько раз отдельные варианты встречаются в данной совокупности, называются частотами, или весами. Они обозначаются строчной буквой латинского алфавитами имеют индекс «i», соответствующий номеру переменной в вариационном ряду.
Общая сумма частот вариационного ряда равна объему выборки, т.е.
=1+7+1+2+6+4+3+1+25.
Частоты можно выражать и в процентах. При этом общая сумма частот или объем выборки принимается за
100%. Процент каждой отдельной частоты или веса под- считывается по формуле:
п , % = —• 100%.
'
п.
Процентное представление частот полезно в тех случаях, когда приходится сравнивать вариационные ряды, сильно различающиеся по объемам. Например, при тестировании электоральных предпочтений населения города, поселка городского типа и села были обследованы выборки численностью 1000, 300 и 100 человек соответственно. Различие в объемах выборок очевидно. Поэтому сравнение результатов тестирования лучше проводить, используя проценты частот.
Приведенный выше ряд можно представить по- другому. Если элементы ряда расположить в возрастающем порядке, то получится так называемый ранжированный вариационный ряд:
241
Таблица 6
Варианты
X
5 6
7 8
9 10 11 12
Частоты вариант
/,
1 1
2 4
7 6
3 1
Подобная форма представления более предпочтительна, чем в таблице 5, поскольку лучше иллюстрирует закономерность варьирования признака.
Частоты, характеризующие ранжированный вариационный ряд, можно складывать, или накапливать.
Накопленные частоты получаются последовательным суммированием значений частот от первой частоты до последней.
Поскольку аналитическим исследователям часто приходится иметь дело с изучением поведения сложных систем (множество игроков финансовых рынков, производители средств мобильной связи и т.д.), то данные, которыми приходится оперировать при подготовке принимаемых решений, желательно представлять в наглядной, достаточно простой и удобной для практического использования форме.
Одной из наиболее распространенных форм такого рода являются гистограммы.
Гистограмма
является разновидностью специального типа статистических графиков, которые называются диаграммами.
Диаграммы удобно использовать для сравнительного анализа значений различных статистических показателей, наглядного представления их динамики и структуры. Гистограмма изображается в виде фигуры, состоящей из примыкающих друг к другу вертикальных прямоугольных полос - столбиков, где высота каждого столбика пропорциональна частоте соответствующей группы, а ширина равна ее размеру. Реже употребляют диаграмму под названием «полигон». Полигон молено получить, если на координатной плоскости отметить точки, абсциссами которых будут средние точки групп, а ординатами - значения их частот, и соединить соседние точки отрезками прямых. Графическое представление ряда распределения в виде гистограммы и полигона позволяет провести быстрый визуальный анализ основных
242
характеристик распределения: наибольшего и наименьшего значений, зон концентрации данных и т.п.
Для практического освоения приемов построения гистограмм рассмотрим известный пример из классического учебника X. Б
ЛЭЛОКА
54
. Отчеты, поступившие из 93 избирательных участков города, напрямую не позволяют выявить «репрезентативный» процент голосов, поданных за кандидата N, поскольку представляют так называемый «сырой массив» (таб.7).
Процент голосов, поданных за кандидата N
(от участка к участку)
Таблица 7
39.2 11.6 36.3 26.3 37.1 15.3 27.3 23.5 13.3 28.1 26.3 27.1 35.1 23.0 26.1 31.0 36.3 27.3 22.8 33.4 25.6 21.6 46.8 7.1 16.8 26.9 46.6 44.3 58.1 33.1 13.4 27.8 33.4 22.1 42.7 33.0 36.3 20.7 9.3 26.3 29.9 39.4 5.3 24.3 17.8 18.2 37.1 21.6 Г17.5 12.3 23.6 37.2 37.1 25.1 27.1 28.8 27.8 33.6 26.5 28.3 26.9 24.8 41.0 33.6 19.3 43.7 28.2 19.9 83.6 47 1 4.8 9.7 39.5 32.3 22.4 15.1 26.3 26.1 29.2 14.3 14.6 21.6 37.9 37.1 24.9 10.0 20.7 11.8 22.9 36.0 46.1 21.5 13.3
Как видим, картина голосования получилась пестрая. Разброс голосов, поданных за кандидата N на участках города, варьирует от 4,8% до 83,6%.
Требуется представить эти данные в более наглядном виде. При работе с этим «сырым массивом», прежде всего, производится группировка данных по интервалам.
Очень важно правильно выбрать ширину интервала (и, соответственно, их количество). Если интервал группировки выбран чересчур узким, интервалов получится слишком много
54. B
LALOCK
H.
Social statistics. -N.Y.. McGraw-Hill, 1979.
243
и некоторые интервалы могут остаться незаполненными. Наоборот, если интервал выбран слишком большим, интервалов будет недостаточно и гистограмма получится неинформативной. Для выбора оптимальной ширины интервала специалисты уже давно используют формулу Стерджеса:
с - с .
max mm
3,22-lgff где в числителе - разность максимального и минимального вариантов (в нашем примере 4,8% и
83,6%), а в знаменателе - некая константа, умноженная на логарифм числа случаев (в нашем примере 93). Из формулы Стерджеса следует, что для нашего случая оптимальное значение ширины интервала Ас= 10%.
После группировки строится вариационный ряд в виде таблицы или гистограммы.
По оси абсцисс откладывается значение признака, а по оси ординат - соответствующая этому значению частота. На рис. 11 приведены две гистограммы, построенные по данным нашего примера.
20 ' 40
&>
80 100
Процент голосов за кандидата N
Рис. 11. Гистограммы, построенные по данным обработки
«сырого» массива из 93 случаев
(слева - гистограмма для близкой к оптимальной ширине
интервала в 10% голосов, справа - гистограмма для слишком
грубого разбиения вариационного ряда на
5 интервалов по 20% голосов в каждом)
Первая из них - с оптимальным размером интервала группировки, вторая (для сравнения) - с неоправданно большим размером интервала. При оптимальном выборе характеристик гистограммы легко определить т. н. «модальный» интервал, соответствующий наиболее часто встречающемуся варианту. Так, в нашем примере, наибольшее число участков зафиксировало 20-
30% голосов за кандидата N.
С помощью графиков аналитику приходится искать также ответы на вопросы следующего типа. Сколько единиц совокупности (или какой процент) имеют значения, превышающие (или не превышающие) заданную величину? Для ответа на подобный вопрос вычисляются кумулятивные (накопленные) частоты ряда распределения и строится кумулятивная гистограмма, или кумулята. Различают два типа кумулятивных гистограмм: «меньше, чем ...» и «более, чем ...».
Кумулятивные частоты для первого типа получаются последовательным суммированием (абсолютных или относительных) частот групп от низшей группы к высшей, а для второго типа, наоборот, от высшей к низшей. Для построения кумуляты на координатной плоскости отмечаются точки, абсциссы которых являются точными верхними границами групп для полигона типа «меньше, чем...» или точными нижними границами для полигона типа «более, чем...», а ординаты - значениями соответствующих кумулятивных частот.
Следует различать гистограммы и столбиковые
диаграммы. В общем случае столбиковые диаграммы представляются в виде набора отдельных столбиков, изображающих значения или уровни исследуемого показателя.
Столбики чертятся в системе прямоугольных координат: по горизонтальной оси откладываются основания столбиков
(размер произвольный, но, как правило, одинаковый для всех), а по вертикальной оси - высота столбика, характеризующая величину показателя в определенном масштабе. Располагаться столбики на горизонтальной оси могут по-разному: на одинаковом расстоянии друг от друга, вплотную друг к другу, от-
244 245
Ас-
20 40 60 80 100
Процент голосов за кандидата N
дельными группами и т.п. Возможно изображение на одном графике нескольких показателей отдельными столбиками, например, с разной штриховкой или разного цвета. Столбиковые диаграммы могут строиться с использованием различных шкал, в том числе шкал наименований и порядковых шкал. Пример столбиковой диаграммы, построенной по данным вариационного ряда из таблицы 6, приведен на рис. 12.
д
8 9
1 0 ' 1 1 "
Т2
Варианты х
Рис. 12. Столбиковая диаграмма,
соответствующая ряду распределения таб. б
Если поменять местами вертикальную и горизонтальную оси графика столбиковой диаграммы, то она трансформируется в полосовую диаграмму.
Столбики в этом случае становятся полосами, а масштабная шкала, по которой измеряются их длины, откладывается по горизонтальной оси. Наряду со столбиковыми и полосовыми диаграммами для изображения временных рядов показателей используются линейные диаграммы или просто линейные графики. Они чертятся на координатной плоскости, где по оси х откладываются временные интервалы, а по оси у — значения показателей. Для гра- фического отображения структурных показателей различных совокупностей, характеризующих соотношение их различных частей, применяются секторные диаграммы, где в качестве графического образа используется круг, разбитый на секторы.
Площадь каждого сектора пропорциональна удельному весу каждой отдельной структурной части.
Рассмотренные типы диаграмм являются примерами графических методов описательной статистики.
Следует отметить, что если предварительная группировка «сырых» данных и построение гистограмм и ку-мулят производятся на основе значений только одного варьирующего признака, то столбиковые, полосовые, линейные и секторные диаграммы позволяют анализировать статистическую информацию, классифицированную одновременно по нескольким признакам. Все указанные выше виды диаграмм могут быть представлены с помощью соответствующих современных компьютерных программ.
7.5. От дискретных к непрерывным
случайным величинам
В социологическом, маркетинговом анализе, в любом аналитическом исследовании приходится иметь дело с совокупностью, включающей много единиц. С формальной точки зрения такой анализ представляет собой массовые испытания. Формула
Бернулли
55
как раз и «перебрасывает мостик» от испытаний единичных к испытаниям массовым, статистическим. Поэтому она так популярна в среде аналитиков.
Первоначально основным применением формулы было обслуживание запросов азартных игроков в кости.
Формула отвечала на «алчные» вопросы типа: «Если монета подбрасывается 20 раз, то какова вероятность выпадения 15 «орлов»?» Сегодня формула Бернулли обслуживает научные интересы в разных областях и описывает
55 Я
КОБ
Б
ЕРНУЛЛИ
(1654-1705) - швейцарский математик
246 247
п
вероятность того, что в п испытаниях интересующий нас результат будет достигнут т раз:
где
С.-=-
т\(п -т)\
Здесь р - вероятность появления интересующего нас события в единичном испытании, q - вероятность противоположного события в единичном испытании, С^ - число сочетаний из п элементов по т. Напомним, что факториал
(обозначен восклицательным знаком) представляет собой последовательное произведение соответствующего последовательного ряда натуральных чисел. Например, 6!=1-2-3-4-5-6=720. По определению
0!=1. Напомним также, что при небольшом числе испытаний число сочетаний можно определить и без вычислений.
Определим число сочетаний из 4 элементов - а, Ъ, с,
d - по два элемента. Вот они, эти сочетания: ab, be, ас,
bd, ad, cd. Как видим, их шесть. Таким образом, в данном случае имеются всего 6 возможностей для организации пар элементов. Таким образом, С^=6. В более сложных случаях все-таки придется проводить вычисления по приведенной выше формуле для С^.
Рассмотрим следующую классическую задачу, на примере которой принято разъяснять практическую значимость формулы Бернулли. Необходимо найти вероятность того, что в родильном доме в случайной группе из 20 новорожденных:
A. Окажется 10 мальчиков.
Б. Окажется 9 мальчиков.
B. Окажется 8 мальчиков и т.д.
Решение этой задачи следующее. Для упрощения можно считать, что, в среднем, шансы рождения ребенка того или иного пола одинаковы. Поэтому вероятность обнаружения мальчика в единичном испытании положим равной р=0,5. Соответственно, вероятность противоположного события q=0,5. Из условий задачи прямо следует, что п=20. Величина т зависит от того, сколько мальчиков нас интересует в каждом конкретном случае. Так, при т=10 из формулы Бернулли следует:
Р
2О
(1О)=С2о*(О,5)
1О
*(О,5)
1О
=О,18
Расчеты для других значений т дают следующие результаты:
Р
20
(6)=0,04
Р
20
(5)=0,015
Р
20
(4)=0,005
Результаты молено представить в виде следующего графика (рис. 13).
0,20 -.
0,15 .
0,10 .
0,05 .
0,00 1 2 3 4 5 б 7 8 9 10 11 12 13 14 15 16 17 18 19
Событие: число мальчиков, обнаруженных в группе из
20 новорожденных
Рис. 13. Столбиковая диаграмма, показывающая
вероятность обнаружения того или иного числа мальчиков в
группе из 20 новорожденных
248 249
Р
20
(9)=0,16
Р
20
(8)=0,12
Р
20
(7)=0,07
Получившийся набор столбиков (или, строго говоря, совокупность значений Рп(т)) называют биномиальным распределением вероятностей. Также говорят, что формула
Бернулли
«генерирует» биномиальное распределение при изменении числа т
56
Обратим внимание: сумма вероятностей 7 «центральных событий» составляет 0,88. Это означает, что вероятность в группе из 20 младенцев обнаружить мальчиков (или девочек) в количестве, выходящем за пределы 10±3, весьма мала. Кроме того, как можно видеть, при р=д=0,5 решение имеет симметричный характер, а биномиальное распределение (если судить по длинам столбиков) имеет красивую колоколообразную форму.
Примером «несимметричного исхода» может служить следующая задача, встречающаяся при обслуживании массового производства. Вероятность брака при изготовлении детали на автоматизированном станке составляет 0,2. Требуется определить вероятности возможного числа появления бракованных деталей среди 5 случайно отобранных. Здесь «несимметрия» ответа обеспечивается тем, что р=0,2, а д=0,8.
Если вероятность появления в единичном испытании интересующего нас события очень мала (т.е.
р*1), то при больших п биномиальное распределение переходит в распределение Пуассона
57
где е=2,71828 .... Это т.н. основание натуральных ло гарифмов, трансцендентное число, введенное в обо рот в 1736 г. Л. Э
ЙЛЕРОМ
58
. Это распределение также называют законом редких явлений. Полезно заметить,
56. Т
АРАСОВ
Л. В. Закономерности окружающего мира: в 3 кн. - М.: ФИЗМАТЛИТ
2004.-Кн. 1.
57. С
ИМЕОН
Д
ЕКИ
П
УАССОН
(1781-1840) - выдающийся французский математик и физик
58. Л
ЕОНАРД
Э
ЙЛЕР
(1707-1783) - швейцарский математик что дисперсия случайной величины, распределенной «по
Пуассону», равна квадрату ее среднего значения.
Используя формулу
Пуассона, займемся практической задачей страхового бизнеса. Рассмотрим страхование от пожара на дачных участках.
Предположим, что, изучив статистические данные, мы оценили вероятность р того, что дачный домик в данной дачной местности сгорит в течение года. Это определяется целым рядом причин — общим состоянием электросети, характером растительности и почв, характерными для данного региона погодными условиями, криминогенной обстановкой и т.д. И вот теперь мы хотели бы выяснить, при каких условиях страхование домиков от пожара могло бы стать выгодным бизнесом. Понятно, что желательно, чтобы удалось застраховать побольше домиков и чтобы процент страховки был побольше. Однако при повышении процента страховки неизбежно снижение числа желающих застраховаться.
Предположим, что мы назначили плату за страховку домика в размере 1% от суммы, на которую домик застрахован, и что при этом удалось застраховать п=1000 домиков. Пусть W - сумма, на которую застрахован на год каждый домик, и значит - размер годовой страховки составляет 0,01 W. Это означает, что мы собрали деньги в сумме 0,01Wn=l0W. Мы рассчитываем, что в течение года нам придется выплатить клиентам не более 3/5 данной суммы, т.е. не более 6W. Иначе говоря, мы рассчитываем, что из застрахованных тысячи домиков сгорят в течение года не более шести. Вероятность Р того, что в течение года сгорят не более шести домиков из тысячи, есть:
Р= Р{0)+Р(1)+Р{2)+Р(3)+Р(Л)+Р(5)+Р(6), где Р(0) - вероятность того, что из тысячи домиков сгорит 0 домиков, и т.д. Каждое слагаемое Р(т)
подсчиты-вается по формуле Пуассона, причем, в качестве «успеха» здесь рассматривается факт сгорания домика. До-
250 251
пустим, что вероятность такого «успеха» р=0,01 и, следовательно, пр= 10. В этом случае искомая вероятность Р равна сумме:
Р= 0,0000+0,005+0,0023+0,0076+
+0,0189+0,0378+0,0631 = 0,1302.
Вероятность оказалась равной всего лишь 0,13. Эта величина указывает на то, что мы занялись явно невыгодным бизнесом.
А теперь предположим, что вероятность пожара на даче р=0,002 и, следовательно, пр=2. В этом случае искомая вероятность Р равна сумме
Р= 0,1353+0,2707+0,2707+0,1804+
+0,0902+0,0361+ 0,0120 = 0,9954.
Вот теперь наш страховой бизнес оказывается явно выгодным. Закон редких событий практически гарантирует (с вероятностью 0,9954), что не менее 2/5 суммы, вырученной при страховании, получит наша страховая фирма.
Вернемся к рассмотрению биномиального распределения при
«разумных» значениях
р,
принимающих значения в пределах от 0 до 1. В симметричных задачах «колокол» с характерным изгибом также характеризует и основополагающее в статистической науке т.н. Гауссово
59
(нормальное) распределение. Это неудивительно, потому что с ростом числа испытаний п биномиальное распределение как раз и переходит в распределение Гауссово. Однако вычисления по формуле Бернулли для более 50 испытаний уже представляют существенную техническую проблему, расчеты становятся невыносимо громоздкими.
Например, практически невозможно, пользуясь формулой Бернулли, решить следующую задачу из области кадрового менеджмента. На фирме работают
1825 со-
59 К
АРЛ
-Ф
РИДРИХ
Г
АУСС
(1777-1855) - знаменитый немецкий математик
252 трудников. Какова вероятность того, что 1 сентября является днем рождения одновременно четырех (пяти, шести...) сотрудников? Приходится искать другие пути решения. Начиная с XVIII в. математики пытались решить проблему вероятности успеха в массовых испытаниях. Решение было найдено с введением в научный обиход понятия «непрерывной случайной величины».
Мы уже отмечали, что случайные величины могут носить как дискретный, так и непрерывный характер.
Были рассмотрены основные законы распределения дискретных случайных величин, которые часто используются в прикладном статистическом анализе.
Теперь перейдем к описанию непрерывных случайных величин и их законов распределения. Дискретная случайная величина является прерывной, т.е. все ее возможные значения отделены друг от друга конечными интервалами и могут быть заранее перечислены. Дискретная случайная величина в вероятностном смысле будет полностью определена, если задан ее ряд распределения.
С непрерывной случайной величиной так не получится.
Возможные значения
непрерывной
случайной величины непрерывно заполняют некоторый промежуток и не могут быть заранее перечислены.
Примерами непрерывных случайных величин могут служить сроки службы различных товаров: электрических лампочек, батареек, автомобильных покрышек, электроприборов и т.п. Так, срок службы каждого из перечисленных товаров может измеряться промежутком времени от нуля до некоторой конечной верхней границы. В общем случае непрерывные случайные величины могут характеризовать результаты измерений: длительности процесса, веса, длины, площади, высоты, напряжения в электросети и т.д.
Теоретически (предполагается, что возможна любая точность измерений) результат измерения может быть выражен любым действительным числом, взятым из некоторого промежутка.
Для нас очень важно то обстоятельство, что свойствами непрерывной случайной величины обладают
253
и данные, полученные в результате массовых испытаний. Так, если в предыдущем примере с младенцами при испытании на относительно небольшом числе (20 единицах) наиболее вероятная величина (10 мальчиков) выпадает хоть и с небольшой, но все-таки с конечной вероятностью, то при испытании на 2 млн. младенцев вероятность обнаружить в этой группе именно 1 млн. мальчиков - исчезающе мала. А между тем при изучении демографических проблем системному аналитику приходится сталкиваться именно с такими величинами.
Для непрерывной случайной величины записать таблицу ряда распределения невозможно, так как она должна включать все ее значения, а непрерывная случайная величина имеет бесконечное множество значений, которые нельзяи перечислить. Поэтому для характеристики распределения вероятностей непрерывной случайной величины удобно пользоваться вероятностью события Х<х, где х - некоторая текущая переменная. Очевидно, вероятность того, что Х<х,
зависит от текущей переменной х и является некоторой функцией от х. Эта функция называется функцией распределения случайной величины х и обозначается
F(x):
F(x) = P(X
Функция распределения F(x) называется также
интегральной
функцией
распределения
или
интегральным законом распределения. Функция распределения может существовать как для непрерывных, так и для дискретных случайных величин. С вероятностной точки зрения функция распределения полностью характеризует случайную величину, т.е. является одной из форм закона распределения. Для непрерывной случайной величины функция распределения представляет собой функцию, непрерывную и дифференцируемую во всех точках. Ее график является плавной кривой, имеющей касательную в любой точке. Ее значения лежат в интервале от 0 до 1.
На практике часто возникают ситуации, когда требуется определить вероятность того, что случайная величина принимает значения, находящиеся в некотором промежутке, например от а до р. Другими словами, требуется определить вероятность события а<х<р. Было отмечено, что F(x) имеет производную в любой точке х. По определению производной:
F(x+Ax)-F(x)
Ах
Введем обозначение
Функция Дх) характеризует плотность
60
, с которой распределяются значения вероятности случайной величины в данной точке. Она называется плотностью распределения непрерывной случайной величины X.
Ее также называют дифференциальной функцией распределения.
График кривой, изображающей плотность распределения, называется кривой распределения. Приближением кривой распределения является сглаженный полигон, рассматриваемый ранее как кривая частотного распределения данных.
Плотность распределения является одной из форм закона распределения. Однако она не является универсальной и существует только для непрерывных случайных величин. Очень важно учитывать, что площадь, ограниченная кривой распределения и осью абсцисс, равна единице.
Количественные характеристики непрерывной случайной величины выражаются в виде интегралов
6Х
60. Плотность вероятности, плотность распределения вероятностей (distribution
density) - характеристика ряда распределения, показывающая, сколько единиц совокупности приходится на единицу интервала.
61. С
УЛИЦКИЙ
В Н. Методы статистического анализа в управлении. - М : Дело, 2002.
254 255
lim=
ЛХ-.0
В практических задачах иногда встречаются непрерывные случайные величины, распределенные по закону равномерной плотности. Такие величины еще называются равномерно распределенными.
Для равномерно распределенной случайной величины имеются определенные границы, внутри которых все значения равновероятны, т.е. плотность распределения является постоянной величиной на всем промежутке изменения случайной величины.
Исключительно важную роль играет в статистическом анализе Гауссов (нормальный) закон
распределения. Сумма достаточно большого числа независимых (или слабо зависимых) случайных величин распределена почти по нормальному закону, причем слагаемые случайные величины могут подчиняться каким угодно законам распределения. Это свойство широко реализуется на практике, так как большинство массовых явлений формируется как наложение многих отдельных факторов (причин). Распределение мужчин определенной возрастной категории, распределение дальности полета снаряда при последовательных выстрелах одной и той же пушки, разброс размеров деталей при массовом производстве - вот лишь немногие примеры проявления закона Гауссового
(нормального) распределения. Рассмотрим этот закон более подробно.
В XVII в. группа европейских математиков проводила небольшие частные исследования, которые впоследствии оформились в теорию вероятностей. Эти исследования, проведенные, в частности, Б
ЛЕЗОМ
П
АСКАЛЕМ
(1623-1662) и П
ЬЕРОМ
Ф
ЕРМА
(1601-1665), выполнялись по просьбе
Ш
ЕВАЛЬЕ ДЕ
М
ЕРЕ
,
азартного игрока, которому было особенно важно понять природу удачи. Одним из наиболее значительных событий в ранней истории теории вероятностей была публикация в 1713 г. знаменитой формулы
Вернулли
(которую мы рассматривали в предыдущем разделе). Однако, как мы успели убедиться, вычисления Р
п
(тп) по этой формуле для больших значений п —» <х> были слишком громоздки. Ни один разумный человек не станет непосредственно вычислять вероятность того, что при
10000 подбрасываний монеты, например, выпадут 8000 или
256 более «орлов». Хотя такие вычисления могут быть необходимы, трудоемкость их все же слишком велика
(даже сегодня, с использованием компьютера).
Естественно, что в начале XVIII столетия были предприняты новые усилия для поиска удобных приближенных методов вычислений в задачах теории вероятностей. В 1730 г. Дж. Стерлинг опубликовал формулу, аппроксимирующую произведение первых п целых чисел, то есть:
которая часто встречается в задачах теории вероятностей б2
. И в том же году английский математик
А
БРАХАМ ДЕ
М
УАВР
(1667-1754) предложил формулу, справедливую для любого числа испытаний и частного случая p=q=0,5. Спустя еще полвека французский математик П
ЬЕР
С
ИМОН
Л
АПЛАС
(1749-1827) обобщил формулу Муавра на случай произвольных вероятностей отдельных успехов в бесконечной серии испытаний. Это и была формула для плотности нормального распределения вероятностей. В современной записи, предложенной Гауссом, она имеет вид:
и =•
2яо где х - среднее арифметическое, а - среднеквадратичное отклонение.
График этой зависимости - симметричная, «коло- колообразная» кривая, известная под названием нормальной кривой (рис. 14). Мы говорим о некоторой нормальной кривой, ибо уравнение задает лишь некоторую типичную форму графика. Меняя значения
х н а , мы можем сдвигать конкретную нормальную кривую по числовой оси по горизонтали и менять ее размах. Самая высокая точка кривой расположена над нулевым значением х, в этой точке и и=0,3989.
Заметьте, что кривая
62 Т
АРАСОВ
Л В Мир, построенный на вероятности - М Педагогика, 1984 257 1
симметрична относительно вертикали, проведенной через точку х=0. Другая особенность нормальной кривой
-ее характерный изгиб. И, наконец, самое главное обстоятельство для практических применений состоит том, что площадь под кривой равна 1.
0,4
0,3-
-3
Рис. 14. Кривая нормального (Гауссовою) распределения,
приведенного к стандартному виду (площадь под кривой в
пределах от х-1 до х=1 составляет 68% общей площади под
кривой)
Фактически существует бесконечное множество нормальных кривых, отличающихся друг от друга парой значений л: и ст. Что же общего у всех этих нормальных кривых? Для наших целей - например, для вычисления распределений при игре на бирже - их наиболее важное общее свойство заключается в доле площади под кривой между любыми двумя точками, выраженными в стандартных отклонениях. Например, в любом нормальном распределении приблизительно:
1. 68% площади под кривой лежит в пределах одной ст от среднего х в любом направлении (то есть в пределах х±а);
258 2. 95% площади под кривой лежит в пределах двух ст от среднего х;
3. 99,7% площади под кривой лежит в пределах трех ст от среднего х.
Возвращаясь к формуле Бернулли, отметим, что при определенных условиях нормальное распределение используется в качестве биномиального распределения в случае, если расчет биномиальных вероятностей затруднен. Основная проблема, которая здесь возникает, заключается в том, что дискретное биномиальное распределение заменяется непрерывным нормальным законом распределения. Поэтому при замене вводится специальная корректировочная величина, которая называется
«поправкой на непрерывность».
Как оказалось, нормальный закон распределения встречается в теории вероятностей и ее приложениях весьма часто. Уже Л
АПЛАС обратил внимание на то, что по нормальному закону распределяются случайные ошибки измерений. Он же предположил, что это связано с наличием болыпого количества независимо действующих причин, под воздействием которых появляются ошибки в измерениях. П.Л. Ч
ЕБЫШЁВ развил эту мысль и доказал в конце 80-х годов XIX столетия важную предельную теорему, согласно которой при выполнении некоторых специальных условий распределение для суммы п
независимых случайных величин приближается в пределе при п-*оо к нормальному закону распределения. Спустя десять с небольшим лет (в 1901 г.) эту предельную теорему в более общем виде доказал ученик и последователь П.Л. Ч
ЕБЫШЕ
-
ВА
A.M. Л
ЯПУНОВ
В его формулировке предельная теорема получила название центральной предельной теоремы.
Важный пример, иллюстрирующий практическую важность центральной предельной теоремы, связан с массовым производством, существующим ныне во многих отраслях народного хозяйства. При массовом производстве изготавливаются огромные партии однотипных изделий, характеристики которых должны, разумеется, соответствовать определенным стандартам.
Разнообразные факторы случайного характера неизбеж-
259
-2
-1
но приводят к случайным отклонениям от стандарта.
Таких факторов много; это связано, в частности, с тем, что выпуск изделия предполагает, как правило, большое число операций, а все они выполняются лишь с какой-то степенью точности. Каждый фактор в отдельности порождает ничтожное отклонение от стандарта, характеризуемое случайной величиной X; сумма же £Х может давать ощутимые отклонения. Согласно центральной предельной теореме суммарное отклонение от стандарта (случайная величина £Х) должно иметь закон распределения, близкий к нормальному.
Д
Е
М
УАВР
,
изобретая нормальную кривую для частного применения, то есть для получения простого приближенного решения в приложениях теории вероятностей, и представить себе не мог, что его открытие найдет применение во многих задачах бизнеса, управления и политики, прогнозирования социально- экономического развития. Действительно, нормальное распределение получило удивительно широкое распространение. Оно играет важную роль как в описательной статистике, так и в теории статистического вывода.
Иногда складывается неправильное представление, что существует необходимая связь между нормальным распределением - идеальным описанием некоторых распределений частот
- и практически любыми данными. Нормальная кривая - это изобретение математика, довольно хорошо описывающее полигон частот измерений нескольких различных переменных. Никогда не была, да и не будет, получена совокупность данных, которые были бы точно нормально распределены
63
. Множество различных уравнений кривых достаточно хорошо сгладило бы эмпирические графики частот, но возникают известные математические преимущества, когда
«данные сглаживаются» нормальной кривой.
Известные математические свойства нормальной кривой обеспечивают простые и изящные доказательства во многих задачах теории статистического вывода.
63. Это некоторая математическая модель реального распределения величин в социо-экономической сфере.
260
I
Применение нормального закона для решения практических задач зиждется на двух основных принципах. Во-первых, с учетом конкретной задачи нормальная кривая приводится к так называемому
«стандартному виду». Стандартный вид кривой соответствует следующим значениям основных параметров: среднему безразмерному арифметическому
Зс=О и среднеквадратичному безразмерному отклонению ст=1. Привести кривую к стандартному виду нетрудно м
. Например, вы занимаетесь массовым производством мужских костюмов и имеете дело с распределением по росту мужчин определенной возрастной группы. При среднем росте этой группы X =
173 см и среднеквадратичном отклонении а
х
= 6 см нормальная кривая приобретает стандартный вид, если вы перейдете к новой системе координат и положите:
Х-173
где X - исходный рост i-ro мужчины. Теперь новая средняя х неизбежно получится равной нулю, а новое значение о принимает единичное значение.
Второй принципиальный момент состоит в том, что исчисление вероятности той или иной группы событий с использованием нормальной кривой состоит в довольно- таки рутинном вычислении фрагмента площади под нормальной кривой, опирающейся на тот или иной отрезок оси абсцисс. С математической точки зрения, вычисление площади под кривой состоит в вычислении интеграла данной функции в пределах данного отрезка.
Для нормальной кривой вычисление данного интеграла
(так называемого интеграла Лапласа) в обычных функциях невозможно. К счастью, уже давно созданы таблицы этого интеграла, и аналитики всего мира широко этими таблицами пользуются. Их можно найти в любом статисти-
64. Стандартный вид использует безразмерное представление не случайно.
Аналитик при решении задачи освобождается от частного - единиц измерения
(сантиметров, рублей...) - и получает возможность пользоваться универсальными формулами.
261
ческом справочнике. Как мы помним, площадь под всей кривой равна 1. Значит, в таблице интеграла Лапласа содержатся значения, равные долям единицы б5
Для соответствия заданной выше группы мужчин требуется определить доли костюмов 4 роста (176-182 см) и 3 роста (170-176 см), которые нужно предусмотреть в общем объеме выпуска. После приведения нормальной кривой плотности распределения мужчин по росту, находим по таблице интеграла Лапласа, что доля площади криволинейной трапеции под кривой, опирающейся на отрезок 176-182 см, примерно равна
0,24, а соответствующая доля площади для отрезка 170-
176 см примерно равна 0,38. Таким образом, получаем важный маркетинговый результат: мужскому населению требуется костюмов 4 роста в 1,6 раз меньше, чем костюмов 3 роста.
1 ... 10 11 12 13 14 15 16 17 ... 25
7.3. Основные понятия теории вероятностей,
необходимые для аналитических исследований
Аргументация выводов математической и, соответственно, социальной статистики основывается на законах теории вероятностей.
События взаимосвязаны. Одни из них являются исходом или следствием других. Первичное действие назовем
«испытанием». Испытание приводит к появлению того или иного события. «Случайное событие» - такое событие, исход которого нельзя предугадать.
Случайному событию противопоставляется «событие детерминированное» с гарантированным исходом.
Принято говорить, что случайное событие состоит из тех или иных элементарных исходов испытания. Мы не можем предсказать, произойдет это событие или нет, не потому, что вообще ничего не знаем о его природе, а именно потому, что имеем дело со множеством возможных исходов, пусть даже каждый из них в отдельности мы можем описать. Подбрасывание монетки (игра в орлянку) влечет за собой 2 возможных элементарных исхода - орел или решка. Подбрасывание игрального кубика (игра в кости) влечет за собой 6 элементарных исходов.
Будем называть исходы «благоприятными», если они приводят к интересующему нас результату. Например, если нас интересует выпадение четного числа на грани кубика, то благоприятными оказываются 3 из 6 исходов. Исходы, имеющие одинаковые шансы, называют «равновозможными». Ситуация, при которой элементарные исходы имеют различные шансы к реализации, является крайне нежелательной и встречается в шулерской игре или связана с какими-то ошибками исследователя. Исходы, появление одного из которых в единичном испытании исключает появление другого в том же испытании, называют
«несовместными». «Вероятность случайного события» - количественная характеристика появления случайного события.
Р
А
- вероятность случайного события А - является отношением числа благоприятных исходов п к общему числу несовместных равновозможных событий N.
Р
А
= n/N
Очевидно, что имеют место следующие важные соотношения:
Р
А
=1 достоверное событие.
Р
А
=0 невозможное событие.
Если события А и Б несовместны, то вероятность того, что произойдет или то или другое, равна сумме вероятностей наступления каждого события:
р = р + р
А иди Б
А
Б
Нас устроит событие, состоящее в выпадении грани 2 или грани 3 при единичном подбрасывании кубика. При вероятности каждого из элементарных исходов 1/6 вероятность интересующего нас события -
1/6+1/6=1/3.
Если имеется сложное событие, состоящее в одновременном выполнении двух независимых событий, то вероятность того, что оно произойдет, равна произведению вероятностей каждого события.
р = Р*Р
234 235
Нас устроит событие, состоящее в том, что при двукратном подбрасывании кубика выпадут грани 2 и 3
(не важно, в какой последовательности). При вероятности каждого из элементарных исходов 1/6 вероятность интересующего нас события
-
1/6*1/6=1/36.
С развитием теории вероятности, когда обнаружился ее мощный потенциал для решения разного рода прикладных задач, появилось понятие
«случайной величины» или «случайного числа». Если случайные события состоят в появлении тех или иных чисел, то эти числа называют случайными. Случайная величина ставится в соответствие случайным событиям. Де-факто мы уже ввели ее, обсуждая игру в кости. Очень важно не путать случайную величину и случайное событие. Так, факт падения кубика той или иной гранью вверх - случайное событие, а число на этой грани - случайная величина. Случайные величины бывают как дискретными, так и непрерывными. Количество бракованных изделий, изменяющееся от партии к партии, представляет дискретную случайную величину. Рост и вес новорожденных представляет непрерывные случайные величины. Эти величины изменяются случайно от одного ребенка к другому, принимая любые значения в некотором интервале. Принципиально невозможно перечислить все значения такой величины хотя бы потому, что нельзя указать два соседних значения
(подобно тому, как нельзя указать на числовой оси две соседние точки). Кроме того, вероятность каждого конкретного значения непрерывной случайной величины равна нулю. В следующих разделах рассматриваются приемы анализа дискретных и непрерывных случайных величин.
Случайные числа возникают не только в результате эмпирических опытов. Искусственно полученный ряд случайных чисел используется для решения различных задач - при проведении лотерей, отбора и кастинга, при моделировании по методу Монте-Карло и другим методам, находящим применение в банковском деле, финансах и различных видах управленческой и аналити- ческой деятельности. Приходится встречать следующие понятия: генераторы случайных чисел, генераторы случайных событий, генераторы случайных символов и текстов. В качестве генераторов случайных чисел используется широкий ряд приспособлений: игральные кости, урны с шарами, «лототрон», таблица случайных чисел, и, конечно, специальные компьютерные программы. Системному аналитику сегодня часто приходится решать задачи в финансово-экономической области (например, задачи оптимизации взаимозачетов) с применением метода Монте-Карло, который в основе своей предполагает применение генератора случайных чисел. Генераторы случайных чисел незаменимы также и для построения случайных выборок при обследовании электората.
7.4. Искусство группировки дискретных данных
Для наглядного представления данных обследования (рассматриваем их как дискретную случайную величину) используются различные приемы, облегчающие, прежде всего, визуальный анализ полученной в эксперименте информации. К таким приемам относят таблицы, ряды распределений, графики и гистограммы. Их применяют с той целью, чтобы полученные данные представить наглядным образом. При этом можно в явной форме увидеть характерные особенности и результаты обследования.
Первичный материал, полученный исследователем, нуждается в соответствующей обработке. Обработка начинается с упорядочения и систематизации собранных данных.
Процесс систематизации результатов, объединение их в относительно однородные группы по некоторому признаку называется группировкой.
Группировка - это не просто технический прием,
представляющий первичные данные в ином виде, но,
прежде всего, операция, которая позволяет глубже
выявить связи между изучаемыми явлениями. От того, как группируется исходный материал, во многих случаях зависят выводы о природе изучаемого явления. По-
236 237
этому группировка должна быть обдуманной, отвечать требованию поставленной задачи и соответствовать содержанию изучаемого явления.
Наиболее распространенной формой группировки экспериментальных данных являются
статистические таблицы. Таблицы бывают простыми и сложными. К простым относятся таблицы, применяемые при альтернативной группировке, когда одна группа испытуемых противопоставляется другой; например, здоровые - больным, высокие люди - низким и т.п. Простые таблицы рекомендуется использовать, когда измерение изучаемых признаков производится в номинативной или ранговой шкале. При анализе финансовых и торговых операций, оценке электората также применяются таблицы.
Умение составлять таблицы из первичного «сырого» статистического материала пришло к людям не сразу.
Еще в XVIII в. таких умельцев уважительно называли «та- буляристами». К первым российским табуляристам относился знаменитый сподвижник П
ЕТРА
I И
ВАН
К
ИРИЛЛОВ
Усложнение таблиц происходит за счет возрастания объема и степени дифференцированности представленной в них информации. К сложным таблицам относят так называемые многопольные таблицы, которые могут использоваться при вьшснении причинно-следственных отношений между варьирующими признаками. Такие таблицы, как правило, имеют сложное строение, позволяющее одновременно осуществлять разные варианты группировки данных
52
. Примером сложной таблицы служит следующая таблица 4, в которой представлены классические данные Ф. Г
АЛЬТОНА
53
, иллюстрирующие наличие положительной зависимости между ростом родителей и их детей.
52. См , например, примеры заполнения компьютерных баз данных в части 4 настоящей книги
53. Цит по книге Е
РМОЛАЕВ
О Ю. Математическая статистика для психологов -
М.. Флинта, 2006
Таблица 4
Рост родителей
Рост детей в дюймах
Всего
60,7 62,7 64,7 66,7 68,7 70,7 72,7 74,7 74 4
4 72 1
4 11 17 20 6
62 70 1
2 21 48 83 66 22 8
251 68 1
15 56 130 148 69 11 430 66 1
15 19 56 41 11 1
144 64 2
7 10 14 4
37
Всего
5 39 107 255 387 163 58 14 928
Таблица организована таким образом, что позволяет оценить частоту встречаемости в популяции однозначно фиксируемых соотношений роста родителей и роста ребенка. Например, при низком росте родителей в 66 дюймов (1 дюйм равен 2,54 см) только один из 144 обследованных детей имел рост в
60,7 дюймов, а 56 детей имели рост 66,7 дюйма. В то же время высокий рост детей (74,7 дюйма) был зафиксирован только в тех семьях, где родители имели рост не ниже 70 дюймов.
Эта таблица позволяет выявить следующую тенденцию: у высоких родителей, как правило, дети имеют высокий рост, а у низкорослых родителей чаще бывают дети невысокого роста. Пример показывает, что таблицы имеют не только иллюстративное, но и аналитическое значение, позволяя обнаруживать разные аспекты связей между варьирующими признаками. Следует запомнить, что правильно составленные таблицы - это большое подспорье в аналитической работе, позволяющее одновременно осуществлять разные варианты группировки полученных данных.
Особую форму группировки данных представляют так называемые статистические ряды, или числовые значения признака, расположенного в определенном порядке.
238 239
В зависимости от того, какие признаки изучаются, статистические ряды делят на атрибутивные, вариационные, ряды динамики, регрессии, ряды ранжированных значений признаков и ряды накопленных частот. Построение ряда распределения или вариационного ряда является основным способом обобщения и сжатия несистематизированной статистической информации. Для такого построения проводится упорядоченное распределение единиц совокупности на группы по какому-либо варьирующему признаку. Каждой группе соответствует частота, т.е. количество единиц совокупности с необходимым признаком. Иногда в качестве частот рассматриваются относительные частоты, или частости, которые характеризуют доли или проценты от общего количества данных, попавших в соответствующие группы. Ряд распределения является'простой и компактной структурой, которая позволяет провести первичный анализ частотного распределения данных.
В статистике под рядом распределения понимают распределение частот по вариантам. Измеренные величины признака в выборке варьируют в пределах от минимального до максимального значения. Этот предел разбивают на так называемые классовые интервалы, которые, в зависимости от конкретных данных, могут быть как равными по величине, так и неравными.
Вариационным рядом распределения называют двойной ряд чисел, показывающий, каким образом числовые значения признака связаны с их повторяемостью в данной выборке. Например, работник кадровой службы провел тестирование интеллекта по определенному тесту (Векслера) у 25 менеджеров, и «сырые» данные оказались следующими:
6,9,5,7,10,8,9,10,8,11,9,12,9,8,10,11,9,10,8,10,7,9,10,9,11
Как видим, некоторые цифры попадаются в данном ряду по несколько раз. Следовательно, учитывая число повторений, данный ряд можно представить в более удобной, компактной форме:
240
Таблица 5
Варианты
X
L
6
9
5
7
10
8
11
12
Частоты вариант
f,
1
7
1
2
6
4
3
1
Это и есть вариационный ряд.
Числа, показывающие, сколько раз отдельные варианты встречаются в данной совокупности, называются частотами, или весами. Они обозначаются строчной буквой латинского алфавитами имеют индекс «i», соответствующий номеру переменной в вариационном ряду.
Общая сумма частот вариационного ряда равна объему выборки, т.е.
=1+7+1+2+6+4+3+1+25.
Частоты можно выражать и в процентах. При этом общая сумма частот или объем выборки принимается за
100%. Процент каждой отдельной частоты или веса под- считывается по формуле:
п , % = —• 100%.
'
п.
Процентное представление частот полезно в тех случаях, когда приходится сравнивать вариационные ряды, сильно различающиеся по объемам. Например, при тестировании электоральных предпочтений населения города, поселка городского типа и села были обследованы выборки численностью 1000, 300 и 100 человек соответственно. Различие в объемах выборок очевидно. Поэтому сравнение результатов тестирования лучше проводить, используя проценты частот.
Приведенный выше ряд можно представить по- другому. Если элементы ряда расположить в возрастающем порядке, то получится так называемый ранжированный вариационный ряд:
241
Таблица 6
Варианты
X
5 6
7 8
9 10 11 12
Частоты вариант
/,
1 1
2 4
7 6
3 1
Подобная форма представления более предпочтительна, чем в таблице 5, поскольку лучше иллюстрирует закономерность варьирования признака.
Частоты, характеризующие ранжированный вариационный ряд, можно складывать, или накапливать.
Накопленные частоты получаются последовательным суммированием значений частот от первой частоты до последней.
Поскольку аналитическим исследователям часто приходится иметь дело с изучением поведения сложных систем (множество игроков финансовых рынков, производители средств мобильной связи и т.д.), то данные, которыми приходится оперировать при подготовке принимаемых решений, желательно представлять в наглядной, достаточно простой и удобной для практического использования форме.
Одной из наиболее распространенных форм такого рода являются гистограммы.
Гистограмма
является разновидностью специального типа статистических графиков, которые называются диаграммами.
Диаграммы удобно использовать для сравнительного анализа значений различных статистических показателей, наглядного представления их динамики и структуры. Гистограмма изображается в виде фигуры, состоящей из примыкающих друг к другу вертикальных прямоугольных полос - столбиков, где высота каждого столбика пропорциональна частоте соответствующей группы, а ширина равна ее размеру. Реже употребляют диаграмму под названием «полигон». Полигон молено получить, если на координатной плоскости отметить точки, абсциссами которых будут средние точки групп, а ординатами - значения их частот, и соединить соседние точки отрезками прямых. Графическое представление ряда распределения в виде гистограммы и полигона позволяет провести быстрый визуальный анализ основных
242
характеристик распределения: наибольшего и наименьшего значений, зон концентрации данных и т.п.
Для практического освоения приемов построения гистограмм рассмотрим известный пример из классического учебника X. Б
ЛЭЛОКА
54
. Отчеты, поступившие из 93 избирательных участков города, напрямую не позволяют выявить «репрезентативный» процент голосов, поданных за кандидата N, поскольку представляют так называемый «сырой массив» (таб.7).
Процент голосов, поданных за кандидата N
(от участка к участку)
Таблица 7
39.2 11.6 36.3 26.3 37.1 15.3 27.3 23.5 13.3 28.1 26.3 27.1 35.1 23.0 26.1 31.0 36.3 27.3 22.8 33.4 25.6 21.6 46.8 7.1 16.8 26.9 46.6 44.3 58.1 33.1 13.4 27.8 33.4 22.1 42.7 33.0 36.3 20.7 9.3 26.3 29.9 39.4 5.3 24.3 17.8 18.2 37.1 21.6 Г17.5 12.3 23.6 37.2 37.1 25.1 27.1 28.8 27.8 33.6 26.5 28.3 26.9 24.8 41.0 33.6 19.3 43.7 28.2 19.9 83.6 47 1 4.8 9.7 39.5 32.3 22.4 15.1 26.3 26.1 29.2 14.3 14.6 21.6 37.9 37.1 24.9 10.0 20.7 11.8 22.9 36.0 46.1 21.5 13.3
Как видим, картина голосования получилась пестрая. Разброс голосов, поданных за кандидата N на участках города, варьирует от 4,8% до 83,6%.
Требуется представить эти данные в более наглядном виде. При работе с этим «сырым массивом», прежде всего, производится группировка данных по интервалам.
Очень важно правильно выбрать ширину интервала (и, соответственно, их количество). Если интервал группировки выбран чересчур узким, интервалов получится слишком много
54. B
LALOCK
H.
Social statistics. -N.Y.. McGraw-Hill, 1979.
243
и некоторые интервалы могут остаться незаполненными. Наоборот, если интервал выбран слишком большим, интервалов будет недостаточно и гистограмма получится неинформативной. Для выбора оптимальной ширины интервала специалисты уже давно используют формулу Стерджеса:
с - с .
max mm
3,22-lgff где в числителе - разность максимального и минимального вариантов (в нашем примере 4,8% и
83,6%), а в знаменателе - некая константа, умноженная на логарифм числа случаев (в нашем примере 93). Из формулы Стерджеса следует, что для нашего случая оптимальное значение ширины интервала Ас= 10%.
После группировки строится вариационный ряд в виде таблицы или гистограммы.
По оси абсцисс откладывается значение признака, а по оси ординат - соответствующая этому значению частота. На рис. 11 приведены две гистограммы, построенные по данным нашего примера.
20 ' 40
&>
80 100
Процент голосов за кандидата N
Рис. 11. Гистограммы, построенные по данным обработки
«сырого» массива из 93 случаев
(слева - гистограмма для близкой к оптимальной ширине
интервала в 10% голосов, справа - гистограмма для слишком
грубого разбиения вариационного ряда на
5 интервалов по 20% голосов в каждом)
Первая из них - с оптимальным размером интервала группировки, вторая (для сравнения) - с неоправданно большим размером интервала. При оптимальном выборе характеристик гистограммы легко определить т. н. «модальный» интервал, соответствующий наиболее часто встречающемуся варианту. Так, в нашем примере, наибольшее число участков зафиксировало 20-
30% голосов за кандидата N.
С помощью графиков аналитику приходится искать также ответы на вопросы следующего типа. Сколько единиц совокупности (или какой процент) имеют значения, превышающие (или не превышающие) заданную величину? Для ответа на подобный вопрос вычисляются кумулятивные (накопленные) частоты ряда распределения и строится кумулятивная гистограмма, или кумулята. Различают два типа кумулятивных гистограмм: «меньше, чем ...» и «более, чем ...».
Кумулятивные частоты для первого типа получаются последовательным суммированием (абсолютных или относительных) частот групп от низшей группы к высшей, а для второго типа, наоборот, от высшей к низшей. Для построения кумуляты на координатной плоскости отмечаются точки, абсциссы которых являются точными верхними границами групп для полигона типа «меньше, чем...» или точными нижними границами для полигона типа «более, чем...», а ординаты - значениями соответствующих кумулятивных частот.
Следует различать гистограммы и столбиковые
диаграммы. В общем случае столбиковые диаграммы представляются в виде набора отдельных столбиков, изображающих значения или уровни исследуемого показателя.
Столбики чертятся в системе прямоугольных координат: по горизонтальной оси откладываются основания столбиков
(размер произвольный, но, как правило, одинаковый для всех), а по вертикальной оси - высота столбика, характеризующая величину показателя в определенном масштабе. Располагаться столбики на горизонтальной оси могут по-разному: на одинаковом расстоянии друг от друга, вплотную друг к другу, от-
244 245
Ас-
20 40 60 80 100
Процент голосов за кандидата N
дельными группами и т.п. Возможно изображение на одном графике нескольких показателей отдельными столбиками, например, с разной штриховкой или разного цвета. Столбиковые диаграммы могут строиться с использованием различных шкал, в том числе шкал наименований и порядковых шкал. Пример столбиковой диаграммы, построенной по данным вариационного ряда из таблицы 6, приведен на рис. 12.
д
8 9
1 0 ' 1 1 "
Т2
Варианты х
Рис. 12. Столбиковая диаграмма,
соответствующая ряду распределения таб. б
Если поменять местами вертикальную и горизонтальную оси графика столбиковой диаграммы, то она трансформируется в полосовую диаграмму.
Столбики в этом случае становятся полосами, а масштабная шкала, по которой измеряются их длины, откладывается по горизонтальной оси. Наряду со столбиковыми и полосовыми диаграммами для изображения временных рядов показателей используются линейные диаграммы или просто линейные графики. Они чертятся на координатной плоскости, где по оси х откладываются временные интервалы, а по оси у — значения показателей. Для гра- фического отображения структурных показателей различных совокупностей, характеризующих соотношение их различных частей, применяются секторные диаграммы, где в качестве графического образа используется круг, разбитый на секторы.
Площадь каждого сектора пропорциональна удельному весу каждой отдельной структурной части.
Рассмотренные типы диаграмм являются примерами графических методов описательной статистики.
Следует отметить, что если предварительная группировка «сырых» данных и построение гистограмм и ку-мулят производятся на основе значений только одного варьирующего признака, то столбиковые, полосовые, линейные и секторные диаграммы позволяют анализировать статистическую информацию, классифицированную одновременно по нескольким признакам. Все указанные выше виды диаграмм могут быть представлены с помощью соответствующих современных компьютерных программ.
7.5. От дискретных к непрерывным
случайным величинам
В социологическом, маркетинговом анализе, в любом аналитическом исследовании приходится иметь дело с совокупностью, включающей много единиц. С формальной точки зрения такой анализ представляет собой массовые испытания. Формула
Бернулли
55
как раз и «перебрасывает мостик» от испытаний единичных к испытаниям массовым, статистическим. Поэтому она так популярна в среде аналитиков.
Первоначально основным применением формулы было обслуживание запросов азартных игроков в кости.
Формула отвечала на «алчные» вопросы типа: «Если монета подбрасывается 20 раз, то какова вероятность выпадения 15 «орлов»?» Сегодня формула Бернулли обслуживает научные интересы в разных областях и описывает
55 Я
КОБ
Б
ЕРНУЛЛИ
(1654-1705) - швейцарский математик
246 247
п
вероятность того, что в п испытаниях интересующий нас результат будет достигнут т раз:
где
С.-=-
т\(п -т)\
Здесь р - вероятность появления интересующего нас события в единичном испытании, q - вероятность противоположного события в единичном испытании, С^ - число сочетаний из п элементов по т. Напомним, что факториал
(обозначен восклицательным знаком) представляет собой последовательное произведение соответствующего последовательного ряда натуральных чисел. Например, 6!=1-2-3-4-5-6=720. По определению
0!=1. Напомним также, что при небольшом числе испытаний число сочетаний можно определить и без вычислений.
Определим число сочетаний из 4 элементов - а, Ъ, с,
d - по два элемента. Вот они, эти сочетания: ab, be, ас,
bd, ad, cd. Как видим, их шесть. Таким образом, в данном случае имеются всего 6 возможностей для организации пар элементов. Таким образом, С^=6. В более сложных случаях все-таки придется проводить вычисления по приведенной выше формуле для С^.
Рассмотрим следующую классическую задачу, на примере которой принято разъяснять практическую значимость формулы Бернулли. Необходимо найти вероятность того, что в родильном доме в случайной группе из 20 новорожденных:
A. Окажется 10 мальчиков.
Б. Окажется 9 мальчиков.
B. Окажется 8 мальчиков и т.д.
Решение этой задачи следующее. Для упрощения можно считать, что, в среднем, шансы рождения ребенка того или иного пола одинаковы. Поэтому вероятность обнаружения мальчика в единичном испытании положим равной р=0,5. Соответственно, вероятность противоположного события q=0,5. Из условий задачи прямо следует, что п=20. Величина т зависит от того, сколько мальчиков нас интересует в каждом конкретном случае. Так, при т=10 из формулы Бернулли следует:
Р
2О
(1О)=С2о*(О,5)
1О
*(О,5)
1О
=О,18
Расчеты для других значений т дают следующие результаты:
Р
20
(6)=0,04
Р
20
(5)=0,015
Р
20
(4)=0,005
Результаты молено представить в виде следующего графика (рис. 13).
0,20 -.
0,15 .
0,10 .
0,05 .
0,00 1 2 3 4 5 б 7 8 9 10 11 12 13 14 15 16 17 18 19
Событие: число мальчиков, обнаруженных в группе из
20 новорожденных
Рис. 13. Столбиковая диаграмма, показывающая
вероятность обнаружения того или иного числа мальчиков в
группе из 20 новорожденных
248 249
Р
20
(9)=0,16
Р
20
(8)=0,12
Р
20
(7)=0,07
Получившийся набор столбиков (или, строго говоря, совокупность значений Рп(т)) называют биномиальным распределением вероятностей. Также говорят, что формула
Бернулли
«генерирует» биномиальное распределение при изменении числа т
56
Обратим внимание: сумма вероятностей 7 «центральных событий» составляет 0,88. Это означает, что вероятность в группе из 20 младенцев обнаружить мальчиков (или девочек) в количестве, выходящем за пределы 10±3, весьма мала. Кроме того, как можно видеть, при р=д=0,5 решение имеет симметричный характер, а биномиальное распределение (если судить по длинам столбиков) имеет красивую колоколообразную форму.
Примером «несимметричного исхода» может служить следующая задача, встречающаяся при обслуживании массового производства. Вероятность брака при изготовлении детали на автоматизированном станке составляет 0,2. Требуется определить вероятности возможного числа появления бракованных деталей среди 5 случайно отобранных. Здесь «несимметрия» ответа обеспечивается тем, что р=0,2, а д=0,8.
Если вероятность появления в единичном испытании интересующего нас события очень мала (т.е.
р*1), то при больших п биномиальное распределение переходит в распределение Пуассона
57
где е=2,71828 .... Это т.н. основание натуральных ло гарифмов, трансцендентное число, введенное в обо рот в 1736 г. Л. Э
ЙЛЕРОМ
58
. Это распределение также называют законом редких явлений. Полезно заметить,
56. Т
АРАСОВ
Л. В. Закономерности окружающего мира: в 3 кн. - М.: ФИЗМАТЛИТ
2004.-Кн. 1.
57. С
ИМЕОН
Д
ЕКИ
П
УАССОН
(1781-1840) - выдающийся французский математик и физик
58. Л
ЕОНАРД
Э
ЙЛЕР
(1707-1783) - швейцарский математик что дисперсия случайной величины, распределенной «по
Пуассону», равна квадрату ее среднего значения.
Используя формулу
Пуассона, займемся практической задачей страхового бизнеса. Рассмотрим страхование от пожара на дачных участках.
Предположим, что, изучив статистические данные, мы оценили вероятность р того, что дачный домик в данной дачной местности сгорит в течение года. Это определяется целым рядом причин — общим состоянием электросети, характером растительности и почв, характерными для данного региона погодными условиями, криминогенной обстановкой и т.д. И вот теперь мы хотели бы выяснить, при каких условиях страхование домиков от пожара могло бы стать выгодным бизнесом. Понятно, что желательно, чтобы удалось застраховать побольше домиков и чтобы процент страховки был побольше. Однако при повышении процента страховки неизбежно снижение числа желающих застраховаться.
Предположим, что мы назначили плату за страховку домика в размере 1% от суммы, на которую домик застрахован, и что при этом удалось застраховать п=1000 домиков. Пусть W - сумма, на которую застрахован на год каждый домик, и значит - размер годовой страховки составляет 0,01 W. Это означает, что мы собрали деньги в сумме 0,01Wn=l0W. Мы рассчитываем, что в течение года нам придется выплатить клиентам не более 3/5 данной суммы, т.е. не более 6W. Иначе говоря, мы рассчитываем, что из застрахованных тысячи домиков сгорят в течение года не более шести. Вероятность Р того, что в течение года сгорят не более шести домиков из тысячи, есть:
Р= Р{0)+Р(1)+Р{2)+Р(3)+Р(Л)+Р(5)+Р(6), где Р(0) - вероятность того, что из тысячи домиков сгорит 0 домиков, и т.д. Каждое слагаемое Р(т)
подсчиты-вается по формуле Пуассона, причем, в качестве «успеха» здесь рассматривается факт сгорания домика. До-
250 251
пустим, что вероятность такого «успеха» р=0,01 и, следовательно, пр= 10. В этом случае искомая вероятность Р равна сумме:
Р= 0,0000+0,005+0,0023+0,0076+
+0,0189+0,0378+0,0631 = 0,1302.
Вероятность оказалась равной всего лишь 0,13. Эта величина указывает на то, что мы занялись явно невыгодным бизнесом.
А теперь предположим, что вероятность пожара на даче р=0,002 и, следовательно, пр=2. В этом случае искомая вероятность Р равна сумме
Р= 0,1353+0,2707+0,2707+0,1804+
+0,0902+0,0361+ 0,0120 = 0,9954.
Вот теперь наш страховой бизнес оказывается явно выгодным. Закон редких событий практически гарантирует (с вероятностью 0,9954), что не менее 2/5 суммы, вырученной при страховании, получит наша страховая фирма.
Вернемся к рассмотрению биномиального распределения при
«разумных» значениях
р,
принимающих значения в пределах от 0 до 1. В симметричных задачах «колокол» с характерным изгибом также характеризует и основополагающее в статистической науке т.н. Гауссово
59
(нормальное) распределение. Это неудивительно, потому что с ростом числа испытаний п биномиальное распределение как раз и переходит в распределение Гауссово. Однако вычисления по формуле Бернулли для более 50 испытаний уже представляют существенную техническую проблему, расчеты становятся невыносимо громоздкими.
Например, практически невозможно, пользуясь формулой Бернулли, решить следующую задачу из области кадрового менеджмента. На фирме работают
1825 со-
59 К
АРЛ
-Ф
РИДРИХ
Г
АУСС
(1777-1855) - знаменитый немецкий математик
252 трудников. Какова вероятность того, что 1 сентября является днем рождения одновременно четырех (пяти, шести...) сотрудников? Приходится искать другие пути решения. Начиная с XVIII в. математики пытались решить проблему вероятности успеха в массовых испытаниях. Решение было найдено с введением в научный обиход понятия «непрерывной случайной величины».
Мы уже отмечали, что случайные величины могут носить как дискретный, так и непрерывный характер.
Были рассмотрены основные законы распределения дискретных случайных величин, которые часто используются в прикладном статистическом анализе.
Теперь перейдем к описанию непрерывных случайных величин и их законов распределения. Дискретная случайная величина является прерывной, т.е. все ее возможные значения отделены друг от друга конечными интервалами и могут быть заранее перечислены. Дискретная случайная величина в вероятностном смысле будет полностью определена, если задан ее ряд распределения.
С непрерывной случайной величиной так не получится.
Возможные значения
непрерывной
случайной величины непрерывно заполняют некоторый промежуток и не могут быть заранее перечислены.
Примерами непрерывных случайных величин могут служить сроки службы различных товаров: электрических лампочек, батареек, автомобильных покрышек, электроприборов и т.п. Так, срок службы каждого из перечисленных товаров может измеряться промежутком времени от нуля до некоторой конечной верхней границы. В общем случае непрерывные случайные величины могут характеризовать результаты измерений: длительности процесса, веса, длины, площади, высоты, напряжения в электросети и т.д.
Теоретически (предполагается, что возможна любая точность измерений) результат измерения может быть выражен любым действительным числом, взятым из некоторого промежутка.
Для нас очень важно то обстоятельство, что свойствами непрерывной случайной величины обладают
253
и данные, полученные в результате массовых испытаний. Так, если в предыдущем примере с младенцами при испытании на относительно небольшом числе (20 единицах) наиболее вероятная величина (10 мальчиков) выпадает хоть и с небольшой, но все-таки с конечной вероятностью, то при испытании на 2 млн. младенцев вероятность обнаружить в этой группе именно 1 млн. мальчиков - исчезающе мала. А между тем при изучении демографических проблем системному аналитику приходится сталкиваться именно с такими величинами.
Для непрерывной случайной величины записать таблицу ряда распределения невозможно, так как она должна включать все ее значения, а непрерывная случайная величина имеет бесконечное множество значений, которые нельзяи перечислить. Поэтому для характеристики распределения вероятностей непрерывной случайной величины удобно пользоваться вероятностью события Х<х, где х - некоторая текущая переменная. Очевидно, вероятность того, что Х<х,
зависит от текущей переменной х и является некоторой функцией от х. Эта функция называется функцией распределения случайной величины х и обозначается
F(x):
F(x) = P(X
Функция распределения F(x) называется также
интегральной
функцией
распределения
или
интегральным законом распределения. Функция распределения может существовать как для непрерывных, так и для дискретных случайных величин. С вероятностной точки зрения функция распределения полностью характеризует случайную величину, т.е. является одной из форм закона распределения. Для непрерывной случайной величины функция распределения представляет собой функцию, непрерывную и дифференцируемую во всех точках. Ее график является плавной кривой, имеющей касательную в любой точке. Ее значения лежат в интервале от 0 до 1.
На практике часто возникают ситуации, когда требуется определить вероятность того, что случайная величина принимает значения, находящиеся в некотором промежутке, например от а до р. Другими словами, требуется определить вероятность события а<х<р. Было отмечено, что F(x) имеет производную в любой точке х. По определению производной:
F(x+Ax)-F(x)
Ах
Введем обозначение
Функция Дх) характеризует плотность
60
, с которой распределяются значения вероятности случайной величины в данной точке. Она называется плотностью распределения непрерывной случайной величины X.
Ее также называют дифференциальной функцией распределения.
График кривой, изображающей плотность распределения, называется кривой распределения. Приближением кривой распределения является сглаженный полигон, рассматриваемый ранее как кривая частотного распределения данных.
Плотность распределения является одной из форм закона распределения. Однако она не является универсальной и существует только для непрерывных случайных величин. Очень важно учитывать, что площадь, ограниченная кривой распределения и осью абсцисс, равна единице.
Количественные характеристики непрерывной случайной величины выражаются в виде интегралов
6Х
60. Плотность вероятности, плотность распределения вероятностей (distribution
density) - характеристика ряда распределения, показывающая, сколько единиц совокупности приходится на единицу интервала.
61. С
УЛИЦКИЙ
В Н. Методы статистического анализа в управлении. - М : Дело, 2002.
254 255
lim=
ЛХ-.0
В практических задачах иногда встречаются непрерывные случайные величины, распределенные по закону равномерной плотности. Такие величины еще называются равномерно распределенными.
Для равномерно распределенной случайной величины имеются определенные границы, внутри которых все значения равновероятны, т.е. плотность распределения является постоянной величиной на всем промежутке изменения случайной величины.
Исключительно важную роль играет в статистическом анализе Гауссов (нормальный) закон
распределения. Сумма достаточно большого числа независимых (или слабо зависимых) случайных величин распределена почти по нормальному закону, причем слагаемые случайные величины могут подчиняться каким угодно законам распределения. Это свойство широко реализуется на практике, так как большинство массовых явлений формируется как наложение многих отдельных факторов (причин). Распределение мужчин определенной возрастной категории, распределение дальности полета снаряда при последовательных выстрелах одной и той же пушки, разброс размеров деталей при массовом производстве - вот лишь немногие примеры проявления закона Гауссового
(нормального) распределения. Рассмотрим этот закон более подробно.
В XVII в. группа европейских математиков проводила небольшие частные исследования, которые впоследствии оформились в теорию вероятностей. Эти исследования, проведенные, в частности, Б
ЛЕЗОМ
П
АСКАЛЕМ
(1623-1662) и П
ЬЕРОМ
Ф
ЕРМА
(1601-1665), выполнялись по просьбе
Ш
ЕВАЛЬЕ ДЕ
М
ЕРЕ
,
азартного игрока, которому было особенно важно понять природу удачи. Одним из наиболее значительных событий в ранней истории теории вероятностей была публикация в 1713 г. знаменитой формулы
Вернулли
(которую мы рассматривали в предыдущем разделе). Однако, как мы успели убедиться, вычисления Р
п
(тп) по этой формуле для больших значений п —» <х> были слишком громоздки. Ни один разумный человек не станет непосредственно вычислять вероятность того, что при
10000 подбрасываний монеты, например, выпадут 8000 или
256 более «орлов». Хотя такие вычисления могут быть необходимы, трудоемкость их все же слишком велика
(даже сегодня, с использованием компьютера).
Естественно, что в начале XVIII столетия были предприняты новые усилия для поиска удобных приближенных методов вычислений в задачах теории вероятностей. В 1730 г. Дж. Стерлинг опубликовал формулу, аппроксимирующую произведение первых п целых чисел, то есть:
которая часто встречается в задачах теории вероятностей б2
. И в том же году английский математик
А
БРАХАМ ДЕ
М
УАВР
(1667-1754) предложил формулу, справедливую для любого числа испытаний и частного случая p=q=0,5. Спустя еще полвека французский математик П
ЬЕР
С
ИМОН
Л
АПЛАС
(1749-1827) обобщил формулу Муавра на случай произвольных вероятностей отдельных успехов в бесконечной серии испытаний. Это и была формула для плотности нормального распределения вероятностей. В современной записи, предложенной Гауссом, она имеет вид:
и =•
2яо где х - среднее арифметическое, а - среднеквадратичное отклонение.
График этой зависимости - симметричная, «коло- колообразная» кривая, известная под названием нормальной кривой (рис. 14). Мы говорим о некоторой нормальной кривой, ибо уравнение задает лишь некоторую типичную форму графика. Меняя значения
х н а , мы можем сдвигать конкретную нормальную кривую по числовой оси по горизонтали и менять ее размах. Самая высокая точка кривой расположена над нулевым значением х, в этой точке и и=0,3989.
Заметьте, что кривая
62 Т
АРАСОВ
Л В Мир, построенный на вероятности - М Педагогика, 1984 257 1
симметрична относительно вертикали, проведенной через точку х=0. Другая особенность нормальной кривой
-ее характерный изгиб. И, наконец, самое главное обстоятельство для практических применений состоит том, что площадь под кривой равна 1.
0,4
0,3-
-3
Рис. 14. Кривая нормального (Гауссовою) распределения,
приведенного к стандартному виду (площадь под кривой в
пределах от х-1 до х=1 составляет 68% общей площади под
кривой)
Фактически существует бесконечное множество нормальных кривых, отличающихся друг от друга парой значений л: и ст. Что же общего у всех этих нормальных кривых? Для наших целей - например, для вычисления распределений при игре на бирже - их наиболее важное общее свойство заключается в доле площади под кривой между любыми двумя точками, выраженными в стандартных отклонениях. Например, в любом нормальном распределении приблизительно:
1. 68% площади под кривой лежит в пределах одной ст от среднего х в любом направлении (то есть в пределах х±а);
258 2. 95% площади под кривой лежит в пределах двух ст от среднего х;
3. 99,7% площади под кривой лежит в пределах трех ст от среднего х.
Возвращаясь к формуле Бернулли, отметим, что при определенных условиях нормальное распределение используется в качестве биномиального распределения в случае, если расчет биномиальных вероятностей затруднен. Основная проблема, которая здесь возникает, заключается в том, что дискретное биномиальное распределение заменяется непрерывным нормальным законом распределения. Поэтому при замене вводится специальная корректировочная величина, которая называется
«поправкой на непрерывность».
Как оказалось, нормальный закон распределения встречается в теории вероятностей и ее приложениях весьма часто. Уже Л
АПЛАС обратил внимание на то, что по нормальному закону распределяются случайные ошибки измерений. Он же предположил, что это связано с наличием болыпого количества независимо действующих причин, под воздействием которых появляются ошибки в измерениях. П.Л. Ч
ЕБЫШЁВ развил эту мысль и доказал в конце 80-х годов XIX столетия важную предельную теорему, согласно которой при выполнении некоторых специальных условий распределение для суммы п
независимых случайных величин приближается в пределе при п-*оо к нормальному закону распределения. Спустя десять с небольшим лет (в 1901 г.) эту предельную теорему в более общем виде доказал ученик и последователь П.Л. Ч
ЕБЫШЕ
-
ВА
A.M. Л
ЯПУНОВ
В его формулировке предельная теорема получила название центральной предельной теоремы.
Важный пример, иллюстрирующий практическую важность центральной предельной теоремы, связан с массовым производством, существующим ныне во многих отраслях народного хозяйства. При массовом производстве изготавливаются огромные партии однотипных изделий, характеристики которых должны, разумеется, соответствовать определенным стандартам.
Разнообразные факторы случайного характера неизбеж-
259
-2
-1
но приводят к случайным отклонениям от стандарта.
Таких факторов много; это связано, в частности, с тем, что выпуск изделия предполагает, как правило, большое число операций, а все они выполняются лишь с какой-то степенью точности. Каждый фактор в отдельности порождает ничтожное отклонение от стандарта, характеризуемое случайной величиной X; сумма же £Х может давать ощутимые отклонения. Согласно центральной предельной теореме суммарное отклонение от стандарта (случайная величина £Х) должно иметь закон распределения, близкий к нормальному.
Д
Е
М
УАВР
,
изобретая нормальную кривую для частного применения, то есть для получения простого приближенного решения в приложениях теории вероятностей, и представить себе не мог, что его открытие найдет применение во многих задачах бизнеса, управления и политики, прогнозирования социально- экономического развития. Действительно, нормальное распределение получило удивительно широкое распространение. Оно играет важную роль как в описательной статистике, так и в теории статистического вывода.
Иногда складывается неправильное представление, что существует необходимая связь между нормальным распределением - идеальным описанием некоторых распределений частот
- и практически любыми данными. Нормальная кривая - это изобретение математика, довольно хорошо описывающее полигон частот измерений нескольких различных переменных. Никогда не была, да и не будет, получена совокупность данных, которые были бы точно нормально распределены
63
. Множество различных уравнений кривых достаточно хорошо сгладило бы эмпирические графики частот, но возникают известные математические преимущества, когда
«данные сглаживаются» нормальной кривой.
Известные математические свойства нормальной кривой обеспечивают простые и изящные доказательства во многих задачах теории статистического вывода.
63. Это некоторая математическая модель реального распределения величин в социо-экономической сфере.
260
I
Применение нормального закона для решения практических задач зиждется на двух основных принципах. Во-первых, с учетом конкретной задачи нормальная кривая приводится к так называемому
«стандартному виду». Стандартный вид кривой соответствует следующим значениям основных параметров: среднему безразмерному арифметическому
Зс=О и среднеквадратичному безразмерному отклонению ст=1. Привести кривую к стандартному виду нетрудно м
. Например, вы занимаетесь массовым производством мужских костюмов и имеете дело с распределением по росту мужчин определенной возрастной группы. При среднем росте этой группы X =
173 см и среднеквадратичном отклонении а
х
= 6 см нормальная кривая приобретает стандартный вид, если вы перейдете к новой системе координат и положите:
Х-173
где X - исходный рост i-ro мужчины. Теперь новая средняя х неизбежно получится равной нулю, а новое значение о принимает единичное значение.
Второй принципиальный момент состоит в том, что исчисление вероятности той или иной группы событий с использованием нормальной кривой состоит в довольно- таки рутинном вычислении фрагмента площади под нормальной кривой, опирающейся на тот или иной отрезок оси абсцисс. С математической точки зрения, вычисление площади под кривой состоит в вычислении интеграла данной функции в пределах данного отрезка.
Для нормальной кривой вычисление данного интеграла
(так называемого интеграла Лапласа) в обычных функциях невозможно. К счастью, уже давно созданы таблицы этого интеграла, и аналитики всего мира широко этими таблицами пользуются. Их можно найти в любом статисти-
64. Стандартный вид использует безразмерное представление не случайно.
Аналитик при решении задачи освобождается от частного - единиц измерения
(сантиметров, рублей...) - и получает возможность пользоваться универсальными формулами.
261
ческом справочнике. Как мы помним, площадь под всей кривой равна 1. Значит, в таблице интеграла Лапласа содержатся значения, равные долям единицы б5
Для соответствия заданной выше группы мужчин требуется определить доли костюмов 4 роста (176-182 см) и 3 роста (170-176 см), которые нужно предусмотреть в общем объеме выпуска. После приведения нормальной кривой плотности распределения мужчин по росту, находим по таблице интеграла Лапласа, что доля площади криволинейной трапеции под кривой, опирающейся на отрезок 176-182 см, примерно равна
0,24, а соответствующая доля площади для отрезка 170-
176 см примерно равна 0,38. Таким образом, получаем важный маркетинговый результат: мужскому населению требуется костюмов 4 роста в 1,6 раз меньше, чем костюмов 3 роста.
1 ... 10 11 12 13 14 15 16 17 ... 25
Нас устроит событие, состоящее в том, что при двукратном подбрасывании кубика выпадут грани 2 и 3
(не важно, в какой последовательности). При вероятности каждого из элементарных исходов 1/6 вероятность интересующего нас события
-
1/6*1/6=1/36.
С развитием теории вероятности, когда обнаружился ее мощный потенциал для решения разного рода прикладных задач, появилось понятие
«случайной величины» или «случайного числа». Если случайные события состоят в появлении тех или иных чисел, то эти числа называют случайными. Случайная величина ставится в соответствие случайным событиям. Де-факто мы уже ввели ее, обсуждая игру в кости. Очень важно не путать случайную величину и случайное событие. Так, факт падения кубика той или иной гранью вверх - случайное событие, а число на этой грани - случайная величина. Случайные величины бывают как дискретными, так и непрерывными. Количество бракованных изделий, изменяющееся от партии к партии, представляет дискретную случайную величину. Рост и вес новорожденных представляет непрерывные случайные величины. Эти величины изменяются случайно от одного ребенка к другому, принимая любые значения в некотором интервале. Принципиально невозможно перечислить все значения такой величины хотя бы потому, что нельзя указать два соседних значения
(подобно тому, как нельзя указать на числовой оси две соседние точки). Кроме того, вероятность каждого конкретного значения непрерывной случайной величины равна нулю. В следующих разделах рассматриваются приемы анализа дискретных и непрерывных случайных величин.
Случайные числа возникают не только в результате эмпирических опытов. Искусственно полученный ряд случайных чисел используется для решения различных задач - при проведении лотерей, отбора и кастинга, при моделировании по методу Монте-Карло и другим методам, находящим применение в банковском деле, финансах и различных видах управленческой и аналити- ческой деятельности. Приходится встречать следующие понятия: генераторы случайных чисел, генераторы случайных событий, генераторы случайных символов и текстов. В качестве генераторов случайных чисел используется широкий ряд приспособлений: игральные кости, урны с шарами, «лототрон», таблица случайных чисел, и, конечно, специальные компьютерные программы. Системному аналитику сегодня часто приходится решать задачи в финансово-экономической области (например, задачи оптимизации взаимозачетов) с применением метода Монте-Карло, который в основе своей предполагает применение генератора случайных чисел. Генераторы случайных чисел незаменимы также и для построения случайных выборок при обследовании электората.
7.4. Искусство группировки дискретных данных
Для наглядного представления данных обследования (рассматриваем их как дискретную случайную величину) используются различные приемы, облегчающие, прежде всего, визуальный анализ полученной в эксперименте информации. К таким приемам относят таблицы, ряды распределений, графики и гистограммы. Их применяют с той целью, чтобы полученные данные представить наглядным образом. При этом можно в явной форме увидеть характерные особенности и результаты обследования.
Первичный материал, полученный исследователем, нуждается в соответствующей обработке. Обработка начинается с упорядочения и систематизации собранных данных.
Процесс систематизации результатов, объединение их в относительно однородные группы по некоторому признаку называется группировкой.
Группировка - это не просто технический прием,
представляющий первичные данные в ином виде, но,
прежде всего, операция, которая позволяет глубже
выявить связи между изучаемыми явлениями. От того, как группируется исходный материал, во многих случаях зависят выводы о природе изучаемого явления. По-
236 237
Наиболее распространенной формой группировки экспериментальных данных являются
статистические таблицы. Таблицы бывают простыми и сложными. К простым относятся таблицы, применяемые при альтернативной группировке, когда одна группа испытуемых противопоставляется другой; например, здоровые - больным, высокие люди - низким и т.п. Простые таблицы рекомендуется использовать, когда измерение изучаемых признаков производится в номинативной или ранговой шкале. При анализе финансовых и торговых операций, оценке электората также применяются таблицы.
Умение составлять таблицы из первичного «сырого» статистического материала пришло к людям не сразу.
Еще в XVIII в. таких умельцев уважительно называли «та- буляристами». К первым российским табуляристам относился знаменитый сподвижник П
ЕТРА
I И
ВАН
К
ИРИЛЛОВ
Усложнение таблиц происходит за счет возрастания объема и степени дифференцированности представленной в них информации. К сложным таблицам относят так называемые многопольные таблицы, которые могут использоваться при вьшснении причинно-следственных отношений между варьирующими признаками. Такие таблицы, как правило, имеют сложное строение, позволяющее одновременно осуществлять разные варианты группировки данных
52
. Примером сложной таблицы служит следующая таблица 4, в которой представлены классические данные Ф. Г
АЛЬТОНА
53
, иллюстрирующие наличие положительной зависимости между ростом родителей и их детей.
52. См , например, примеры заполнения компьютерных баз данных в части 4 настоящей книги
53. Цит по книге Е
РМОЛАЕВ
О Ю. Математическая статистика для психологов -
М.. Флинта, 2006
Таблица 4
Рост родителей
Рост детей в дюймах
Всего
60,7 62,7 64,7 66,7 68,7 70,7 72,7 74,7 74 4
4 72 1
4 11 17 20 6
62 70 1
2 21 48 83 66 22 8
251 68 1
15 56 130 148 69 11 430 66 1
15 19 56 41 11 1
144 64 2
7 10 14 4
37
Всего
5 39 107 255 387 163 58 14 928
Таблица организована таким образом, что позволяет оценить частоту встречаемости в популяции однозначно фиксируемых соотношений роста родителей и роста ребенка. Например, при низком росте родителей в 66 дюймов (1 дюйм равен 2,54 см) только один из 144 обследованных детей имел рост в
60,7 дюймов, а 56 детей имели рост 66,7 дюйма. В то же время высокий рост детей (74,7 дюйма) был зафиксирован только в тех семьях, где родители имели рост не ниже 70 дюймов.
Эта таблица позволяет выявить следующую тенденцию: у высоких родителей, как правило, дети имеют высокий рост, а у низкорослых родителей чаще бывают дети невысокого роста. Пример показывает, что таблицы имеют не только иллюстративное, но и аналитическое значение, позволяя обнаруживать разные аспекты связей между варьирующими признаками. Следует запомнить, что правильно составленные таблицы - это большое подспорье в аналитической работе, позволяющее одновременно осуществлять разные варианты группировки полученных данных.
Особую форму группировки данных представляют так называемые статистические ряды, или числовые значения признака, расположенного в определенном порядке.
238 239
В зависимости от того, какие признаки изучаются, статистические ряды делят на атрибутивные, вариационные, ряды динамики, регрессии, ряды ранжированных значений признаков и ряды накопленных частот. Построение ряда распределения или вариационного ряда является основным способом обобщения и сжатия несистематизированной статистической информации. Для такого построения проводится упорядоченное распределение единиц совокупности на группы по какому-либо варьирующему признаку. Каждой группе соответствует частота, т.е. количество единиц совокупности с необходимым признаком. Иногда в качестве частот рассматриваются относительные частоты, или частости, которые характеризуют доли или проценты от общего количества данных, попавших в соответствующие группы. Ряд распределения является'простой и компактной структурой, которая позволяет провести первичный анализ частотного распределения данных.
В статистике под рядом распределения понимают распределение частот по вариантам. Измеренные величины признака в выборке варьируют в пределах от минимального до максимального значения. Этот предел разбивают на так называемые классовые интервалы, которые, в зависимости от конкретных данных, могут быть как равными по величине, так и неравными.
Вариационным рядом распределения называют двойной ряд чисел, показывающий, каким образом числовые значения признака связаны с их повторяемостью в данной выборке. Например, работник кадровой службы провел тестирование интеллекта по определенному тесту (Векслера) у 25 менеджеров, и «сырые» данные оказались следующими:
6,9,5,7,10,8,9,10,8,11,9,12,9,8,10,11,9,10,8,10,7,9,10,9,11
Как видим, некоторые цифры попадаются в данном ряду по несколько раз. Следовательно, учитывая число повторений, данный ряд можно представить в более удобной, компактной форме:
240
Таблица 5
Варианты
X
L
6
9
5
7
10
8
11
12
Частоты вариант
f,
1
7
1
2
6
4
3
1
Это и есть вариационный ряд.
Числа, показывающие, сколько раз отдельные варианты встречаются в данной совокупности, называются частотами, или весами. Они обозначаются строчной буквой латинского алфавитами имеют индекс «i», соответствующий номеру переменной в вариационном ряду.
Общая сумма частот вариационного ряда равна объему выборки, т.е.
=1+7+1+2+6+4+3+1+25.
Частоты можно выражать и в процентах. При этом общая сумма частот или объем выборки принимается за
100%. Процент каждой отдельной частоты или веса под- считывается по формуле:
п , % = —• 100%.
'
п.
Процентное представление частот полезно в тех случаях, когда приходится сравнивать вариационные ряды, сильно различающиеся по объемам. Например, при тестировании электоральных предпочтений населения города, поселка городского типа и села были обследованы выборки численностью 1000, 300 и 100 человек соответственно. Различие в объемах выборок очевидно. Поэтому сравнение результатов тестирования лучше проводить, используя проценты частот.
Приведенный выше ряд можно представить по- другому. Если элементы ряда расположить в возрастающем порядке, то получится так называемый ранжированный вариационный ряд:
241
Таблица 6
Варианты
X
5 6
7 8
9 10 11 12
Частоты вариант
/,
1 1
2 4
7 6
3 1
Подобная форма представления более предпочтительна, чем в таблице 5, поскольку лучше иллюстрирует закономерность варьирования признака.
Частоты, характеризующие ранжированный вариационный ряд, можно складывать, или накапливать.
Накопленные частоты получаются последовательным суммированием значений частот от первой частоты до последней.
Поскольку аналитическим исследователям часто приходится иметь дело с изучением поведения сложных систем (множество игроков финансовых рынков, производители средств мобильной связи и т.д.), то данные, которыми приходится оперировать при подготовке принимаемых решений, желательно представлять в наглядной, достаточно простой и удобной для практического использования форме.
Одной из наиболее распространенных форм такого рода являются гистограммы.
Гистограмма
является разновидностью специального типа статистических графиков, которые называются диаграммами.
Диаграммы удобно использовать для сравнительного анализа значений различных статистических показателей, наглядного представления их динамики и структуры. Гистограмма изображается в виде фигуры, состоящей из примыкающих друг к другу вертикальных прямоугольных полос - столбиков, где высота каждого столбика пропорциональна частоте соответствующей группы, а ширина равна ее размеру. Реже употребляют диаграмму под названием «полигон». Полигон молено получить, если на координатной плоскости отметить точки, абсциссами которых будут средние точки групп, а ординатами - значения их частот, и соединить соседние точки отрезками прямых. Графическое представление ряда распределения в виде гистограммы и полигона позволяет провести быстрый визуальный анализ основных
242
характеристик распределения: наибольшего и наименьшего значений, зон концентрации данных и т.п.
Для практического освоения приемов построения гистограмм рассмотрим известный пример из классического учебника X. Б
ЛЭЛОКА
54
. Отчеты, поступившие из 93 избирательных участков города, напрямую не позволяют выявить «репрезентативный» процент голосов, поданных за кандидата N, поскольку представляют так называемый «сырой массив» (таб.7).
Процент голосов, поданных за кандидата N
(от участка к участку)
Таблица 7
39.2 11.6 36.3 26.3 37.1 15.3 27.3 23.5 13.3 28.1 26.3 27.1 35.1 23.0 26.1 31.0 36.3 27.3 22.8 33.4 25.6 21.6 46.8 7.1 16.8 26.9 46.6 44.3 58.1 33.1 13.4 27.8 33.4 22.1 42.7 33.0 36.3 20.7 9.3 26.3 29.9 39.4 5.3 24.3 17.8 18.2 37.1 21.6 Г17.5 12.3 23.6 37.2 37.1 25.1 27.1 28.8 27.8 33.6 26.5 28.3 26.9 24.8 41.0 33.6 19.3 43.7 28.2 19.9 83.6 47 1 4.8 9.7 39.5 32.3 22.4 15.1 26.3 26.1 29.2 14.3 14.6 21.6 37.9 37.1 24.9 10.0 20.7 11.8 22.9 36.0 46.1 21.5 13.3
Как видим, картина голосования получилась пестрая. Разброс голосов, поданных за кандидата N на участках города, варьирует от 4,8% до 83,6%.
Требуется представить эти данные в более наглядном виде. При работе с этим «сырым массивом», прежде всего, производится группировка данных по интервалам.
Очень важно правильно выбрать ширину интервала (и, соответственно, их количество). Если интервал группировки выбран чересчур узким, интервалов получится слишком много
54. B
LALOCK
H.
Social statistics. -N.Y.. McGraw-Hill, 1979.
243
с - с .
max mm
3,22-lgff где в числителе - разность максимального и минимального вариантов (в нашем примере 4,8% и
83,6%), а в знаменателе - некая константа, умноженная на логарифм числа случаев (в нашем примере 93). Из формулы Стерджеса следует, что для нашего случая оптимальное значение ширины интервала Ас= 10%.
После группировки строится вариационный ряд в виде таблицы или гистограммы.
По оси абсцисс откладывается значение признака, а по оси ординат - соответствующая этому значению частота. На рис. 11 приведены две гистограммы, построенные по данным нашего примера.
20 ' 40
&>
80 100
Процент голосов за кандидата N
Рис. 11. Гистограммы, построенные по данным обработки
«сырого» массива из 93 случаев
(слева - гистограмма для близкой к оптимальной ширине
интервала в 10% голосов, справа - гистограмма для слишком
грубого разбиения вариационного ряда на
5 интервалов по 20% голосов в каждом)
Первая из них - с оптимальным размером интервала группировки, вторая (для сравнения) - с неоправданно большим размером интервала. При оптимальном выборе характеристик гистограммы легко определить т. н. «модальный» интервал, соответствующий наиболее часто встречающемуся варианту. Так, в нашем примере, наибольшее число участков зафиксировало 20-
30% голосов за кандидата N.
С помощью графиков аналитику приходится искать также ответы на вопросы следующего типа. Сколько единиц совокупности (или какой процент) имеют значения, превышающие (или не превышающие) заданную величину? Для ответа на подобный вопрос вычисляются кумулятивные (накопленные) частоты ряда распределения и строится кумулятивная гистограмма, или кумулята. Различают два типа кумулятивных гистограмм: «меньше, чем ...» и «более, чем ...».
Кумулятивные частоты для первого типа получаются последовательным суммированием (абсолютных или относительных) частот групп от низшей группы к высшей, а для второго типа, наоборот, от высшей к низшей. Для построения кумуляты на координатной плоскости отмечаются точки, абсциссы которых являются точными верхними границами групп для полигона типа «меньше, чем...» или точными нижними границами для полигона типа «более, чем...», а ординаты - значениями соответствующих кумулятивных частот.
Следует различать гистограммы и столбиковые
диаграммы. В общем случае столбиковые диаграммы представляются в виде набора отдельных столбиков, изображающих значения или уровни исследуемого показателя.
Столбики чертятся в системе прямоугольных координат: по горизонтальной оси откладываются основания столбиков
(размер произвольный, но, как правило, одинаковый для всех), а по вертикальной оси - высота столбика, характеризующая величину показателя в определенном масштабе. Располагаться столбики на горизонтальной оси могут по-разному: на одинаковом расстоянии друг от друга, вплотную друг к другу, от-
244 245
Ас-
20 40 60 80 100
Процент голосов за кандидата N
д
8 9
1 0 ' 1 1 "
Т2
Варианты х
Рис. 12. Столбиковая диаграмма,
соответствующая ряду распределения таб. б
Если поменять местами вертикальную и горизонтальную оси графика столбиковой диаграммы, то она трансформируется в полосовую диаграмму.
Столбики в этом случае становятся полосами, а масштабная шкала, по которой измеряются их длины, откладывается по горизонтальной оси. Наряду со столбиковыми и полосовыми диаграммами для изображения временных рядов показателей используются линейные диаграммы или просто линейные графики. Они чертятся на координатной плоскости, где по оси х откладываются временные интервалы, а по оси у — значения показателей. Для гра- фического отображения структурных показателей различных совокупностей, характеризующих соотношение их различных частей, применяются секторные диаграммы, где в качестве графического образа используется круг, разбитый на секторы.
Площадь каждого сектора пропорциональна удельному весу каждой отдельной структурной части.
Рассмотренные типы диаграмм являются примерами графических методов описательной статистики.
Следует отметить, что если предварительная группировка «сырых» данных и построение гистограмм и ку-мулят производятся на основе значений только одного варьирующего признака, то столбиковые, полосовые, линейные и секторные диаграммы позволяют анализировать статистическую информацию, классифицированную одновременно по нескольким признакам. Все указанные выше виды диаграмм могут быть представлены с помощью соответствующих современных компьютерных программ.
7.5. От дискретных к непрерывным
случайным величинам
В социологическом, маркетинговом анализе, в любом аналитическом исследовании приходится иметь дело с совокупностью, включающей много единиц. С формальной точки зрения такой анализ представляет собой массовые испытания. Формула
Бернулли
55
как раз и «перебрасывает мостик» от испытаний единичных к испытаниям массовым, статистическим. Поэтому она так популярна в среде аналитиков.
Первоначально основным применением формулы было обслуживание запросов азартных игроков в кости.
Формула отвечала на «алчные» вопросы типа: «Если монета подбрасывается 20 раз, то какова вероятность выпадения 15 «орлов»?» Сегодня формула Бернулли обслуживает научные интересы в разных областях и описывает
55 Я
КОБ
Б
ЕРНУЛЛИ
(1654-1705) - швейцарский математик
246 247
п
где
С.-=-
т\(п -т)\
Здесь р - вероятность появления интересующего нас события в единичном испытании, q - вероятность противоположного события в единичном испытании, С^ - число сочетаний из п элементов по т. Напомним, что факториал
(обозначен восклицательным знаком) представляет собой последовательное произведение соответствующего последовательного ряда натуральных чисел. Например, 6!=1-2-3-4-5-6=720. По определению
0!=1. Напомним также, что при небольшом числе испытаний число сочетаний можно определить и без вычислений.
Определим число сочетаний из 4 элементов - а, Ъ, с,
d - по два элемента. Вот они, эти сочетания: ab, be, ас,
bd, ad, cd. Как видим, их шесть. Таким образом, в данном случае имеются всего 6 возможностей для организации пар элементов. Таким образом, С^=6. В более сложных случаях все-таки придется проводить вычисления по приведенной выше формуле для С^.
Рассмотрим следующую классическую задачу, на примере которой принято разъяснять практическую значимость формулы Бернулли. Необходимо найти вероятность того, что в родильном доме в случайной группе из 20 новорожденных:
A. Окажется 10 мальчиков.
Б. Окажется 9 мальчиков.
B. Окажется 8 мальчиков и т.д.
Решение этой задачи следующее. Для упрощения можно считать, что, в среднем, шансы рождения ребенка того или иного пола одинаковы. Поэтому вероятность обнаружения мальчика в единичном испытании положим равной р=0,5. Соответственно, вероятность противоположного события q=0,5. Из условий задачи прямо следует, что п=20. Величина т зависит от того, сколько мальчиков нас интересует в каждом конкретном случае. Так, при т=10 из формулы Бернулли следует:
Р
2О
(1О)=С2о*(О,5)
1О
*(О,5)
1О
=О,18
Расчеты для других значений т дают следующие результаты:
Р
20
(6)=0,04
Р
20
(5)=0,015
Р
20
(4)=0,005
Результаты молено представить в виде следующего графика (рис. 13).
0,20 -.
0,15 .
0,10 .
0,05 .
0,00 1 2 3 4 5 б 7 8 9 10 11 12 13 14 15 16 17 18 19
Событие: число мальчиков, обнаруженных в группе из
20 новорожденных
Рис. 13. Столбиковая диаграмма, показывающая
вероятность обнаружения того или иного числа мальчиков в
группе из 20 новорожденных
248 249
Р
20
(9)=0,16
Р
20
(8)=0,12
Р
20
(7)=0,07
Получившийся набор столбиков (или, строго говоря, совокупность значений Рп(т)) называют биномиальным распределением вероятностей. Также говорят, что формула
Бернулли
«генерирует» биномиальное распределение при изменении числа т
56
Обратим внимание: сумма вероятностей 7 «центральных событий» составляет 0,88. Это означает, что вероятность в группе из 20 младенцев обнаружить мальчиков (или девочек) в количестве, выходящем за пределы 10±3, весьма мала. Кроме того, как можно видеть, при р=д=0,5 решение имеет симметричный характер, а биномиальное распределение (если судить по длинам столбиков) имеет красивую колоколообразную форму.
Примером «несимметричного исхода» может служить следующая задача, встречающаяся при обслуживании массового производства. Вероятность брака при изготовлении детали на автоматизированном станке составляет 0,2. Требуется определить вероятности возможного числа появления бракованных деталей среди 5 случайно отобранных. Здесь «несимметрия» ответа обеспечивается тем, что р=0,2, а д=0,8.
Если вероятность появления в единичном испытании интересующего нас события очень мала (т.е.
р*1), то при больших п биномиальное распределение переходит в распределение Пуассона
57
где е=2,71828 .... Это т.н. основание натуральных ло гарифмов, трансцендентное число, введенное в обо рот в 1736 г. Л. Э
ЙЛЕРОМ
58
. Это распределение также называют законом редких явлений. Полезно заметить,
56. Т
АРАСОВ
Л. В. Закономерности окружающего мира: в 3 кн. - М.: ФИЗМАТЛИТ
2004.-Кн. 1.
57. С
ИМЕОН
Д
ЕКИ
П
УАССОН
(1781-1840) - выдающийся французский математик и физик
58. Л
ЕОНАРД
Э
ЙЛЕР
(1707-1783) - швейцарский математик что дисперсия случайной величины, распределенной «по
Пуассону», равна квадрату ее среднего значения.
Используя формулу
Пуассона, займемся практической задачей страхового бизнеса. Рассмотрим страхование от пожара на дачных участках.
Предположим, что, изучив статистические данные, мы оценили вероятность р того, что дачный домик в данной дачной местности сгорит в течение года. Это определяется целым рядом причин — общим состоянием электросети, характером растительности и почв, характерными для данного региона погодными условиями, криминогенной обстановкой и т.д. И вот теперь мы хотели бы выяснить, при каких условиях страхование домиков от пожара могло бы стать выгодным бизнесом. Понятно, что желательно, чтобы удалось застраховать побольше домиков и чтобы процент страховки был побольше. Однако при повышении процента страховки неизбежно снижение числа желающих застраховаться.
Предположим, что мы назначили плату за страховку домика в размере 1% от суммы, на которую домик застрахован, и что при этом удалось застраховать п=1000 домиков. Пусть W - сумма, на которую застрахован на год каждый домик, и значит - размер годовой страховки составляет 0,01 W. Это означает, что мы собрали деньги в сумме 0,01Wn=l0W. Мы рассчитываем, что в течение года нам придется выплатить клиентам не более 3/5 данной суммы, т.е. не более 6W. Иначе говоря, мы рассчитываем, что из застрахованных тысячи домиков сгорят в течение года не более шести. Вероятность Р того, что в течение года сгорят не более шести домиков из тысячи, есть:
Р= Р{0)+Р(1)+Р{2)+Р(3)+Р(Л)+Р(5)+Р(6), где Р(0) - вероятность того, что из тысячи домиков сгорит 0 домиков, и т.д. Каждое слагаемое Р(т)
подсчиты-вается по формуле Пуассона, причем, в качестве «успеха» здесь рассматривается факт сгорания домика. До-
250 251
Р= 0,0000+0,005+0,0023+0,0076+
+0,0189+0,0378+0,0631 = 0,1302.
Вероятность оказалась равной всего лишь 0,13. Эта величина указывает на то, что мы занялись явно невыгодным бизнесом.
А теперь предположим, что вероятность пожара на даче р=0,002 и, следовательно, пр=2. В этом случае искомая вероятность Р равна сумме
Р= 0,1353+0,2707+0,2707+0,1804+
+0,0902+0,0361+ 0,0120 = 0,9954.
Вот теперь наш страховой бизнес оказывается явно выгодным. Закон редких событий практически гарантирует (с вероятностью 0,9954), что не менее 2/5 суммы, вырученной при страховании, получит наша страховая фирма.
Вернемся к рассмотрению биномиального распределения при
«разумных» значениях
р,
принимающих значения в пределах от 0 до 1. В симметричных задачах «колокол» с характерным изгибом также характеризует и основополагающее в статистической науке т.н. Гауссово
59
(нормальное) распределение. Это неудивительно, потому что с ростом числа испытаний п биномиальное распределение как раз и переходит в распределение Гауссово. Однако вычисления по формуле Бернулли для более 50 испытаний уже представляют существенную техническую проблему, расчеты становятся невыносимо громоздкими.
Например, практически невозможно, пользуясь формулой Бернулли, решить следующую задачу из области кадрового менеджмента. На фирме работают
1825 со-
59 К
АРЛ
-Ф
РИДРИХ
Г
АУСС
(1777-1855) - знаменитый немецкий математик
252 трудников. Какова вероятность того, что 1 сентября является днем рождения одновременно четырех (пяти, шести...) сотрудников? Приходится искать другие пути решения. Начиная с XVIII в. математики пытались решить проблему вероятности успеха в массовых испытаниях. Решение было найдено с введением в научный обиход понятия «непрерывной случайной величины».
Мы уже отмечали, что случайные величины могут носить как дискретный, так и непрерывный характер.
Были рассмотрены основные законы распределения дискретных случайных величин, которые часто используются в прикладном статистическом анализе.
Теперь перейдем к описанию непрерывных случайных величин и их законов распределения. Дискретная случайная величина является прерывной, т.е. все ее возможные значения отделены друг от друга конечными интервалами и могут быть заранее перечислены. Дискретная случайная величина в вероятностном смысле будет полностью определена, если задан ее ряд распределения.
С непрерывной случайной величиной так не получится.
Возможные значения
непрерывной
случайной величины непрерывно заполняют некоторый промежуток и не могут быть заранее перечислены.
Примерами непрерывных случайных величин могут служить сроки службы различных товаров: электрических лампочек, батареек, автомобильных покрышек, электроприборов и т.п. Так, срок службы каждого из перечисленных товаров может измеряться промежутком времени от нуля до некоторой конечной верхней границы. В общем случае непрерывные случайные величины могут характеризовать результаты измерений: длительности процесса, веса, длины, площади, высоты, напряжения в электросети и т.д.
Теоретически (предполагается, что возможна любая точность измерений) результат измерения может быть выражен любым действительным числом, взятым из некоторого промежутка.
Для нас очень важно то обстоятельство, что свойствами непрерывной случайной величины обладают
253
Для непрерывной случайной величины записать таблицу ряда распределения невозможно, так как она должна включать все ее значения, а непрерывная случайная величина имеет бесконечное множество значений, которые нельзяи перечислить. Поэтому для характеристики распределения вероятностей непрерывной случайной величины удобно пользоваться вероятностью события Х<х, где х - некоторая текущая переменная. Очевидно, вероятность того, что Х<х,
зависит от текущей переменной х и является некоторой функцией от х. Эта функция называется функцией распределения случайной величины х и обозначается
F(x):
F(x) = P(X
Функция распределения F(x) называется также
интегральной
функцией
распределения
или
интегральным законом распределения. Функция распределения может существовать как для непрерывных, так и для дискретных случайных величин. С вероятностной точки зрения функция распределения полностью характеризует случайную величину, т.е. является одной из форм закона распределения. Для непрерывной случайной величины функция распределения представляет собой функцию, непрерывную и дифференцируемую во всех точках. Ее график является плавной кривой, имеющей касательную в любой точке. Ее значения лежат в интервале от 0 до 1.
На практике часто возникают ситуации, когда требуется определить вероятность того, что случайная величина принимает значения, находящиеся в некотором промежутке, например от а до р. Другими словами, требуется определить вероятность события а<х<р. Было отмечено, что F(x) имеет производную в любой точке х. По определению производной:
F(x+Ax)-F(x)
Ах
Введем обозначение
Функция Дх) характеризует плотность
60
, с которой распределяются значения вероятности случайной величины в данной точке. Она называется плотностью распределения непрерывной случайной величины X.
Ее также называют дифференциальной функцией распределения.
График кривой, изображающей плотность распределения, называется кривой распределения. Приближением кривой распределения является сглаженный полигон, рассматриваемый ранее как кривая частотного распределения данных.
Плотность распределения является одной из форм закона распределения. Однако она не является универсальной и существует только для непрерывных случайных величин. Очень важно учитывать, что площадь, ограниченная кривой распределения и осью абсцисс, равна единице.
Количественные характеристики непрерывной случайной величины выражаются в виде интегралов
6Х
60. Плотность вероятности, плотность распределения вероятностей (distribution
density) - характеристика ряда распределения, показывающая, сколько единиц совокупности приходится на единицу интервала.
61. С
УЛИЦКИЙ
В Н. Методы статистического анализа в управлении. - М : Дело, 2002.
254 255
lim=
ЛХ-.0
В практических задачах иногда встречаются непрерывные случайные величины, распределенные по закону равномерной плотности. Такие величины еще называются равномерно распределенными.
Для равномерно распределенной случайной величины имеются определенные границы, внутри которых все значения равновероятны, т.е. плотность распределения является постоянной величиной на всем промежутке изменения случайной величины.
Исключительно важную роль играет в статистическом анализе Гауссов (нормальный) закон
распределения. Сумма достаточно большого числа независимых (или слабо зависимых) случайных величин распределена почти по нормальному закону, причем слагаемые случайные величины могут подчиняться каким угодно законам распределения. Это свойство широко реализуется на практике, так как большинство массовых явлений формируется как наложение многих отдельных факторов (причин). Распределение мужчин определенной возрастной категории, распределение дальности полета снаряда при последовательных выстрелах одной и той же пушки, разброс размеров деталей при массовом производстве - вот лишь немногие примеры проявления закона Гауссового
(нормального) распределения. Рассмотрим этот закон более подробно.
В XVII в. группа европейских математиков проводила небольшие частные исследования, которые впоследствии оформились в теорию вероятностей. Эти исследования, проведенные, в частности, Б
ЛЕЗОМ
П
АСКАЛЕМ
(1623-1662) и П
ЬЕРОМ
Ф
ЕРМА
(1601-1665), выполнялись по просьбе
Ш
ЕВАЛЬЕ ДЕ
М
ЕРЕ
,
азартного игрока, которому было особенно важно понять природу удачи. Одним из наиболее значительных событий в ранней истории теории вероятностей была публикация в 1713 г. знаменитой формулы
Вернулли
(которую мы рассматривали в предыдущем разделе). Однако, как мы успели убедиться, вычисления Р
п
(тп) по этой формуле для больших значений п —» <х> были слишком громоздки. Ни один разумный человек не станет непосредственно вычислять вероятность того, что при
10000 подбрасываний монеты, например, выпадут 8000 или
256 более «орлов». Хотя такие вычисления могут быть необходимы, трудоемкость их все же слишком велика
(даже сегодня, с использованием компьютера).
Естественно, что в начале XVIII столетия были предприняты новые усилия для поиска удобных приближенных методов вычислений в задачах теории вероятностей. В 1730 г. Дж. Стерлинг опубликовал формулу, аппроксимирующую произведение первых п целых чисел, то есть:
которая часто встречается в задачах теории вероятностей б2
. И в том же году английский математик
А
БРАХАМ ДЕ
М
УАВР
(1667-1754) предложил формулу, справедливую для любого числа испытаний и частного случая p=q=0,5. Спустя еще полвека французский математик П
ЬЕР
С
ИМОН
Л
АПЛАС
(1749-1827) обобщил формулу Муавра на случай произвольных вероятностей отдельных успехов в бесконечной серии испытаний. Это и была формула для плотности нормального распределения вероятностей. В современной записи, предложенной Гауссом, она имеет вид:
и =•
2яо где х - среднее арифметическое, а - среднеквадратичное отклонение.
График этой зависимости - симметричная, «коло- колообразная» кривая, известная под названием нормальной кривой (рис. 14). Мы говорим о некоторой нормальной кривой, ибо уравнение задает лишь некоторую типичную форму графика. Меняя значения
х н а , мы можем сдвигать конкретную нормальную кривую по числовой оси по горизонтали и менять ее размах. Самая высокая точка кривой расположена над нулевым значением х, в этой точке и и=0,3989.
Заметьте, что кривая
62 Т
АРАСОВ
Л В Мир, построенный на вероятности - М Педагогика, 1984 257 1
-ее характерный изгиб. И, наконец, самое главное обстоятельство для практических применений состоит том, что площадь под кривой равна 1.
0,4
0,3-
-3
Рис. 14. Кривая нормального (Гауссовою) распределения,
приведенного к стандартному виду (площадь под кривой в
пределах от х-1 до х=1 составляет 68% общей площади под
кривой)
Фактически существует бесконечное множество нормальных кривых, отличающихся друг от друга парой значений л: и ст. Что же общего у всех этих нормальных кривых? Для наших целей - например, для вычисления распределений при игре на бирже - их наиболее важное общее свойство заключается в доле площади под кривой между любыми двумя точками, выраженными в стандартных отклонениях. Например, в любом нормальном распределении приблизительно:
1. 68% площади под кривой лежит в пределах одной ст от среднего х в любом направлении (то есть в пределах х±а);
258 2. 95% площади под кривой лежит в пределах двух ст от среднего х;
3. 99,7% площади под кривой лежит в пределах трех ст от среднего х.
Возвращаясь к формуле Бернулли, отметим, что при определенных условиях нормальное распределение используется в качестве биномиального распределения в случае, если расчет биномиальных вероятностей затруднен. Основная проблема, которая здесь возникает, заключается в том, что дискретное биномиальное распределение заменяется непрерывным нормальным законом распределения. Поэтому при замене вводится специальная корректировочная величина, которая называется
«поправкой на непрерывность».
Как оказалось, нормальный закон распределения встречается в теории вероятностей и ее приложениях весьма часто. Уже Л
АПЛАС обратил внимание на то, что по нормальному закону распределяются случайные ошибки измерений. Он же предположил, что это связано с наличием болыпого количества независимо действующих причин, под воздействием которых появляются ошибки в измерениях. П.Л. Ч
ЕБЫШЁВ развил эту мысль и доказал в конце 80-х годов XIX столетия важную предельную теорему, согласно которой при выполнении некоторых специальных условий распределение для суммы п
независимых случайных величин приближается в пределе при п-*оо к нормальному закону распределения. Спустя десять с небольшим лет (в 1901 г.) эту предельную теорему в более общем виде доказал ученик и последователь П.Л. Ч
ЕБЫШЕ
-
ВА
A.M. Л
ЯПУНОВ
В его формулировке предельная теорема получила название центральной предельной теоремы.
Важный пример, иллюстрирующий практическую важность центральной предельной теоремы, связан с массовым производством, существующим ныне во многих отраслях народного хозяйства. При массовом производстве изготавливаются огромные партии однотипных изделий, характеристики которых должны, разумеется, соответствовать определенным стандартам.
Разнообразные факторы случайного характера неизбеж-
259
-2
-1
Таких факторов много; это связано, в частности, с тем, что выпуск изделия предполагает, как правило, большое число операций, а все они выполняются лишь с какой-то степенью точности. Каждый фактор в отдельности порождает ничтожное отклонение от стандарта, характеризуемое случайной величиной X; сумма же £Х может давать ощутимые отклонения. Согласно центральной предельной теореме суммарное отклонение от стандарта (случайная величина £Х) должно иметь закон распределения, близкий к нормальному.
Д
Е
М
УАВР
,
изобретая нормальную кривую для частного применения, то есть для получения простого приближенного решения в приложениях теории вероятностей, и представить себе не мог, что его открытие найдет применение во многих задачах бизнеса, управления и политики, прогнозирования социально- экономического развития. Действительно, нормальное распределение получило удивительно широкое распространение. Оно играет важную роль как в описательной статистике, так и в теории статистического вывода.
Иногда складывается неправильное представление, что существует необходимая связь между нормальным распределением - идеальным описанием некоторых распределений частот
- и практически любыми данными. Нормальная кривая - это изобретение математика, довольно хорошо описывающее полигон частот измерений нескольких различных переменных. Никогда не была, да и не будет, получена совокупность данных, которые были бы точно нормально распределены
63
. Множество различных уравнений кривых достаточно хорошо сгладило бы эмпирические графики частот, но возникают известные математические преимущества, когда
«данные сглаживаются» нормальной кривой.
Известные математические свойства нормальной кривой обеспечивают простые и изящные доказательства во многих задачах теории статистического вывода.
63. Это некоторая математическая модель реального распределения величин в социо-экономической сфере.
260
I
Применение нормального закона для решения практических задач зиждется на двух основных принципах. Во-первых, с учетом конкретной задачи нормальная кривая приводится к так называемому
«стандартному виду». Стандартный вид кривой соответствует следующим значениям основных параметров: среднему безразмерному арифметическому
Зс=О и среднеквадратичному безразмерному отклонению ст=1. Привести кривую к стандартному виду нетрудно м
. Например, вы занимаетесь массовым производством мужских костюмов и имеете дело с распределением по росту мужчин определенной возрастной группы. При среднем росте этой группы X =
173 см и среднеквадратичном отклонении а
х
= 6 см нормальная кривая приобретает стандартный вид, если вы перейдете к новой системе координат и положите:
Х-173
где X - исходный рост i-ro мужчины. Теперь новая средняя х неизбежно получится равной нулю, а новое значение о принимает единичное значение.
Второй принципиальный момент состоит в том, что исчисление вероятности той или иной группы событий с использованием нормальной кривой состоит в довольно- таки рутинном вычислении фрагмента площади под нормальной кривой, опирающейся на тот или иной отрезок оси абсцисс. С математической точки зрения, вычисление площади под кривой состоит в вычислении интеграла данной функции в пределах данного отрезка.
Для нормальной кривой вычисление данного интеграла
(так называемого интеграла Лапласа) в обычных функциях невозможно. К счастью, уже давно созданы таблицы этого интеграла, и аналитики всего мира широко этими таблицами пользуются. Их можно найти в любом статисти-
64. Стандартный вид использует безразмерное представление не случайно.
Аналитик при решении задачи освобождается от частного - единиц измерения
(сантиметров, рублей...) - и получает возможность пользоваться универсальными формулами.
261
Для соответствия заданной выше группы мужчин требуется определить доли костюмов 4 роста (176-182 см) и 3 роста (170-176 см), которые нужно предусмотреть в общем объеме выпуска. После приведения нормальной кривой плотности распределения мужчин по росту, находим по таблице интеграла Лапласа, что доля площади криволинейной трапеции под кривой, опирающейся на отрезок 176-182 см, примерно равна
0,24, а соответствующая доля площади для отрезка 170-
176 см примерно равна 0,38. Таким образом, получаем важный маркетинговый результат: мужскому населению требуется костюмов 4 роста в 1,6 раз меньше, чем костюмов 3 роста.
1 ... 10 11 12 13 14 15 16 17 ... 25