ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 12.01.2024
Просмотров: 183
Скачиваний: 2
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
Глава
1. ЭКСПЕРИМЕНТ КАК ПРЕДМЕТ ИССЛЕДОВАНИЯ объекта исследования. При проведении опытов очень многое зависит оттого, насколько активно экспериментатор может вмешиваться в исследуемое явление, имеет он или нет возможность устанавливать те уровни факторов, которые представляют для него интерес. С этой точки зрения все факторы можно разбить натри группы
контролируемые и управляемые — это факторы, для которых можно не только зарегистрировать их уровень, но еще и задать в каждом конкретном опыте любое его возможное значение
контролируемые, но неуправляемые факторы — это факторы, уровни которых можно только регистрировать, а вот задать в каждом опыте их определенное значение практически невозможно неконтролируемые — это факторы, уровни которых не регистрируются экспериментатором и о существовании которых он даже может и не подозревать. В примере 1.1 в качестве контролируемых и управляемых факторов можно очень вероятно рассматривать температуру отжига и скорость охлаждения проволоки. А вот фактическое процентное содержание различных химических элементов стали, по всей видимости, попадет в группу контролируемых, но неуправляемых факторов. Дело здесь в том, что химический состав еще может и удастся зарегистрировать (переписав его из паспорта плавки или из сопроводительных документов на данную партию проволоки, но вот задать, в условиях реального действующего сталеплавильного производства, для каждого опыта строго определенное процентное содержание, например, углерода — задача практически невыполнимая. Наконец, к группе неконтролируемых факторов в этом примере можно отнести массу причин, по которым может измениться пластичность металла (неравномерность деформации металла по длине бунта проволоки в процессе прокатки или при волочении, неблагоприятные условия хранения металла, приводящие к его повышенной коррозии, и т.д. и т.п., насколько в данном случае хватит фантазии исследователя. В количественном эксперименте необходимо не только регистрировать уровни всех контролируемых факторов, но и иметь возможность устанавливать количественное описание того свойства (отклика) исследуемого явления, которое изучает (наблюдает) экспериментатор. Причем поскольку на объект исследования в процессе экс
1. ЭКСПЕРИМЕНТ КАК ПРЕДМЕТ ИССЛЕДОВАНИЯ объекта исследования. При проведении опытов очень многое зависит оттого, насколько активно экспериментатор может вмешиваться в исследуемое явление, имеет он или нет возможность устанавливать те уровни факторов, которые представляют для него интерес. С этой точки зрения все факторы можно разбить натри группы
контролируемые и управляемые — это факторы, для которых можно не только зарегистрировать их уровень, но еще и задать в каждом конкретном опыте любое его возможное значение
контролируемые, но неуправляемые факторы — это факторы, уровни которых можно только регистрировать, а вот задать в каждом опыте их определенное значение практически невозможно неконтролируемые — это факторы, уровни которых не регистрируются экспериментатором и о существовании которых он даже может и не подозревать. В примере 1.1 в качестве контролируемых и управляемых факторов можно очень вероятно рассматривать температуру отжига и скорость охлаждения проволоки. А вот фактическое процентное содержание различных химических элементов стали, по всей видимости, попадет в группу контролируемых, но неуправляемых факторов. Дело здесь в том, что химический состав еще может и удастся зарегистрировать (переписав его из паспорта плавки или из сопроводительных документов на данную партию проволоки, но вот задать, в условиях реального действующего сталеплавильного производства, для каждого опыта строго определенное процентное содержание, например, углерода — задача практически невыполнимая. Наконец, к группе неконтролируемых факторов в этом примере можно отнести массу причин, по которым может измениться пластичность металла (неравномерность деформации металла по длине бунта проволоки в процессе прокатки или при волочении, неблагоприятные условия хранения металла, приводящие к его повышенной коррозии, и т.д. и т.п., насколько в данном случае хватит фантазии исследователя. В количественном эксперименте необходимо не только регистрировать уровни всех контролируемых факторов, но и иметь возможность устанавливать количественное описание того свойства (отклика) исследуемого явления, которое изучает (наблюдает) экспериментатор. Причем поскольку на объект исследования в процессе экс
Глава
1. ЭКСПЕРИМЕНТ КАК ПРЕДМЕТ ИССЛЕДОВАНИЯ перимента всегда влияет огромное количество неконтролируемых факторов, что вносит в получаемые результаты некоторый элемент неопределенности, значение отклика, в каждом конкретном опыте, невозможно предсказать заранее. Поэтому воспроизведение исследуемого явления при одном и том же фиксированном наборе уровней всех контролируемых факторов всегда будет приводить к различным значениям отклика, те. отклик — это всегда случайная величина. Отклик — наблюдаемая случайная переменная, по предположению зависящая от факторов. Откликом в условиях примера 1.1 является пластичность стальной проволоки (количество перегибов к моменту разрушения. Причем даже если взять куски проволоки от одного итого же мотка (те. металл одной плавки — одинакового химического состава, имеющий один и тот же режим термообработки при одинаковой температуре отжига и скорости охлаждения, то и при этом для каждого куска проволоки мы получим разные (хотя и очень близкие друг к другу) значения пластичности металла. И наконец, в результате количественного эксперимента необходимо найти зависимость между откликом и факторами — функцию отклика. Причем, поскольку отклик это случайная величина, то, сточки зрения теории вероятностей, его можно задать одним из параметров своего распределения, например математическим ожиданием. Функция отклика — зависимость математического ожидания отклика от факторов. В примере с проволокой — это зависимость математического ожидания величины пластичности стали от температуры отжига, скорости охлаждения и химического состава металла. С учетом приведенного выше деления факторов натри группы, функцию отклика в самом общем случае можно записать в виде
M
y
= f (x
i
, h
j
) + ε
δ
,
(где M
y
— математическое ожидание отклика x
i
— контролируемые и управляемые факторы h
j
— контролируемые, но неуправляемые факторы ошибка эксперимента, учитывающая влияние неконтролируемых факторов. Потому, какой группой факторов располагает исследователь, количественный эксперимент в свою очередь можно разделить еще на
1. ЭКСПЕРИМЕНТ КАК ПРЕДМЕТ ИССЛЕДОВАНИЯ перимента всегда влияет огромное количество неконтролируемых факторов, что вносит в получаемые результаты некоторый элемент неопределенности, значение отклика, в каждом конкретном опыте, невозможно предсказать заранее. Поэтому воспроизведение исследуемого явления при одном и том же фиксированном наборе уровней всех контролируемых факторов всегда будет приводить к различным значениям отклика, те. отклик — это всегда случайная величина. Отклик — наблюдаемая случайная переменная, по предположению зависящая от факторов. Откликом в условиях примера 1.1 является пластичность стальной проволоки (количество перегибов к моменту разрушения. Причем даже если взять куски проволоки от одного итого же мотка (те. металл одной плавки — одинакового химического состава, имеющий один и тот же режим термообработки при одинаковой температуре отжига и скорости охлаждения, то и при этом для каждого куска проволоки мы получим разные (хотя и очень близкие друг к другу) значения пластичности металла. И наконец, в результате количественного эксперимента необходимо найти зависимость между откликом и факторами — функцию отклика. Причем, поскольку отклик это случайная величина, то, сточки зрения теории вероятностей, его можно задать одним из параметров своего распределения, например математическим ожиданием. Функция отклика — зависимость математического ожидания отклика от факторов. В примере с проволокой — это зависимость математического ожидания величины пластичности стали от температуры отжига, скорости охлаждения и химического состава металла. С учетом приведенного выше деления факторов натри группы, функцию отклика в самом общем случае можно записать в виде
M
y
= f (x
i
, h
j
) + ε
δ
,
(где M
y
— математическое ожидание отклика x
i
— контролируемые и управляемые факторы h
j
— контролируемые, но неуправляемые факторы ошибка эксперимента, учитывающая влияние неконтролируемых факторов. Потому, какой группой факторов располагает исследователь, количественный эксперимент в свою очередь можно разделить еще на
Глава
1. ЭКСПЕРИМЕНТ КАК ПРЕДМЕТ ИССЛЕДОВАНИЯ два вида. Если в распоряжении экспериментатора нет управляемых факторов, то такой эксперимент носит название пассивного. Пассивный эксперимент — эксперимент, при котором уровни факторов в каждом опыте регистрируются исследователем, ноне задаются. Поскольку при пассивном эксперименте исследователь не имеет возможность задать уровень ни одного из факторов, то при проведении опытов ему остается лишь пассивно наблюдать заявлением и регистрировать результаты. Планирование пассивного эксперимента сводится к определению числа опытов, которые необходимо провести исследователю для решения поставленной передним задачи, а конечной целью пассивного эксперимента в большинстве случаев является получение функции отклика в виде
M
y
= f (h
j
) + ε
δ
(1.2) Если же экспериментатор имеет возможность не только контролировать факторы, но и управлять ими, то такой эксперимент носит название активного. Активный эксперимент — эксперимент, в котором уровни факторов в каждом опыте задаются исследователем. Поскольку в этом случае экспериментатор имеет возможность активно вмешиваться в исследуемое явление, то естественно, что активный эксперимент всегда предполагает какой-либо план его проведения. План эксперимента — совокупность данных, определяющих число, условия и порядок реализации опытов. Поэтому активный эксперимент всегда должен начинаться с планирования. Планирование эксперимента — выбор плана эксперимента, удовлетворяющего поставленным требованиям. К требованиям, предъявляемым при планировании активного эксперимента, можно отнести степень точности и надежности результатов, полученных после проведения эксперимента, сроки и средства, имеющиеся в распоряжении исследователя, и т.д. Целью активного эксперимента может быть либо определение функции отклика в виде
1. ЭКСПЕРИМЕНТ КАК ПРЕДМЕТ ИССЛЕДОВАНИЯ два вида. Если в распоряжении экспериментатора нет управляемых факторов, то такой эксперимент носит название пассивного. Пассивный эксперимент — эксперимент, при котором уровни факторов в каждом опыте регистрируются исследователем, ноне задаются. Поскольку при пассивном эксперименте исследователь не имеет возможность задать уровень ни одного из факторов, то при проведении опытов ему остается лишь пассивно наблюдать заявлением и регистрировать результаты. Планирование пассивного эксперимента сводится к определению числа опытов, которые необходимо провести исследователю для решения поставленной передним задачи, а конечной целью пассивного эксперимента в большинстве случаев является получение функции отклика в виде
M
y
= f (h
j
) + ε
δ
(1.2) Если же экспериментатор имеет возможность не только контролировать факторы, но и управлять ими, то такой эксперимент носит название активного. Активный эксперимент — эксперимент, в котором уровни факторов в каждом опыте задаются исследователем. Поскольку в этом случае экспериментатор имеет возможность активно вмешиваться в исследуемое явление, то естественно, что активный эксперимент всегда предполагает какой-либо план его проведения. План эксперимента — совокупность данных, определяющих число, условия и порядок реализации опытов. Поэтому активный эксперимент всегда должен начинаться с планирования. Планирование эксперимента — выбор плана эксперимента, удовлетворяющего поставленным требованиям. К требованиям, предъявляемым при планировании активного эксперимента, можно отнести степень точности и надежности результатов, полученных после проведения эксперимента, сроки и средства, имеющиеся в распоряжении исследователя, и т.д. Целью активного эксперимента может быть либо определение функции отклика в виде
Глава
1. ЭКСПЕРИМЕНТ КАК ПРЕДМЕТ ИССЛЕДОВАНИЯ
M
y
= f (x
i
) + ε
δ
,
(либо поиск такого сочетания уровней управляемых факторов x
i
, при котором достигается оптимальное (экстремальное — минимальное или максимальное) значение функции отклика. В этом последнем случае эксперимент носит еще название поискового (экстремального) эксперимента. Например, если в случае с разрушением проволоки мы бы поставили перед собой целью найти такое сочетание температуры отжига и скорости охлаждения, при которых пластичность металла была бы максимальной, то наш эксперимент стал бы поисковым. И наконец, по условиям проведения различают лабораторный и промышленный эксперименты. Лабораторный эксперимент. В лаборатории меньше влияние случайных погрешностей, обеспечивается большая стерильность условий проведения опытов, в большинстве случаев осуществляется и более тщательная подготовка, одним словом, выше культура эксперимента. Как правило, в лабораторных условиях экспериментатор может воспроизвести опыт одинаково значительно лучше, чем в промышленности. Это означает, что при прочих равных условиях для установления некоторого факта на заводе потребуется выполнить значительно больше опытов, чем в лаборатории. Другое важное отличие — это большая возможность варьировать (изменять) уровни факторов. Когда в лаборатории исследуется химическая реакция, температуру пожеланию можно менять в широких пределах, а в металлургических печах, напротив, если ее и можно менять, тов значительно более узком диапазоне и с большей осторожностью. В лабораторном эксперименте существенную роль играет субъект исследования, экспериментатор, который создает установку для проведения опытов. Промышленный эксперимент В промышленных условиях обеспечить условия лабораторного эксперимента значительно труднее. Усложняются измерения и сбор информации, значительно большее влияние на объект исследования и измерительные приборы оказывают различного рода помехи (резко возрастает число неконтролируемых факторов, поэтому в промышленном эксперименте особенно необходимо использовать специальные статистические методы обра-
1. ЭКСПЕРИМЕНТ КАК ПРЕДМЕТ ИССЛЕДОВАНИЯ
M
y
= f (x
i
) + ε
δ
,
(либо поиск такого сочетания уровней управляемых факторов x
i
, при котором достигается оптимальное (экстремальное — минимальное или максимальное) значение функции отклика. В этом последнем случае эксперимент носит еще название поискового (экстремального) эксперимента. Например, если в случае с разрушением проволоки мы бы поставили перед собой целью найти такое сочетание температуры отжига и скорости охлаждения, при которых пластичность металла была бы максимальной, то наш эксперимент стал бы поисковым. И наконец, по условиям проведения различают лабораторный и промышленный эксперименты. Лабораторный эксперимент. В лаборатории меньше влияние случайных погрешностей, обеспечивается большая стерильность условий проведения опытов, в большинстве случаев осуществляется и более тщательная подготовка, одним словом, выше культура эксперимента. Как правило, в лабораторных условиях экспериментатор может воспроизвести опыт одинаково значительно лучше, чем в промышленности. Это означает, что при прочих равных условиях для установления некоторого факта на заводе потребуется выполнить значительно больше опытов, чем в лаборатории. Другое важное отличие — это большая возможность варьировать (изменять) уровни факторов. Когда в лаборатории исследуется химическая реакция, температуру пожеланию можно менять в широких пределах, а в металлургических печах, напротив, если ее и можно менять, тов значительно более узком диапазоне и с большей осторожностью. В лабораторном эксперименте существенную роль играет субъект исследования, экспериментатор, который создает установку для проведения опытов. Промышленный эксперимент В промышленных условиях обеспечить условия лабораторного эксперимента значительно труднее. Усложняются измерения и сбор информации, значительно большее влияние на объект исследования и измерительные приборы оказывают различного рода помехи (резко возрастает число неконтролируемых факторов, поэтому в промышленном эксперименте особенно необходимо использовать специальные статистические методы обра-
Глава
1. ЭКСПЕРИМЕНТ КАК ПРЕДМЕТ ИССЛЕДОВАНИЯ ботки результатов. Кроме того, на реальном действующем производстве всегда желательно по возможно меньшему числу измерений получить наиболее достоверные результаты. Необходимо отметить, что промышленный эксперимент характеризуется весьма большими объемами данных (тысячи событий в минуту, которые необходимо сохранить и обработать, поэтому сложно представить эксперимент такого рода без применения средств автоматизации ЭВМ и соответствующего программного обеспечения.
1.3. Контрольные вопросы
1. Что такое эксперимент Какова его роль в инженерной практике
2. Какие общие черты имеют научные методы исследований для изучения закономерностей различных процессов и явлений в промышленности
3. Приведите классификации видов экспериментальных исследований, исходя из цели проведения эксперимента и формы представления результатов, а также в зависимости от условий его реализации. В чем заключаются принципиальные отличия активного эксперимента от пассивного
5. Поясните преимущества и недостатки лабораторного и промышленного эксперимента.
6. В чем отличие количественного и качественного экспериментов
7. Дайте определения следующим терминам опыт, фактор, уровень фактора, отклик, функция отклика, план и планирование эксперимента Глава 2. КРАТКИЕ СВЕДЕНИЯ ИЗ ТЕОРИИ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ
18
1. ЭКСПЕРИМЕНТ КАК ПРЕДМЕТ ИССЛЕДОВАНИЯ ботки результатов. Кроме того, на реальном действующем производстве всегда желательно по возможно меньшему числу измерений получить наиболее достоверные результаты. Необходимо отметить, что промышленный эксперимент характеризуется весьма большими объемами данных (тысячи событий в минуту, которые необходимо сохранить и обработать, поэтому сложно представить эксперимент такого рода без применения средств автоматизации ЭВМ и соответствующего программного обеспечения.
1.3. Контрольные вопросы
1. Что такое эксперимент Какова его роль в инженерной практике
2. Какие общие черты имеют научные методы исследований для изучения закономерностей различных процессов и явлений в промышленности
3. Приведите классификации видов экспериментальных исследований, исходя из цели проведения эксперимента и формы представления результатов, а также в зависимости от условий его реализации. В чем заключаются принципиальные отличия активного эксперимента от пассивного
5. Поясните преимущества и недостатки лабораторного и промышленного эксперимента.
6. В чем отличие количественного и качественного экспериментов
7. Дайте определения следующим терминам опыт, фактор, уровень фактора, отклик, функция отклика, план и планирование эксперимента Глава 2. КРАТКИЕ СВЕДЕНИЯ ИЗ ТЕОРИИ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ
18
Глава 2. КРАТКИЕ СВЕДЕНИЯ ИЗ ТЕОРИИ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ. Случайные величины и параметры их распределений Поскольку из-за влияния неконтролируемых факторов отклик — это всегда случайная величина, при обработке результатов эксперимента широко используется аппарат теории вероятностей и математической статистики, поэтому напомним некоторые основные понятия и определения этого раздела математики. Случайное событие — событие, реализацию которого при определенном комплексе условий невозможно заранее предсказать. Например, реализацию такого события, как пять остановок доменной печи в течение месяца, невозможно предсказать заранее, поскольку остановок может быть и три, и семьи четыре, и т.д. Случайная величина — величина, которая может принимать какое-либо значение из установленного множества, и с которой связано вероятностное распределение. Случайная величина может быть дискретной или непрерывной. Дискретная случайная величина — случайная величина, которая может принимать значения только из конечного или счетного множества действительных чисел. Непрерывная случайная величина — случайная величина, которая может принимать любые значения из конечного или бесконечного интервала. Если при фиксированном наборе уровней всех контролируемых факторов провести n измерений отклика X, тов результате будет получен ряд хотя и близких, но отличающихся друг от друга значений
,
...,
,
2
,
1
n
i
x
i
(2.1) где x
i
— е измерение величины X;
x
1
, x
2
,..., x
n
— реализация случайной величины X.
Глава 2. КРАТКИЕ СВЕДЕНИЯ ИЗ ТЕОРИИ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ
19
П р им ер. В результате изучения работы доменной печи на протяжении полутора лет было зарегистрировано следующее количество ее остановок в течение каждого месяца (табл. 2.1). В данном примере число остановок доменной печи в течение месяца — это дискретная случайная величина. В первом из n = 18 измерений этой величины было получено значение x
1
= 3, во втором —
x
2
= 4 и т.д., до x
18
= 7. Приведенные в табл. 2.1 значения — это реализация такой случайной величины, как число остановок доменной печи в течение месяца. Таблица Число остановок доменной печи по месяцам общее число наблюдений n = 18) Месяц
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Число остановок
3 4 3 5 5 5 6 4 6 5 5 2 4 6 7 5 6 7 Каждому значению дискретной случайной величины X (любому из событий А когда случайная величина X принимает какое-либо строго определенное значение x), можно поставить в соответствие следующее отношение
,
n
m
W
(2.2) где m — число наблюдений, в которых дискретная случайная величина оказалась равна x; n — общее количество наблюдений.Величину
W называют частотой реализации события А. В примере 2.1, в шести наблюдениях i = 4, 5, 6, 10, 11 и 16, количество остановок доменной печи в течение месяца X оказалось равным пяти (X = 5), следовательно, частота реализации такого события, как пять остановок, равна 6/18 = 0,33. Частоты реализаций для других событий (две, три, четыре и т.д. остановки) приведены в табл. 2.2. Если продолжить наблюдения за работой доменной печи в течение еще полутора лет, то, конечно же, совершенно необязательно, что на протяжении следующих восемнадцати месяцев пять остановок
19
П р им ер. В результате изучения работы доменной печи на протяжении полутора лет было зарегистрировано следующее количество ее остановок в течение каждого месяца (табл. 2.1). В данном примере число остановок доменной печи в течение месяца — это дискретная случайная величина. В первом из n = 18 измерений этой величины было получено значение x
1
= 3, во втором —
x
2
= 4 и т.д., до x
18
= 7. Приведенные в табл. 2.1 значения — это реализация такой случайной величины, как число остановок доменной печи в течение месяца. Таблица Число остановок доменной печи по месяцам общее число наблюдений n = 18) Месяц
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Число остановок
3 4 3 5 5 5 6 4 6 5 5 2 4 6 7 5 6 7 Каждому значению дискретной случайной величины X (любому из событий А когда случайная величина X принимает какое-либо строго определенное значение x), можно поставить в соответствие следующее отношение
,
n
m
W
(2.2) где m — число наблюдений, в которых дискретная случайная величина оказалась равна x; n — общее количество наблюдений.Величину
W называют частотой реализации события А. В примере 2.1, в шести наблюдениях i = 4, 5, 6, 10, 11 и 16, количество остановок доменной печи в течение месяца X оказалось равным пяти (X = 5), следовательно, частота реализации такого события, как пять остановок, равна 6/18 = 0,33. Частоты реализаций для других событий (две, три, четыре и т.д. остановки) приведены в табл. 2.2. Если продолжить наблюдения за работой доменной печи в течение еще полутора лет, то, конечно же, совершенно необязательно, что на протяжении следующих восемнадцати месяцев пять остановок
Глава 2. КРАТКИЕ СВЕДЕНИЯ ИЗ ТЕОРИИ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ
20
будет снова зарегистрировано ровно в 6 случаях из 18 наблюдений, а частота реализации этого события опять окажется равной 0,33. Таблица Частота остановок доменной печи Число остановок x
2 3
4 5
6 7 Количество наблюдений m, в которых реализовалось событие X = x
1 2
3 6
4 2 Частота реализации, W = m / n
0,06 0,11 0,17 0,33 0,22 0,11 Однако при возрастании числа повторений одного итого же комплекса условий частота реализации такого события, как, например, пять остановок печи в течение месяца, будет принимать все более и более устойчивое значение. Так, если подсчитать частоту реализации данного события за 36 месяцев, то она уже практически небу- дет отличаться оттого значения, которое затем можно будет получить за четыре с половиной года (при условии, что за все это время наблюдений в работе доменной печи не произойдет никаких существенных изменений. Предел, к которому стремится отношение m/n при неограниченном возрастании числа опытов n, называется вероятностью случайного события. Вероятность А) события А — число от нуля до единицы, которое представляет собой предел частоты реализации события А при неограниченном числе повторений одного итого же комплекса условий. Для дискретной случайной величины можно указать вероятность, с которой она принимает каждое из своих возможных значений конечного или счетного множества действительных чисел. Для непрерывной случайной величины задают вероятность ее попадания в один из заданных интервалов области ее определения поскольку вероятность того, что она примет какое-либо конкретное свое значение, стремится к нулю. Полностью свойства случайной величины описываются законом ее распределения, под которым понимают связь между возможными значениями случайной величины и соответствующими им вероятностями Глава 2. КРАТКИЕ СВЕДЕНИЯ ИЗ ТЕОРИИ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ
21
Распределение случайной величины — функция, которая однозначно определяет вероятность того, что случайная величина принимает заданное значение или принадлежит к некоторому заданному интервалу. В математике используют два способа описания распределений случайных величин интегральный функция распределения) и дифференциальный (плотность распределения. Функция распределения F(x) — функция, определяющая для всех действительных х вероятность того, что случайная величина Х принимает значение не больше, чем х.
x
X
P
x
F
(2.3) Функция распределения F(x) имеет следующие свойства риса. Ее ордината, соответствующая произвольной точке х, представляет собой вероятность того, что случайная величина X будет меньше, чем х, те.
F(x
1
) = Х ≤ x
1
).
2. Функция распределения принимает значение, заключенное между нулем и единицей
1 0
x
F
(2.4)
3. Функция распределения стремится к нулю при неограниченном уменьшении хи стремится к единице при неограниченном возрастании х, те.
x
F
x
F
x
x
1
lim
,
0
lim
(2.5)
4. Функция распределения представляет собой монотонно возрастающую кривую, те.
F(x
2
) > F(x
1
), если х
> ха Глава 2. КРАТКИЕ СВЕДЕНИЯ ИЗ ТЕОРИИ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ 5. Ее приращение на произвольном отрезке (х х) равновероятно- сти того, что случайная величина X попадет в данный интервал
)
(
)
(
)
(
2 1
1 2
1 2
x
X
x
P
x
X
P
x
X
P
x
F
x
F
(2.6) Рассмотрим, какие особенности имеют функции распределения дискретных случайных величин. Пусть Х — дискретная случайная величина, принимающая возможные значениях, х, х с вероятностями Р, Р, …, Р
n
Функция распределения вероятностей этой случайной величины Х равна где производится суммирование вероятностей всех возможных значений случайной величины Х, меньших чем х Такая функция всегда
0,5 1,0 x
F(x) x
1 x
2
M
e
F(x
2
)
F(x
1
) Рис. 2.1. Интегральный закон распределения — функция распределения а – непрерывной случайной величины б – дискретной случайной величины а
1,0 x
F(x) x
2 x
3
P
n
P
2
P
1
… x
1 x
n-1 x
n б
Р
20
будет снова зарегистрировано ровно в 6 случаях из 18 наблюдений, а частота реализации этого события опять окажется равной 0,33. Таблица Частота остановок доменной печи Число остановок x
2 3
4 5
6 7 Количество наблюдений m, в которых реализовалось событие X = x
1 2
3 6
4 2 Частота реализации, W = m / n
0,06 0,11 0,17 0,33 0,22 0,11 Однако при возрастании числа повторений одного итого же комплекса условий частота реализации такого события, как, например, пять остановок печи в течение месяца, будет принимать все более и более устойчивое значение. Так, если подсчитать частоту реализации данного события за 36 месяцев, то она уже практически небу- дет отличаться оттого значения, которое затем можно будет получить за четыре с половиной года (при условии, что за все это время наблюдений в работе доменной печи не произойдет никаких существенных изменений. Предел, к которому стремится отношение m/n при неограниченном возрастании числа опытов n, называется вероятностью случайного события. Вероятность А) события А — число от нуля до единицы, которое представляет собой предел частоты реализации события А при неограниченном числе повторений одного итого же комплекса условий. Для дискретной случайной величины можно указать вероятность, с которой она принимает каждое из своих возможных значений конечного или счетного множества действительных чисел. Для непрерывной случайной величины задают вероятность ее попадания в один из заданных интервалов области ее определения поскольку вероятность того, что она примет какое-либо конкретное свое значение, стремится к нулю. Полностью свойства случайной величины описываются законом ее распределения, под которым понимают связь между возможными значениями случайной величины и соответствующими им вероятностями Глава 2. КРАТКИЕ СВЕДЕНИЯ ИЗ ТЕОРИИ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ
21
Распределение случайной величины — функция, которая однозначно определяет вероятность того, что случайная величина принимает заданное значение или принадлежит к некоторому заданному интервалу. В математике используют два способа описания распределений случайных величин интегральный функция распределения) и дифференциальный (плотность распределения. Функция распределения F(x) — функция, определяющая для всех действительных х вероятность того, что случайная величина Х принимает значение не больше, чем х.
x
X
P
x
F
(2.3) Функция распределения F(x) имеет следующие свойства риса. Ее ордината, соответствующая произвольной точке х, представляет собой вероятность того, что случайная величина X будет меньше, чем х, те.
F(x
1
) = Х ≤ x
1
).
2. Функция распределения принимает значение, заключенное между нулем и единицей
1 0
x
F
(2.4)
3. Функция распределения стремится к нулю при неограниченном уменьшении хи стремится к единице при неограниченном возрастании х, те.
x
F
x
F
x
x
1
lim
,
0
lim
(2.5)
4. Функция распределения представляет собой монотонно возрастающую кривую, те.
F(x
2
) > F(x
1
), если х
> ха Глава 2. КРАТКИЕ СВЕДЕНИЯ ИЗ ТЕОРИИ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ 5. Ее приращение на произвольном отрезке (х х) равновероятно- сти того, что случайная величина X попадет в данный интервал
)
(
)
(
)
(
2 1
1 2
1 2
x
X
x
P
x
X
P
x
X
P
x
F
x
F
(2.6) Рассмотрим, какие особенности имеют функции распределения дискретных случайных величин. Пусть Х — дискретная случайная величина, принимающая возможные значениях, х, х с вероятностями Р, Р, …, Р
n
Функция распределения вероятностей этой случайной величины Х равна где производится суммирование вероятностей всех возможных значений случайной величины Х, меньших чем х Такая функция всегда
0,5 1,0 x
F(x) x
1 x
2
M
e
F(x
2
)
F(x
1
) Рис. 2.1. Интегральный закон распределения — функция распределения а – непрерывной случайной величины б – дискретной случайной величины а
1,0 x
F(x) x
2 x
3
P
n
P
2
P
1
… x
1 x
n-1 x
n б
Р
Глава 2. КРАТКИЕ СВЕДЕНИЯ ИЗ ТЕОРИИ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ
23
разрывная, ступенчатая (рис. 2.1 бот дох включительно функция равна нулю, в точке х происходит скачок на величину Р, и функция остается постоянной дох включительно и т.д., то есть возможным значениям случайной величины соответствуют скачки функции, равные вероятностям этих значений. Последний скачок на Р
n
происходит в точке хи функция равна единице от х
n
до
. Таким образом, сумма всех скачков равна единице. Плотность распределения f(x) — первая производная (если она существует) функции распределения.
dx
x
dF
x
f
(2.7) Плотность функции распределения f(x) имеет следующие свойства (рис. 2.2): Рис. 2.2. Дифференциальный закон распределения – плотность распределения f(x)
1. Плотность распределения вероятностей является неотрицательной функцией, те.
0
x
f
(2.8) x f(x)
M
x
M
0
M
e f(x) x
1 x
2 dx
23
разрывная, ступенчатая (рис. 2.1 бот дох включительно функция равна нулю, в точке х происходит скачок на величину Р, и функция остается постоянной дох включительно и т.д., то есть возможным значениям случайной величины соответствуют скачки функции, равные вероятностям этих значений. Последний скачок на Р
n
происходит в точке хи функция равна единице от х
n
до
. Таким образом, сумма всех скачков равна единице. Плотность распределения f(x) — первая производная (если она существует) функции распределения.
dx
x
dF
x
f
(2.7) Плотность функции распределения f(x) имеет следующие свойства (рис. 2.2): Рис. 2.2. Дифференциальный закон распределения – плотность распределения f(x)
1. Плотность распределения вероятностей является неотрицательной функцией, те.
0
x
f
(2.8) x f(x)
M
x
M
0
M
e f(x) x
1 x
2 dx
Глава 2. КРАТКИЕ СВЕДЕНИЯ ИЗ ТЕОРИИ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ
24
Это свойство справедливо, так как F(x) есть неубывающая функция.
2. Функция распределения случайной величины Х равна определенному интегралу от плотности распределения вероятностей в пределах, х
)
(
x
dx
x
f
x
F
(2.9)
3. Вероятность события, состоящая в том, что случайная величина Х примет значение, заключенное в полуинтервале [x
1
, x
2
], равна определенному интегралу от плотности распределения вероятностей на этом полуинтервале
)
(
2 1
1 2
2 1
x
x
dx
x
f
x
F
x
F
x
X
x
P
(2.10)
4. Интеграл плотности распределения в бесконечно большом интервале) равен единице
,
1
X
P
dx
x
f
(2.11) так как попадание случайной величины в интервал
Х есть достоверное событие. В большинстве случаев при обработке экспериментальных данных, основываясь на тех или иных предположениях (гипотезах) относительно свойств исследуемой случайной величины, удается записать функцию ее распределения (а следовательно, и плотность распределения как первую производную от функции распределения) с точностью до некоторых неизвестных параметров. Например, для случайной величины, которая удовлетворяет так называемому нормальному закону распределения (закону распределения Гаусса, функцию распределения можно записать в виде
24
Это свойство справедливо, так как F(x) есть неубывающая функция.
2. Функция распределения случайной величины Х равна определенному интегралу от плотности распределения вероятностей в пределах, х
)
(
x
dx
x
f
x
F
(2.9)
3. Вероятность события, состоящая в том, что случайная величина Х примет значение, заключенное в полуинтервале [x
1
, x
2
], равна определенному интегралу от плотности распределения вероятностей на этом полуинтервале
)
(
2 1
1 2
2 1
x
x
dx
x
f
x
F
x
F
x
X
x
P
(2.10)
4. Интеграл плотности распределения в бесконечно большом интервале) равен единице
,
1
X
P
dx
x
f
(2.11) так как попадание случайной величины в интервал
Х есть достоверное событие. В большинстве случаев при обработке экспериментальных данных, основываясь на тех или иных предположениях (гипотезах) относительно свойств исследуемой случайной величины, удается записать функцию ее распределения (а следовательно, и плотность распределения как первую производную от функции распределения) с точностью до некоторых неизвестных параметров. Например, для случайной величины, которая удовлетворяет так называемому нормальному закону распределения (закону распределения Гаусса, функцию распределения можно записать в виде
Глава 2. КРАТКИЕ СВЕДЕНИЯ ИЗ ТЕОРИИ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ 1
)
(
2 2
2 2
dx
e
x
F
x
M
x
x
x
x
(2.12) а для случайной величины, имеющей, например, распределение
Вейбула-Гнеденко (используемое для описания результатов экспериментов в случае хрупкого разрушения металла, а также в испытаниях на многоцикловую усталость, функция распределения определяется следующим выражением
,
1
)
(
b
H
c
x
x
e
x
F
при Х > х
н
,
F(x) = 0, при Х ≤ х
н
.
(2.13) В функциях (2.12) и (2.13) константы M
x
, σ
x
2
и с, b, х
н являются параметрами распределений, причем первое из этих двух выражений относится к двухпараметрическому виду закона распределения, а второе, соответственно, — к трехпараметрическому. Параметр распределения — постоянная, от которой зависит функция распределения. Следовательно, если известен вид функции распределения
(каким-либо образом установлено, что случайная величина не противоречит тому или иному закону распределения, то для того, чтобы однозначно охарактеризовать случайную величину, достаточно задать только лишь параметры ее распределения. Важнейшими параметрами распределения, задающими случайную величину Х, являются ее математическое ожидание M
x
(характеризует центр рассеивания) и дисперсия σ
x
2
(характеризует степень рассеивания. Математическое ожидание M
x
— среднее взвешенное по вероятностям значение случайной величины. Часто математическое ожидание называют момент ого порядка. Для дискретной случайной величины математическое ожидание определяется выражением
,
i
i
i
x
p
x
M
(2.14)
)
(
2 2
2 2
dx
e
x
F
x
M
x
x
x
x
(2.12) а для случайной величины, имеющей, например, распределение
Вейбула-Гнеденко (используемое для описания результатов экспериментов в случае хрупкого разрушения металла, а также в испытаниях на многоцикловую усталость, функция распределения определяется следующим выражением
,
1
)
(
b
H
c
x
x
e
x
F
при Х > х
н
,
F(x) = 0, при Х ≤ х
н
.
(2.13) В функциях (2.12) и (2.13) константы M
x
, σ
x
2
и с, b, х
н являются параметрами распределений, причем первое из этих двух выражений относится к двухпараметрическому виду закона распределения, а второе, соответственно, — к трехпараметрическому. Параметр распределения — постоянная, от которой зависит функция распределения. Следовательно, если известен вид функции распределения
(каким-либо образом установлено, что случайная величина не противоречит тому или иному закону распределения, то для того, чтобы однозначно охарактеризовать случайную величину, достаточно задать только лишь параметры ее распределения. Важнейшими параметрами распределения, задающими случайную величину Х, являются ее математическое ожидание M
x
(характеризует центр рассеивания) и дисперсия σ
x
2
(характеризует степень рассеивания. Математическое ожидание M
x
— среднее взвешенное по вероятностям значение случайной величины. Часто математическое ожидание называют момент ого порядка. Для дискретной случайной величины математическое ожидание определяется выражением
,
i
i
i
x
p
x
M
(2.14)
Глава 2. КРАТКИЕ СВЕДЕНИЯ ИЗ ТЕОРИИ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ
26
где х
— значения дискретной случайной величины, ах Если в условиях примера 2.1 предположить, что p
i
≈ см. табл. 2.2), то для математического ожидания такой дискретной случайной величины, как число остановок доменной печи в течение месяца, можно получить следующее значение
M
x
= 2·0,06 + 3·0,11 + 4·0,17 + 5·0,33 + 6·0,22 + 7·0,11 = 4,87. Для непрерывной случайной величины математическое ожидание определяется интегралом
,
dx
x
xf
M
x
(2.15) где f(x) — плотность распределения непрерывной случайной величины. Можно отметить, что геометрический смысл математического ожидания непрерывной случайной величины — это абсцисса центра тяжести фигуры под кривой плотности распределения f(x). Сказанное проиллюстрируем на рис. 2.2, где видно, что произведение f(x)dx есть площадь элементарного участка под кривой f(x), а x — абсцисса этого участка, те. расстояние от начала координат. Следовательно, интеграл) дает абсциссу центра тяжести всей площади фигуры под кривой f(x). Кроме математического ожидания центр рассеивания случайной величины можно еще охарактеризовать такими параметрами ее распределения, как мода и медиана. Мода Мо — значение случайной величины, соответствующее локальному максимуму плотности вероятностей для непрерывной случайной величины или локальному максимуму вероятности для дискретной случайной величины. Для примера 2.1 (см. табл. 2.2), при условии, что p
i
≈ W
i
, мода
Мо числа остановок доменной печи равна 5, поскольку именно этому значению данной дискретной случайной величины соответствует локальный максимум вероятности, равный 0,33. Медиана Ме — значение случайной величины, для которого функция распределения принимает значение ½, или имеет место
26
где х
— значения дискретной случайной величины, ах Если в условиях примера 2.1 предположить, что p
i
≈ см. табл. 2.2), то для математического ожидания такой дискретной случайной величины, как число остановок доменной печи в течение месяца, можно получить следующее значение
M
x
= 2·0,06 + 3·0,11 + 4·0,17 + 5·0,33 + 6·0,22 + 7·0,11 = 4,87. Для непрерывной случайной величины математическое ожидание определяется интегралом
,
dx
x
xf
M
x
(2.15) где f(x) — плотность распределения непрерывной случайной величины. Можно отметить, что геометрический смысл математического ожидания непрерывной случайной величины — это абсцисса центра тяжести фигуры под кривой плотности распределения f(x). Сказанное проиллюстрируем на рис. 2.2, где видно, что произведение f(x)dx есть площадь элементарного участка под кривой f(x), а x — абсцисса этого участка, те. расстояние от начала координат. Следовательно, интеграл) дает абсциссу центра тяжести всей площади фигуры под кривой f(x). Кроме математического ожидания центр рассеивания случайной величины можно еще охарактеризовать такими параметрами ее распределения, как мода и медиана. Мода Мо — значение случайной величины, соответствующее локальному максимуму плотности вероятностей для непрерывной случайной величины или локальному максимуму вероятности для дискретной случайной величины. Для примера 2.1 (см. табл. 2.2), при условии, что p
i
≈ W
i
, мода
Мо числа остановок доменной печи равна 5, поскольку именно этому значению данной дискретной случайной величины соответствует локальный максимум вероятности, равный 0,33. Медиана Ме — значение случайной величины, для которого функция распределения принимает значение ½, или имеет место
Глава 2. КРАТКИЕ СВЕДЕНИЯ ИЗ ТЕОРИИ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ
27
«скачок» со значения, меньшего чем ½, до значения, большего чем ½. Таким образом, для дифференциального закона распределения медиана есть такое значение непрерывной случайной величины Х, которое делит пополам площадь под кривой плотности распределения В примере 2.1, если предположить, что функция распределения от четырех остановок F(4) (вероятность того, что число остановок доменной печи в течение месяца будет не более четырех) равна
0,06 + 0,11 + 0,17 = 0,34 , а функция распределения F(5) = 0,34 +
+ 0,33 = 0,67, то медианой Ме такой дискретной случайной величины, как число остановок доменной печи в течение месяца, будет значение
Ме = 5. Дисперсия случайной величины σ
x
2
— математическое ожидание случайной величины (Х – M
x
)
2
или, другими словами, центральный момент второго порядка. Для дискретной случайной величины дисперсия определяется следующим математическим выражением
)
(
1 2
2
n
i
i
x
i
x
x
p
M
x
(2.16) В примере 2.1 (опять же, если предположить, что p
i
≈ W
i
) значение дисперсии числа остановок доменной печи равно
σ
x
2
= (2 – 4,87)
2
· 0,06 + (3 – 4,87)
2
· 0,11 + (4 – 4,87)
2
· 0,17 + (5 –
– 4,87)
2
· 0,33 + (6 – 4,87)
2
· 0,22 + (7 – 4,87)
2
·0,11 = 1,7931. Для непрерывной случайной величины дисперсия определяется выражением
,
)
(
2 2
dx
x
f
M
x
x
x
(2.17) где х — значения непрерывной случайной величины Х х — плотность распределения M
x
— математическое ожидание. Дисперсия имеет размерность квадрата единицы измерения случайной величины, а положительное значение квадратного корня из
27
«скачок» со значения, меньшего чем ½, до значения, большего чем ½. Таким образом, для дифференциального закона распределения медиана есть такое значение непрерывной случайной величины Х, которое делит пополам площадь под кривой плотности распределения В примере 2.1, если предположить, что функция распределения от четырех остановок F(4) (вероятность того, что число остановок доменной печи в течение месяца будет не более четырех) равна
0,06 + 0,11 + 0,17 = 0,34 , а функция распределения F(5) = 0,34 +
+ 0,33 = 0,67, то медианой Ме такой дискретной случайной величины, как число остановок доменной печи в течение месяца, будет значение
Ме = 5. Дисперсия случайной величины σ
x
2
— математическое ожидание случайной величины (Х – M
x
)
2
или, другими словами, центральный момент второго порядка. Для дискретной случайной величины дисперсия определяется следующим математическим выражением
)
(
1 2
2
n
i
i
x
i
x
x
p
M
x
(2.16) В примере 2.1 (опять же, если предположить, что p
i
≈ W
i
) значение дисперсии числа остановок доменной печи равно
σ
x
2
= (2 – 4,87)
2
· 0,06 + (3 – 4,87)
2
· 0,11 + (4 – 4,87)
2
· 0,17 + (5 –
– 4,87)
2
· 0,33 + (6 – 4,87)
2
· 0,22 + (7 – 4,87)
2
·0,11 = 1,7931. Для непрерывной случайной величины дисперсия определяется выражением
,
)
(
2 2
dx
x
f
M
x
x
x
(2.17) где х — значения непрерывной случайной величины Х х — плотность распределения M
x
— математическое ожидание. Дисперсия имеет размерность квадрата единицы измерения случайной величины, а положительное значение квадратного корня из
Глава 2. КРАТКИЕ СВЕДЕНИЯ ИЗ ТЕОРИИ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ
28
дисперсии называется средним квадратичным отклонением. Среднее квадратичное отклонение σ
x
— неотрицательный квадратный корень из дисперсии.
2
x
x
(2.18) Для примера 2.1 среднее квадратичное отклонение числа остановок доменной печи в течение месяца равно
34
,
1 Дадим определение еще одного важного параметра распределения случайной величины, который носит название квантиль. Квантиль порядка P, х
р
— значение случайной величины, для которого функция распределения принимает значение P или имеет место скачок со значения, меньшего чем P, до значения, большего чем P:
F(x
p
) = P.
(2.19) Из этого определения квантиля следует, что медиана Ме — это квантиль порядка ½, те. Мех Вероятность попадания случайной величины Х в интервал х, х равна
)
(
)
(
)
(
1 2
1 2
1 2
2 1
P
P
x
F
x
F
x
X
P
x
X
P
x
X
x
P
P
P
P
P
P
P
(2.20) В примере 2.1 квантиль порядка 0,95 числа остановок доменной печи скорее всего равен семи х
0,95
≈ 7, поскольку F(6) ≈ 0,06 + 0,11 +
+ 0,17 + 0,33 + 0,22 = 0,89, а F(7) ≈ 0,89 + 0,11 = 1,00.
2.2. Нормальный закон распределения Функция распределения F(x) и соответствующая ей плотность распределения f(x) представляют собой некоторую математическую модель свойств исследуемой случайной величины (отклика, значения которой регистрируются входе эксперимента. Поэтому одной из основных задач статистической обработки опытных данных является нахождение таких функций распределения, которые, с одной
28
дисперсии называется средним квадратичным отклонением. Среднее квадратичное отклонение σ
x
— неотрицательный квадратный корень из дисперсии.
2
x
x
(2.18) Для примера 2.1 среднее квадратичное отклонение числа остановок доменной печи в течение месяца равно
34
,
1 Дадим определение еще одного важного параметра распределения случайной величины, который носит название квантиль. Квантиль порядка P, х
р
— значение случайной величины, для которого функция распределения принимает значение P или имеет место скачок со значения, меньшего чем P, до значения, большего чем P:
F(x
p
) = P.
(2.19) Из этого определения квантиля следует, что медиана Ме — это квантиль порядка ½, те. Мех Вероятность попадания случайной величины Х в интервал х, х равна
)
(
)
(
)
(
1 2
1 2
1 2
2 1
P
P
x
F
x
F
x
X
P
x
X
P
x
X
x
P
P
P
P
P
P
P
(2.20) В примере 2.1 квантиль порядка 0,95 числа остановок доменной печи скорее всего равен семи х
0,95
≈ 7, поскольку F(6) ≈ 0,06 + 0,11 +
+ 0,17 + 0,33 + 0,22 = 0,89, а F(7) ≈ 0,89 + 0,11 = 1,00.
2.2. Нормальный закон распределения Функция распределения F(x) и соответствующая ей плотность распределения f(x) представляют собой некоторую математическую модель свойств исследуемой случайной величины (отклика, значения которой регистрируются входе эксперимента. Поэтому одной из основных задач статистической обработки опытных данных является нахождение таких функций распределения, которые, с одной
Глава 2. КРАТКИЕ СВЕДЕНИЯ ИЗ ТЕОРИИ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ
29
стороны, достаточно хорошо описывали бы наблюдаемые значения случайной величины, ас другой — были бы удобны для дальнейшего статистического анализа. При этом вид функции распределения предпочтительно выбирать на основе представлений о физической природе рассматриваемого явления, так как в этом случае исключаются возможные погрешности при распространении найденных закономерностей за пределы изучаемого в эксперименте интервала варьирования (изменения) случайной величины (отклика. Из всех изученных к настоящему времени случайных величин при обработке экспериментальных данных исследователи чаще всего оперируют со случайными величинами, которые имеют так называемое нормальное (Гауссово) распределение (рис. 2.3). x
x
M
x z
F(z)
0,5 1,0 3
3 в
x
f(x)
M
x
, M
0
, е f(x)
max
=
2
x
2 а
x
F(x)
0,5 1,0
M
x
, M
0
, M
е
x2
x1
б Рис. 2.3. Плотность распределения (а, г) и функция распределения (б, в) при нормальном законе распределения случайных величин
f(z) x
x
M
x z
0,4 3
3 г
S
1
-z
S
2
S
3
+z
29
стороны, достаточно хорошо описывали бы наблюдаемые значения случайной величины, ас другой — были бы удобны для дальнейшего статистического анализа. При этом вид функции распределения предпочтительно выбирать на основе представлений о физической природе рассматриваемого явления, так как в этом случае исключаются возможные погрешности при распространении найденных закономерностей за пределы изучаемого в эксперименте интервала варьирования (изменения) случайной величины (отклика. Из всех изученных к настоящему времени случайных величин при обработке экспериментальных данных исследователи чаще всего оперируют со случайными величинами, которые имеют так называемое нормальное (Гауссово) распределение (рис. 2.3). x
x
M
x z
F(z)
0,5 1,0 3
3 в
x
f(x)
M
x
, M
0
, е f(x)
max
=
2
x
2 а
x
F(x)
0,5 1,0
M
x
, M
0
, M
е
x2
x1
б Рис. 2.3. Плотность распределения (а, г) и функция распределения (б, в) при нормальном законе распределения случайных величин
f(z) x
x
M
x z
0,4 3
3 г
S
1
-z
S
2
S
3
+z
Глава 2. КРАТКИЕ СВЕДЕНИЯ ИЗ ТЕОРИИ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ
30
Не вдаваясь в подробные математические выкладки, отметим, что, согласно центральной предельной теореме математической статистики при определенных условиях распределение нормированной суммы n независимых случайных величин, распределенных по произвольному закону, стремится к нормальному, когда n стремится к бесконечности. Необходимые условия, при которых эта теорема оказывается справедливой, состоят в том, что различные случайные величины должны иметь конечные дисперсии и дисперсия любой случайной величины не должна быть слишком большой по сравнению с дисперсиями других. При обработке экспериментальных данных эта теорема имеет очень большое значение, поскольку отклик становится случайной величиной в результате влияния неконтролируемых факторов, число которых скорее всего стремится к бесконечности. Кроме того, если при проведении опытов все наиболее существенные факторы контролируются, то воздействие на отклик каждого из неконтролируемых факторов не должно быть слишком большим по сравнению с остальными неконтролируемыми факторами. Другими словами, та дисперсия (рассеивание) отклика, которую вызывает какой-либо из неконтролируемых факторов, не должна сильно отличаться от дисперсий, связанных с влиянием остальных неконтролируемых факторов. В противном случае фактор, дисперсия от которого существенно отличается от других, обязательно должен быть переведен в разряд контролируемых. Следовательно, если при планировании эксперимента учтены все наиболее существенные факторы и затем, при проведении опытов, они контролируются, то при обработке экспериментальных данных можно предполагать, что отклик не должен противоречить нормальному распределению. Как правило, нормальному закону подчиняются результаты испытаний стали на прочность, производительность многих металлургических агрегатов, составы сырья, топлива, сплавов, массы слитков, отлитых в однотипные изложницы, случайные ошибки измерений и т.п., поэтому при обработке результатов наблюдений исследователи, прежде всего, предполагают именно нормальное распределение отклика. Большинство других распределений, которые используются
30
Не вдаваясь в подробные математические выкладки, отметим, что, согласно центральной предельной теореме математической статистики при определенных условиях распределение нормированной суммы n независимых случайных величин, распределенных по произвольному закону, стремится к нормальному, когда n стремится к бесконечности. Необходимые условия, при которых эта теорема оказывается справедливой, состоят в том, что различные случайные величины должны иметь конечные дисперсии и дисперсия любой случайной величины не должна быть слишком большой по сравнению с дисперсиями других. При обработке экспериментальных данных эта теорема имеет очень большое значение, поскольку отклик становится случайной величиной в результате влияния неконтролируемых факторов, число которых скорее всего стремится к бесконечности. Кроме того, если при проведении опытов все наиболее существенные факторы контролируются, то воздействие на отклик каждого из неконтролируемых факторов не должно быть слишком большим по сравнению с остальными неконтролируемыми факторами. Другими словами, та дисперсия (рассеивание) отклика, которую вызывает какой-либо из неконтролируемых факторов, не должна сильно отличаться от дисперсий, связанных с влиянием остальных неконтролируемых факторов. В противном случае фактор, дисперсия от которого существенно отличается от других, обязательно должен быть переведен в разряд контролируемых. Следовательно, если при планировании эксперимента учтены все наиболее существенные факторы и затем, при проведении опытов, они контролируются, то при обработке экспериментальных данных можно предполагать, что отклик не должен противоречить нормальному распределению. Как правило, нормальному закону подчиняются результаты испытаний стали на прочность, производительность многих металлургических агрегатов, составы сырья, топлива, сплавов, массы слитков, отлитых в однотипные изложницы, случайные ошибки измерений и т.п., поэтому при обработке результатов наблюдений исследователи, прежде всего, предполагают именно нормальное распределение отклика. Большинство других распределений, которые используются
Глава 2. КРАТКИЕ СВЕДЕНИЯ ИЗ ТЕОРИИ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ
31
в математической статистике (Стьюдента, Фишера, Пирсона, Кохре- на, а также распределения, по которым составлены различные крите- риальные таблицы, получены на основе нормального распределения. Нельзя, однако, абсолютизировать значение нормального распределения. Не все случайные величины распределены по нормальному закону. Тем не менее на практике, если явление подвержено действию многих случайных факторов, их суммарное воздействие вполне оправданно можно описать с помощью нормального закона. Как уже было отмечено, для случайной величины, которая не противоречит нормальному закону, функция распределения (2.12) и соответствующая ей плотность распределения
2 2
2 2
2 1
)
(
x
x
M
x
x
e
x
f
(2.21) определяются двумя параметрами М — математическим ожиданием и
x
2
— дисперсией. Отметим некоторые свойства нормального закона распределения. Кривая плотности распределения симметрична относительно значения М, называемого иногда центром распределения.
2. При бóльших значениях
x
2
кривая f(x) более пологая, те.
x
2
является мерой величины рассеивания значения случайной величины около значений М. Приуменьшении параметра
x
2
кривая нормального распределения сжимается вдоль оси ОХ и вытягивается вдоль f(x).
3. Максимум ординаты кривой плотности распределения определяется выражением
,
2 1
2
max
x
f
(2.22) что при
x
2
= соответствует значению примерно 0,4.
4. Для нормального распределения математическое ожидание, мода и медиана совпадают
31
в математической статистике (Стьюдента, Фишера, Пирсона, Кохре- на, а также распределения, по которым составлены различные крите- риальные таблицы, получены на основе нормального распределения. Нельзя, однако, абсолютизировать значение нормального распределения. Не все случайные величины распределены по нормальному закону. Тем не менее на практике, если явление подвержено действию многих случайных факторов, их суммарное воздействие вполне оправданно можно описать с помощью нормального закона. Как уже было отмечено, для случайной величины, которая не противоречит нормальному закону, функция распределения (2.12) и соответствующая ей плотность распределения
2 2
2 2
2 1
)
(
x
x
M
x
x
e
x
f
(2.21) определяются двумя параметрами М — математическим ожиданием и
x
2
— дисперсией. Отметим некоторые свойства нормального закона распределения. Кривая плотности распределения симметрична относительно значения М, называемого иногда центром распределения.
2. При бóльших значениях
x
2
кривая f(x) более пологая, те.
x
2
является мерой величины рассеивания значения случайной величины около значений М. Приуменьшении параметра
x
2
кривая нормального распределения сжимается вдоль оси ОХ и вытягивается вдоль f(x).
3. Максимум ординаты кривой плотности распределения определяется выражением
,
2 1
2
max
x
f
(2.22) что при
x
2
= соответствует значению примерно 0,4.
4. Для нормального распределения математическое ожидание, мода и медиана совпадают
Глава 2. КРАТКИЕ СВЕДЕНИЯ ИЗ ТЕОРИИ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ) В ряде случаев рассматривается не сама случайная величина Ха ее отклонение от математического ожидания
M
X
Y
(2.24) Такая случайная величина Y называется центрированной. Отношение случайной величины Х к ее среднему квадратичному отклонению
x
X
V
(2.25) называется нормированной случайной величиной. Таким образом, центрированная случайная величина — разность между данной случайной величиной и ее математическим ожиданием, а нормированная случайная величина — отношение данной случайной величины к ее среднему квадратичному отклонению. Очевидно, что математическое ожидание центрированной случайной величины равно нулю, M
y
= 0, а дисперсия нормированной случайной величины равна единице, σ
V
2
= 1. Приведенная случайная величина — центрированная и нормированная случайная величина
x
x
M
X
Z
(2.26) Математическое ожидание и дисперсия приведенной случайной величины Z равны соответственно нулю, M
z
= 0, и единице, σ
z
2
= 1. Нормальное распределение с параметрами M
z
= 0 и σ
z
2
= 1 называется стандартным (нормированным Для приведенной случайной величины нормальное стандартное распределение принимает вид
z dz e
2 1
)
z
(
F
z
2
z
2
,
(2.27)
M
X
Y
(2.24) Такая случайная величина Y называется центрированной. Отношение случайной величины Х к ее среднему квадратичному отклонению
x
X
V
(2.25) называется нормированной случайной величиной. Таким образом, центрированная случайная величина — разность между данной случайной величиной и ее математическим ожиданием, а нормированная случайная величина — отношение данной случайной величины к ее среднему квадратичному отклонению. Очевидно, что математическое ожидание центрированной случайной величины равно нулю, M
y
= 0, а дисперсия нормированной случайной величины равна единице, σ
V
2
= 1. Приведенная случайная величина — центрированная и нормированная случайная величина
x
x
M
X
Z
(2.26) Математическое ожидание и дисперсия приведенной случайной величины Z равны соответственно нулю, M
z
= 0, и единице, σ
z
2
= 1. Нормальное распределение с параметрами M
z
= 0 и σ
z
2
= 1 называется стандартным (нормированным Для приведенной случайной величины нормальное стандартное распределение принимает вид
z dz e
2 1
)
z
(
F
z
2
z
2
,
(2.27)
Глава 2. КРАТКИЕ СВЕДЕНИЯ ИЗ ТЕОРИИ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ
z e
2 1
)
z
(
f
2
z
2
(2.28) Графики этих функций показаны на рис. 2.3 в, г, причем
Ф – z) = 1 – Ф,
(2.29)
).
z
(
)
z
(
(2.30) Покажем справедливость соотношения (2.29). Рассмотрим график плотности стандартного нормального распределения (см. рис. 2.3 г. Обозначим площадь под ним левее точки –z через S
1
; площадь между –z и z — через S
2
, оставшуюся площадь (правее z) — через. Тогда, во-первых, из симметричности графика плотности следует, что S
1
= S
3
. Во-вторых, S
1
+S
2
+S
3
= 1 или S
1
+ (S
1
+ S
2
) = 1 (вся площадь под графиком плотности равна единице. По смыслу функции распределения S
1
= Ф,
S
1
+ S
2
= Ф. Следовательно, Ф) + Ф) = 1, откуда и следует равенство (2.29). Значения нормированной функции (2.27) нормального распределения (функции Лапласа) и значения плотности нормированного нормального распределения (2.28) табулированы и приведены враз- личных учебниках и справочниках по математической статистике наиболее подробные таблицы см. [11]). В списке статистических функций электронных таблиц Microsoft Excel им соответствуют
НОРМ.РАСП(x; 0; 1; ИСТИНА) или НОРМ.СТ.РАСП(z, ИСТИНА) — для (2.27) и НОРМ.РАСП(x; 0; 1; ЛОЖЬ) или
НОРМ.СТ.РАСП(z, ЛОЖЬ) — для (2.28). Геометрически функция Лапласа представляет площадь под кривой f(z) в интервале от
до некоторой конкретной величины z. Заметим, что иногда вместо функции Ф) табулируется функция Ф
dz
e
z
z
z
0 2
0 2
2 1
, равная площади под графиком стандартного нормального распределения от 0 до z (см. рис. 2.3 г.
z e
2 1
)
z
(
f
2
z
2
(2.28) Графики этих функций показаны на рис. 2.3 в, г, причем
Ф – z) = 1 – Ф,
(2.29)
).
z
(
)
z
(
(2.30) Покажем справедливость соотношения (2.29). Рассмотрим график плотности стандартного нормального распределения (см. рис. 2.3 г. Обозначим площадь под ним левее точки –z через S
1
; площадь между –z и z — через S
2
, оставшуюся площадь (правее z) — через. Тогда, во-первых, из симметричности графика плотности следует, что S
1
= S
3
. Во-вторых, S
1
+S
2
+S
3
= 1 или S
1
+ (S
1
+ S
2
) = 1 (вся площадь под графиком плотности равна единице. По смыслу функции распределения S
1
= Ф,
S
1
+ S
2
= Ф. Следовательно, Ф) + Ф) = 1, откуда и следует равенство (2.29). Значения нормированной функции (2.27) нормального распределения (функции Лапласа) и значения плотности нормированного нормального распределения (2.28) табулированы и приведены враз- личных учебниках и справочниках по математической статистике наиболее подробные таблицы см. [11]). В списке статистических функций электронных таблиц Microsoft Excel им соответствуют
НОРМ.РАСП(x; 0; 1; ИСТИНА) или НОРМ.СТ.РАСП(z, ИСТИНА) — для (2.27) и НОРМ.РАСП(x; 0; 1; ЛОЖЬ) или
НОРМ.СТ.РАСП(z, ЛОЖЬ) — для (2.28). Геометрически функция Лапласа представляет площадь под кривой f(z) в интервале от
до некоторой конкретной величины z. Заметим, что иногда вместо функции Ф) табулируется функция Ф
dz
e
z
z
z
0 2
0 2
2 1
, равная площади под графиком стандартного нормального распределения от 0 до z (см. рис. 2.3 г.
Глава 2. КРАТКИЕ СВЕДЕНИЯ ИЗ ТЕОРИИ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ
34
В силу симметрии
2
/
1 2
1 0
2 Поэтому между функциями и существует простая зависимость Ф ½+ Ф. Функция Ф) нечетна: Ф) = - Ф. В самом деле, Ф) = Ф) – ½ = 1 - Ф) – ½ = ½-(1/2+ Ф) = - Ф. В соответствии с (2.19) квантиль р порядка р, нормированного нормального закона распределения - это такое значение приведенной случайной величины Z, для которого функция распределения (2.27) принимает значение РФ) При определении квантили р необходимо решать задачу, обратную задаче определения значений функции Лапласа, те. по известному значению Р этой функции (2.27) находить соответствующее ему значение аргумента z
р
Для этого можно либо воспользоваться табулированными значениями функции Лапласа (например, поскольку Фа Ф) = 0,9505, то z
0,95
≈ 1,645 ), либо воспользоваться таблицами для функции, обратной функции Лапласа, те. табулированными значениями квантилей нормированного нормального закона распределения (см. [11] или приложение. Определение квантили z
p
в электронных таблицах Microsoft Excel сводится к вычислению статистической функции
НОРМ.ОБР(Р; 0; 1) или НОРМ.СТ.ОБР(Р)
34
В силу симметрии
2
/
1 2
1 0
2 Поэтому между функциями и существует простая зависимость Ф ½+ Ф. Функция Ф) нечетна: Ф) = - Ф. В самом деле, Ф) = Ф) – ½ = 1 - Ф) – ½ = ½-(1/2+ Ф) = - Ф. В соответствии с (2.19) квантиль р порядка р, нормированного нормального закона распределения - это такое значение приведенной случайной величины Z, для которого функция распределения (2.27) принимает значение РФ) При определении квантили р необходимо решать задачу, обратную задаче определения значений функции Лапласа, те. по известному значению Р этой функции (2.27) находить соответствующее ему значение аргумента z
р
Для этого можно либо воспользоваться табулированными значениями функции Лапласа (например, поскольку Фа Ф) = 0,9505, то z
0,95
≈ 1,645 ), либо воспользоваться таблицами для функции, обратной функции Лапласа, те. табулированными значениями квантилей нормированного нормального закона распределения (см. [11] или приложение. Определение квантили z
p
в электронных таблицах Microsoft Excel сводится к вычислению статистической функции
НОРМ.ОБР(Р; 0; 1) или НОРМ.СТ.ОБР(Р)
Глава 2. КРАТКИЕ СВЕДЕНИЯ ИЗ ТЕОРИИ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ
35
(например, НОРМ.ОБР(0,95; 0; 1) = НОРМ.СТ.ОБР(0,95) =
= 1,644853). Для квантили стандартного нормального распределения справедливо следующее равенство
z
1 – p
= - z
p
(2.32) Рассмотрим график плотности стандартного нормального распределения (рис. 2.4). Площадь под графиком левее квантили z
p по определению равна Значит, площадь правее этой точки равна 1 – p. Такая же площадь расположена левее точки z
1 –p
Итак, площади левее z
1 –p
иправее z
p равны. Поскольку график симметричен относительно оси ординат, из этого следует, что эти точки расположены на одинаковом расстоянии от нуля. Зная квантиль р порядка р нормированного нормального закона распределения (M
z
= 0 и σ
z
2
= 1), всегда можно найти квантиль р соответствующего порядка р для нормального распределения с произвольными параметрами M
x и σ
x
2 Поскольку то
p
x
x
p
z
M
x
и, следовательно,
(z) z
1-p
1-p
1-p z
p Рис. 2.4. Квантиль стандартного нормального распределения
z
35
(например, НОРМ.ОБР(0,95; 0; 1) = НОРМ.СТ.ОБР(0,95) =
= 1,644853). Для квантили стандартного нормального распределения справедливо следующее равенство
z
1 – p
= - z
p
(2.32) Рассмотрим график плотности стандартного нормального распределения (рис. 2.4). Площадь под графиком левее квантили z
p по определению равна Значит, площадь правее этой точки равна 1 – p. Такая же площадь расположена левее точки z
1 –p
Итак, площади левее z
1 –p
иправее z
p равны. Поскольку график симметричен относительно оси ординат, из этого следует, что эти точки расположены на одинаковом расстоянии от нуля. Зная квантиль р порядка р нормированного нормального закона распределения (M
z
= 0 и σ
z
2
= 1), всегда можно найти квантиль р соответствующего порядка р для нормального распределения с произвольными параметрами M
x и σ
x
2 Поскольку то
p
x
x
p
z
M
x
и, следовательно,
(z) z
1-p
1-p
1-p z
p Рис. 2.4. Квантиль стандартного нормального распределения
z
Глава 2. КРАТКИЕ СВЕДЕНИЯ ИЗ ТЕОРИИ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ
36
x
p
x
p
z
M
x
(2.32а) В ряде случаев важно знать вероятность того, что случайная величина Х, подчиняющаяся нормальному закону распределения, не будет отличаться от своего математического ожидания М больше чем на величину ±
= ε·σ
x
(см. рис. 2.3 г.
x
x
x
x
x
x
x
x
x
x
x
x
M
M
M
X
M
M
P
M
X
M
P
)
(
2 1
2 1
)
(
2 2
2 2
dz
e
dz
e
Z
P
z
z
1 2
)
1
(
(2.33) Так, при
=
x
(ε = 1) получаем, что
,
1 а поскольку по таблицам например, см. табл. [11) Фили в Microsoft Excel
НОРМ.РАСП(1;0;1;ИСТИНА) = НОРМ.СТ.РАСП(1;ИСТИНА) =
= 0,84135), то для случайной величины с нормальным законом распределения вероятность того, что она примет такое значение, которое не будет отличаться от ее математического ожидания более чем на одно среднее квадратическое отклонение, равна 2
0,84135–1=0,68. Иными словами, при нормальном распределении примерно 2/3 всех значений случайной величины (отклика) лежит в интервале M
x Аналогично можно подсчитать, что интервалу M
x
1,96
x
M
x
2
x соответствует вероятность 0,95 (Фа интервалу (Ф) = 0,99865). Отметим дополнительно, что 90% значений случайной величины лежат в диапазоне M
x
1,64
x Ф) = 0,949497). Следовательно, отличие какого-либо из значений случайной величины с нормальным законом распределения от ее математического ожидания не превосходит утроенного среднего квадратичного отклонения с вероятностью 0,997. Это свойство в математической статистике носит название правило трех сигм.
36
x
p
x
p
z
M
x
(2.32а) В ряде случаев важно знать вероятность того, что случайная величина Х, подчиняющаяся нормальному закону распределения, не будет отличаться от своего математического ожидания М больше чем на величину ±
= ε·σ
x
(см. рис. 2.3 г.
x
x
x
x
x
x
x
x
x
x
x
x
M
M
M
X
M
M
P
M
X
M
P
)
(
2 1
2 1
)
(
2 2
2 2
dz
e
dz
e
Z
P
z
z
1 2
)
1
(
(2.33) Так, при
=
x
(ε = 1) получаем, что
,
1 а поскольку по таблицам например, см. табл. [11) Фили в Microsoft Excel
НОРМ.РАСП(1;0;1;ИСТИНА) = НОРМ.СТ.РАСП(1;ИСТИНА) =
= 0,84135), то для случайной величины с нормальным законом распределения вероятность того, что она примет такое значение, которое не будет отличаться от ее математического ожидания более чем на одно среднее квадратическое отклонение, равна 2
0,84135–1=0,68. Иными словами, при нормальном распределении примерно 2/3 всех значений случайной величины (отклика) лежит в интервале M
x Аналогично можно подсчитать, что интервалу M
x
1,96
x
M
x
2
x соответствует вероятность 0,95 (Фа интервалу (Ф) = 0,99865). Отметим дополнительно, что 90% значений случайной величины лежат в диапазоне M
x
1,64
x Ф) = 0,949497). Следовательно, отличие какого-либо из значений случайной величины с нормальным законом распределения от ее математического ожидания не превосходит утроенного среднего квадратичного отклонения с вероятностью 0,997. Это свойство в математической статистике носит название правило трех сигм.
Глава 2. КРАТКИЕ СВЕДЕНИЯ ИЗ ТЕОРИИ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ
37
Чем больше величина интервала M
x
, тем с большей вероятностью случайная величина X попадает в этот интервал. Рассмотрим небольшой пример. Пример. Предположим, что математическое ожидание содержания кремния в чугуне равно M
Si
= 0,6%, а среднеквадратичное отклонение
Si
= 0,15%. В этом случае мы можем быть уверены в том, что величина фактически измеренного значения процентного содержания кремния в чугуне будет находиться в интервалах
0,6
1,00
0,15 = 0,6
0,15 с вероятностью 0,68;
0,6
1,64
0,15 = 0,6
0,25 с вероятностью 0,90;
0,6
1,96
0,15 = 0,6
0,29 с вероятностью 0,95;
0,6
3,00
0,15 = 0,6
0,45 с вероятностью 0,997, те. из 1000 проб только 3 пробы по содержанию кремния в чугуне будут выходить из диапазона от 0,15 до 1,05%. Заметим, однако при рассмотрении примера 2.2 мы предполагали, что процентное содержание кремния в чугуне не противоречит нормальному закону распределения, а также то, что нам изначально были известны математическое ожидание M
x
и среднеквадратичное отклонение
x
этой случайной величины те. было выполнено большое (в пределе бесконечное) число измерений. Как же работать со случайными величинами в реальных условиях проведения эксперимента, когда число измерений весьма ограничено К рассмотрению методологии решения подобных задач мы и перейдем в следующем разделе.
2.3. Контрольные вопросы
1. Что такое случайная величина В чем заключаются отличия дискретной величины от непрерывной случайной величины Приведите примеры.
2. Какие вероятностные характеристики используют для описания распределений случайных величин
37
Чем больше величина интервала M
x
, тем с большей вероятностью случайная величина X попадает в этот интервал. Рассмотрим небольшой пример. Пример. Предположим, что математическое ожидание содержания кремния в чугуне равно M
Si
= 0,6%, а среднеквадратичное отклонение
Si
= 0,15%. В этом случае мы можем быть уверены в том, что величина фактически измеренного значения процентного содержания кремния в чугуне будет находиться в интервалах
0,6
1,00
0,15 = 0,6
0,15 с вероятностью 0,68;
0,6
1,64
0,15 = 0,6
0,25 с вероятностью 0,90;
0,6
1,96
0,15 = 0,6
0,29 с вероятностью 0,95;
0,6
3,00
0,15 = 0,6
0,45 с вероятностью 0,997, те. из 1000 проб только 3 пробы по содержанию кремния в чугуне будут выходить из диапазона от 0,15 до 1,05%. Заметим, однако при рассмотрении примера 2.2 мы предполагали, что процентное содержание кремния в чугуне не противоречит нормальному закону распределения, а также то, что нам изначально были известны математическое ожидание M
x
и среднеквадратичное отклонение
x
этой случайной величины те. было выполнено большое (в пределе бесконечное) число измерений. Как же работать со случайными величинами в реальных условиях проведения эксперимента, когда число измерений весьма ограничено К рассмотрению методологии решения подобных задач мы и перейдем в следующем разделе.
2.3. Контрольные вопросы
1. Что такое случайная величина В чем заключаются отличия дискретной величины от непрерывной случайной величины Приведите примеры.
2. Какие вероятностные характеристики используют для описания распределений случайных величин
Глава 2. КРАТКИЕ СВЕДЕНИЯ ИЗ ТЕОРИИ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ 3. С какой целью используют законы распределения при обработке данных экспериментальных исследований
4. Почему нормальный закон распределения наиболее применим в экспериментальной практике
5. Какие параметры и свойства характерны для нормального закона распределения
6. Дайте определения следующим характеристикам случайных величин центрированная, нормированная и приведенная.
4. Почему нормальный закон распределения наиболее применим в экспериментальной практике
5. Какие параметры и свойства характерны для нормального закона распределения
6. Дайте определения следующим характеристикам случайных величин центрированная, нормированная и приведенная.
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
39
39
1 2 3 4 5 6 7 8 9 ... 20
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ Предварительная обработка результатов измерений и наблюдений необходима для того, чтобы в дальнейшем, при построении эмпирических зависимостей (функций отклика, с наибольшей эффективностью использовать статистические методы и корректно анализировать полученные результаты. Содержание предварительной обработки состоит в отсеивании грубых погрешностей и оценке достоверности результатов измерений. Другими важными моментами предварительной обработки данных являются проверка соответствия результатов измерения нормальному закону и определение параметров этого распределения. Если гипотеза о том, что отклик не противоречит нормальному распределению, окажется неприемлемой, то следует определить, какому закону распределения подчиняются опытные данные или, если это возможно, преобразовать опытное распределение к нормальному виду.
3.1. Вычисление параметров эмпирических распределений. Точечное оценивание Рассмотрение вопросов обработки экспериментальных данных начнем с простейшей ситуации, когда отклик регистрируется при фиксированных уровнях всех контролируемых факторов и при проведении опытов (в результате влияния неконтролируемых факторов) исследователь получает хотя и близкие, но отличные друг от друга результаты. Пример. При производстве железнодорожных рельсов широкой колеи типа Р (по ГОСТ 18267-82) были получены следующие три значения твердости НВ (по ГОСТ 9012-59) на поверхности катания головки одного итого же рельса (на обоих концах на расстоянии не болеем от торцов ив средней части рельса 351, 370 и 365.
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
40
Попытаемся найти ответ на вопрос, чему равна твердость на поверхности катания данного рельса На первый взгляд решение поставленной задачи не вызывает никаких особых проблем, и начинающие исследователи, не особенно искушенные в области теории вероятностей и математической статистики, скорее всего ответят, что твердость на поверхности катания рельса равна (НВ
1
— первый вариант ответа
НВ
1
= (351 + 370 + 365)/3 = 362,00, те. будет найдено среднее арифметическое (выборочное среднее арифметическое из трех полученных значений отклика. Однако опытные данные можно усреднять и другими способами. Например, можно подсчитать среднее геометрическое (НВ
2
— второй вариант ответа
3 2
365 370 351
HB
361,91 или найти среднее, только между минимальными максимальным) значениями — так называемую середину размаха (НВ
3
— третий вариант ответа
НВ
3
= (351 + 370)/2 = 360,50, или, расположив все значения в возрастающей последовательности
351, 365, 370, взять средний член полученного ряда — средний член вариационного ряда (НВ
4
— четвертый вариант ответа
НВ
4
= 365,00. Можно придумать и какие-либо другие способы (например, очень оригинальной может быть идея еще раз усреднить все четыре полученных значения, однако остановимся пока только на этих четырех вариантах ответа на поставленный перед нами вопрос. Мы видим, что, не привлекая никаких дополнительных соображений, нам пока достаточно трудно обосновать тот или иной вариант, на котором было бы предпочтительно остановиться.
40
Попытаемся найти ответ на вопрос, чему равна твердость на поверхности катания данного рельса На первый взгляд решение поставленной задачи не вызывает никаких особых проблем, и начинающие исследователи, не особенно искушенные в области теории вероятностей и математической статистики, скорее всего ответят, что твердость на поверхности катания рельса равна (НВ
1
— первый вариант ответа
НВ
1
= (351 + 370 + 365)/3 = 362,00, те. будет найдено среднее арифметическое (выборочное среднее арифметическое из трех полученных значений отклика. Однако опытные данные можно усреднять и другими способами. Например, можно подсчитать среднее геометрическое (НВ
2
— второй вариант ответа
3 2
365 370 351
HB
361,91 или найти среднее, только между минимальными максимальным) значениями — так называемую середину размаха (НВ
3
— третий вариант ответа
НВ
3
= (351 + 370)/2 = 360,50, или, расположив все значения в возрастающей последовательности
351, 365, 370, взять средний член полученного ряда — средний член вариационного ряда (НВ
4
— четвертый вариант ответа
НВ
4
= 365,00. Можно придумать и какие-либо другие способы (например, очень оригинальной может быть идея еще раз усреднить все четыре полученных значения, однако остановимся пока только на этих четырех вариантах ответа на поставленный перед нами вопрос. Мы видим, что, не привлекая никаких дополнительных соображений, нам пока достаточно трудно обосновать тот или иной вариант, на котором было бы предпочтительно остановиться.
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
41
Так, если выбирать тот ответ, который потребует от нас меньшего количество вычислений, то тогда лучше всего отдать предпочтение значению НВ
4
= 365,00 (вообще не требует никаких расчетов. Однако подобное обоснование вряд ли можно считать достаточно надежными убедительным. Поэтому давайте остановимся и задумаемся о том, почему вообще мы столкнулись с подобной ситуацией. Ведь если бы, например, нам нужно было найти ответ на вопрос, какое количество проходов при прокатке данного профиля осуществляется в двухвалковых рельсовых калибрах, и мы походу технологического процесса проследили за тремя различными раскатами, тов результате было бы получено три абсолютно одинаковых значения допустим, пять. В подобной ситуации нет необходимости считать ни выборочное среднее, ни среднее геометрическое, ни середину размаха, ни находить средний член вариационного ряда и т.д., поскольку можно сразу указать то количество рельсовых калибров, которые проходит раскат в процессе прокатки. Следовательно, между такими величинами, как число рельсовых калибров и твердость на поверхности катания головки, есть принципиальная разница, которая заключается в том, что первая из двух названых величин является детерминированной, а вторая — случайной. И если для того, чтобы описать детерминированную величину, достаточно указать одно ее значение (например, число рельсовых калибров равно пяти, то для описания случайной величины нужно знать ее распределение. Другими словами, для случайной величины недостаточно указать только лишь какое-либо ее значение (или комбинацию ее значений, как, например, выборочное среднее арифметическое, а нужно записать функцию, которая однозначно определяет вероятность того, что случайная величина принимает заданное значение или принадлежит к некоторому заданному интервалу. Поэтому ответ на вопрос примера 3.1 надо начинать нес поиска каких-либо вариантов усреднения опытных данных, а прежде всего с констатации того факта, что твердость на поверхности катания головки рельса — это случайная величина. Далее нужно отметить, что твердость — это непрерывная случайная величина, поскольку (если, например, рельсы отвечают требованиям первого класса) она может принимать любые значения из
41
Так, если выбирать тот ответ, который потребует от нас меньшего количество вычислений, то тогда лучше всего отдать предпочтение значению НВ
4
= 365,00 (вообще не требует никаких расчетов. Однако подобное обоснование вряд ли можно считать достаточно надежными убедительным. Поэтому давайте остановимся и задумаемся о том, почему вообще мы столкнулись с подобной ситуацией. Ведь если бы, например, нам нужно было найти ответ на вопрос, какое количество проходов при прокатке данного профиля осуществляется в двухвалковых рельсовых калибрах, и мы походу технологического процесса проследили за тремя различными раскатами, тов результате было бы получено три абсолютно одинаковых значения допустим, пять. В подобной ситуации нет необходимости считать ни выборочное среднее, ни среднее геометрическое, ни середину размаха, ни находить средний член вариационного ряда и т.д., поскольку можно сразу указать то количество рельсовых калибров, которые проходит раскат в процессе прокатки. Следовательно, между такими величинами, как число рельсовых калибров и твердость на поверхности катания головки, есть принципиальная разница, которая заключается в том, что первая из двух названых величин является детерминированной, а вторая — случайной. И если для того, чтобы описать детерминированную величину, достаточно указать одно ее значение (например, число рельсовых калибров равно пяти, то для описания случайной величины нужно знать ее распределение. Другими словами, для случайной величины недостаточно указать только лишь какое-либо ее значение (или комбинацию ее значений, как, например, выборочное среднее арифметическое, а нужно записать функцию, которая однозначно определяет вероятность того, что случайная величина принимает заданное значение или принадлежит к некоторому заданному интервалу. Поэтому ответ на вопрос примера 3.1 надо начинать нес поиска каких-либо вариантов усреднения опытных данных, а прежде всего с констатации того факта, что твердость на поверхности катания головки рельса — это случайная величина. Далее нужно отметить, что твердость — это непрерывная случайная величина, поскольку (если, например, рельсы отвечают требованиям первого класса) она может принимать любые значения из
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
42
конечного интервала (НВ=341…388, см. пункт 1.4 ГОСТ 18267-82). После этого можно выдвинуть гипотезу (предположение, что такая случайная величина, как твердость на поверхности катания головки рельса, не должна противоречить нормальному закону распределения. Согласно центральной предельной теореме математической статистики, данную гипотезу скорее всего можно будет принять в качестве рабочей, поскольку опытные данные в примере 3.1 получены при измерении твердости в различных точках по длине одного итого же рельса. Следовательно, наиболее существенные факторы, которые определяют механические свойства данного металла на всех стадиях технологического процесса (получение металла, прокатка, термическая обработка, зафиксированы на одних и тех же уровнях. Кроме того, отклик (твердость металла) становится случайной величиной только в результате влияния малозначимых неконтролируемых факторов, число которых на различных этапах металлургического цикла, по всей видимости, стремится к бесконечности. Итак, в качестве ответа на вопрос примера 3.1 мы можем сказать, что твердость на поверхности катания головки рельса — это непрерывная случайная величина, функцию распределения которой скорее всего можно записать в виде
dx e
2 1
)
HB
(
F
HB
2
M
x
2
HB
2
H B
2
H Теперь, казалось бы, только осталось подсчитать по (2.15) математическое ожидание М
НВ
и по (2.17) — дисперсию σ
НВ
2
, те. два параметра этой случайной величины, и у нас появится возможность определять вероятность того, что твердость на поверхности катания головки рельса принадлежит к некоторому заданному интервалу например, НВ = 341…388). Однако на данном этапе мы попадаем в какой-то замкнутый круг ведь для того, чтобы записать функцию нормального распределения, необходимо определить математическое ожидание и дисперсию для вычисления этих двух параметров нужно знать плотность распределения (см. (2.15) и (2.17)), а плотность распределения — это первая производная от функции распределения (см. (2.7)), те. в итоге,
42
конечного интервала (НВ=341…388, см. пункт 1.4 ГОСТ 18267-82). После этого можно выдвинуть гипотезу (предположение, что такая случайная величина, как твердость на поверхности катания головки рельса, не должна противоречить нормальному закону распределения. Согласно центральной предельной теореме математической статистики, данную гипотезу скорее всего можно будет принять в качестве рабочей, поскольку опытные данные в примере 3.1 получены при измерении твердости в различных точках по длине одного итого же рельса. Следовательно, наиболее существенные факторы, которые определяют механические свойства данного металла на всех стадиях технологического процесса (получение металла, прокатка, термическая обработка, зафиксированы на одних и тех же уровнях. Кроме того, отклик (твердость металла) становится случайной величиной только в результате влияния малозначимых неконтролируемых факторов, число которых на различных этапах металлургического цикла, по всей видимости, стремится к бесконечности. Итак, в качестве ответа на вопрос примера 3.1 мы можем сказать, что твердость на поверхности катания головки рельса — это непрерывная случайная величина, функцию распределения которой скорее всего можно записать в виде
dx e
2 1
)
HB
(
F
HB
2
M
x
2
HB
2
H B
2
H Теперь, казалось бы, только осталось подсчитать по (2.15) математическое ожидание М
НВ
и по (2.17) — дисперсию σ
НВ
2
, те. два параметра этой случайной величины, и у нас появится возможность определять вероятность того, что твердость на поверхности катания головки рельса принадлежит к некоторому заданному интервалу например, НВ = 341…388). Однако на данном этапе мы попадаем в какой-то замкнутый круг ведь для того, чтобы записать функцию нормального распределения, необходимо определить математическое ожидание и дисперсию для вычисления этих двух параметров нужно знать плотность распределения (см. (2.15) и (2.17)), а плотность распределения — это первая производная от функции распределения (см. (2.7)), те. в итоге,
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
43
для того, чтобы найти функцию распределения, нужно знать функцию распределения. Выход из подобного замкнутого круга может быть найден только лишь после того, как будет определена причина, по которой мы в него попадаем. Итак, нам необходима функция распределения, причем для начала пусть хотя бы одно из ее значений, например F(341). По определению это вероятность того, что случайная величина НВ принимает значение не более 341. В свою очередь вероятность данного события F(341) = Р(НВ ≤ 341) есть предел частоты реализации события НВ ≤ 341 (отношение числа наблюдений, в которых твердость на поверхности катания головки рельса оказалась не более 341, к общему количеству наблюдений) при неограниченном числе повторений одного итого же комплекса условий. А вот неограниченным числом повторений (генеральной совокупностью) в условиях примера 3.1 мы как разине располагаем, поскольку имеется только лишь три участка (сечения) рельса (три наблюдаемых единицы, в которых определена твердость на поверхности катания головки (три результата наблюдения. Наблюдаемая единица — действительный или условный предмет, над которым проводят серию наблюдений Результат наблюдения — характеристика свойств единицы, полученная опытным путем. Генеральная совокупность — множество всех рассматриваемых единиц. Другими словами, генеральная совокупность — это такое воображаемое, в пределе бесконечно большое число предметов, над которыми можно провести наблюдения при неограниченном числе повторений одного итого же комплекса условий. В примере 3.1 под генеральной совокупностью можно понимать, допустим, все участки одного итого же рельса, в которых в принципе можно было бы замерить твердость, либо вообще все рельсы Р, которые когда-либо изготавливались или еще будут производиться по ГОСТ 18267-82. В распоряжении исследователя, конечно же, никогда нет генеральной совокупности, ион может изучать только ее часть — выборку, причем всегда ограниченного объема.
43
для того, чтобы найти функцию распределения, нужно знать функцию распределения. Выход из подобного замкнутого круга может быть найден только лишь после того, как будет определена причина, по которой мы в него попадаем. Итак, нам необходима функция распределения, причем для начала пусть хотя бы одно из ее значений, например F(341). По определению это вероятность того, что случайная величина НВ принимает значение не более 341. В свою очередь вероятность данного события F(341) = Р(НВ ≤ 341) есть предел частоты реализации события НВ ≤ 341 (отношение числа наблюдений, в которых твердость на поверхности катания головки рельса оказалась не более 341, к общему количеству наблюдений) при неограниченном числе повторений одного итого же комплекса условий. А вот неограниченным числом повторений (генеральной совокупностью) в условиях примера 3.1 мы как разине располагаем, поскольку имеется только лишь три участка (сечения) рельса (три наблюдаемых единицы, в которых определена твердость на поверхности катания головки (три результата наблюдения. Наблюдаемая единица — действительный или условный предмет, над которым проводят серию наблюдений Результат наблюдения — характеристика свойств единицы, полученная опытным путем. Генеральная совокупность — множество всех рассматриваемых единиц. Другими словами, генеральная совокупность — это такое воображаемое, в пределе бесконечно большое число предметов, над которыми можно провести наблюдения при неограниченном числе повторений одного итого же комплекса условий. В примере 3.1 под генеральной совокупностью можно понимать, допустим, все участки одного итого же рельса, в которых в принципе можно было бы замерить твердость, либо вообще все рельсы Р, которые когда-либо изготавливались или еще будут производиться по ГОСТ 18267-82. В распоряжении исследователя, конечно же, никогда нет генеральной совокупности, ион может изучать только ее часть — выборку, причем всегда ограниченного объема.
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
44
Выборка — любое конечное подмножество генеральной совокупности, предназначенное для непосредственных исследований. Объем — количество единиц в выборке. По выборке невозможно однозначно определить ни функцию распределения, ни плотность распределения, ни параметры распределения (например, математическое ожидание или дисперсию) случайной величины, поскольку для этого потребуется неограниченное бесконечно большое) количество результатов наблюдений, те. необходимо исследовать всю генеральную совокупность. Следовательно, имея конечное подмножество генеральной совокупности (выборку, мы должны либо вообще отказаться от поиска распределения исследуемой случайной величины, либо удовлетвориться лишь некоторыми приближенными значениями неизвестных параметров ее распределения, те. провести оценивание случайной величины.
Оценивание — определение приближенного значения неизвестного параметра генеральной совокупности по результатам наблюдений. Идея оценивания должна быть вполне понятна из соображений обычной житейской практики. Ведь для того, чтобы, например, купить пару килограмм яблоку нас никогда не возникает желание съесть все имеющиеся у данного продавца фрукты (изучить всю генеральную совокупность, мы пробуем дольку только лишь одного яблока (исследуем выборку, определяем ее вкус (оцениваем) и принимаем решение, стоит нам или нет покупать именно эти яблоки. Исходными данными при оценивании, как и при проверке любых предположений (статистических гипотез, касающихся неизвестного распределения случайной величины, конечно же, могут быть лишь только те результаты наблюдений, которые были получены входе проведения опытов (на выборке ограниченного объема. Причем предварительная обработка экспериментальных данных обычно начинается с подсчета тех или иных функций от результатов наблюдений (статистик. Статистика — функция результатов наблюдений, используемая для оценки параметров распределения и (или) для проверки статистических гипотез. По выборке невозможно найти параметры распределения
44
Выборка — любое конечное подмножество генеральной совокупности, предназначенное для непосредственных исследований. Объем — количество единиц в выборке. По выборке невозможно однозначно определить ни функцию распределения, ни плотность распределения, ни параметры распределения (например, математическое ожидание или дисперсию) случайной величины, поскольку для этого потребуется неограниченное бесконечно большое) количество результатов наблюдений, те. необходимо исследовать всю генеральную совокупность. Следовательно, имея конечное подмножество генеральной совокупности (выборку, мы должны либо вообще отказаться от поиска распределения исследуемой случайной величины, либо удовлетвориться лишь некоторыми приближенными значениями неизвестных параметров ее распределения, те. провести оценивание случайной величины.
Оценивание — определение приближенного значения неизвестного параметра генеральной совокупности по результатам наблюдений. Идея оценивания должна быть вполне понятна из соображений обычной житейской практики. Ведь для того, чтобы, например, купить пару килограмм яблоку нас никогда не возникает желание съесть все имеющиеся у данного продавца фрукты (изучить всю генеральную совокупность, мы пробуем дольку только лишь одного яблока (исследуем выборку, определяем ее вкус (оцениваем) и принимаем решение, стоит нам или нет покупать именно эти яблоки. Исходными данными при оценивании, как и при проверке любых предположений (статистических гипотез, касающихся неизвестного распределения случайной величины, конечно же, могут быть лишь только те результаты наблюдений, которые были получены входе проведения опытов (на выборке ограниченного объема. Причем предварительная обработка экспериментальных данных обычно начинается с подсчета тех или иных функций от результатов наблюдений (статистик. Статистика — функция результатов наблюдений, используемая для оценки параметров распределения и (или) для проверки статистических гипотез. По выборке невозможно найти параметры распределения
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
45
случайной величины (поскольку для этого требуется бесконечное количество результатов наблюдений — изучение всей генеральной совокупности, поэтому, имея в своем распоряжении всегда ограниченный объем экспериментальных данных, исследователю остается довольствоваться только лишь получением некоторых оценок. Оценка — статистика, являющаяся основой для оценивания неизвестного параметра распределения Для одного итого же параметра распределения может быть предложено несколько оценок. В примере 3.1 рассматривалось четыре различных оценки для такого параметра распределения твердости, как математическое ожидание данной случайной величины (выборочное среднее арифметическое, выборочное среднее геометрическое, середина размаха и средний член вариационного ряда. Поэтому при оценивании всегда возникает проблема выбора наилучшей оценки из всех возможных оценок данного параметра. Причем, когда формулируются те или иные требования, по которым оценку целесообразно считать наилучшей, прежде всего учитывается тот факт, что любая оценка — это также случайная величина. Ведь если бы в условиях примера 3.1 было бы найдено, допустим, выборочное среднее арифметическое твердости на поверхности катания головки какого-либо другого рельса, то, конечно же, совершенно необязательно, что оно опять оказалось бы равно именно
362,00 единицам по Бринеллю. Из тех соображений, что любая оценка
* какого-либо параметра распределения
случайной величины тоже есть случайная величина, к оценкам предъявляются требования состоятельности, несме- щенности и эффективности. Состоятельная оценка — оценка, сходящаяся по вероятности к значению оцениваемого параметра при безграничном возрастании объема выборки.
где
— оцениваемый параметр
* — оценка n — объем выборки. Иными словами, для состоятельной оценки отклонение ее от
на малую величину
и более становится маловероятным при большом
45
случайной величины (поскольку для этого требуется бесконечное количество результатов наблюдений — изучение всей генеральной совокупности, поэтому, имея в своем распоряжении всегда ограниченный объем экспериментальных данных, исследователю остается довольствоваться только лишь получением некоторых оценок. Оценка — статистика, являющаяся основой для оценивания неизвестного параметра распределения Для одного итого же параметра распределения может быть предложено несколько оценок. В примере 3.1 рассматривалось четыре различных оценки для такого параметра распределения твердости, как математическое ожидание данной случайной величины (выборочное среднее арифметическое, выборочное среднее геометрическое, середина размаха и средний член вариационного ряда. Поэтому при оценивании всегда возникает проблема выбора наилучшей оценки из всех возможных оценок данного параметра. Причем, когда формулируются те или иные требования, по которым оценку целесообразно считать наилучшей, прежде всего учитывается тот факт, что любая оценка — это также случайная величина. Ведь если бы в условиях примера 3.1 было бы найдено, допустим, выборочное среднее арифметическое твердости на поверхности катания головки какого-либо другого рельса, то, конечно же, совершенно необязательно, что оно опять оказалось бы равно именно
362,00 единицам по Бринеллю. Из тех соображений, что любая оценка
* какого-либо параметра распределения
случайной величины тоже есть случайная величина, к оценкам предъявляются требования состоятельности, несме- щенности и эффективности. Состоятельная оценка — оценка, сходящаяся по вероятности к значению оцениваемого параметра при безграничном возрастании объема выборки.
где
— оцениваемый параметр
* — оценка n — объем выборки. Иными словами, для состоятельной оценки отклонение ее от
на малую величину
и более становится маловероятным при большом
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
46
объеме выборки. Вполне естественно, что исследователей в первую очередь интересуют те оценки, которые хотя бы в пределе (при проведении бесконечно большого количества наблюдений) давали им возможность определить интересующий их параметр распределения, те. чтобы оценки прежде всего были состоятельными. Однако следует отметить, что на практике приходится оценивать неизвестные параметры и при малых объемах выборки. Естественным является требование, при выполнении которого оценка не дает систематической погрешности в сторону завышения или занижения) истинного значения параметра Несмещенная оценка — оценка, математическое ожидание которой равно значению оцениваемого параметра
M(
*)=
.
(3.2) Удовлетворение требованию несмещенности позволяет устранить систематическую погрешность оценки параметра, которая зависит от объема выборки n ив случае состоятельности оценки стремится к нулю при n
. Эффективная оценка — несмещенная оценка, имеющая наименьшую дисперсию из всех возможных несмещенных оценок данного параметра.
min
*
2
M
(3.3) или
,
*
*
2 2
i
M
M
(3.4) где
i
* — любая другая оценка. Иными словами, дисперсия эффективной оценки параметра в некотором классе является минимальной среди дисперсий всех оценок из рассматриваемого класса несмещенных оценок. Из всех состоятельных и несмещенных оценок следует предпочесть такую, которая оказывается наиболее близкой к оцениваемому параметру (эффективной, однако используемые в математической статистике оценки не всегда одновременно удовлетворяют всем трем перечисленным выше требованиям.
46
объеме выборки. Вполне естественно, что исследователей в первую очередь интересуют те оценки, которые хотя бы в пределе (при проведении бесконечно большого количества наблюдений) давали им возможность определить интересующий их параметр распределения, те. чтобы оценки прежде всего были состоятельными. Однако следует отметить, что на практике приходится оценивать неизвестные параметры и при малых объемах выборки. Естественным является требование, при выполнении которого оценка не дает систематической погрешности в сторону завышения или занижения) истинного значения параметра Несмещенная оценка — оценка, математическое ожидание которой равно значению оцениваемого параметра
M(
*)=
.
(3.2) Удовлетворение требованию несмещенности позволяет устранить систематическую погрешность оценки параметра, которая зависит от объема выборки n ив случае состоятельности оценки стремится к нулю при n
. Эффективная оценка — несмещенная оценка, имеющая наименьшую дисперсию из всех возможных несмещенных оценок данного параметра.
min
*
2
M
(3.3) или
,
*
*
2 2
i
M
M
(3.4) где
i
* — любая другая оценка. Иными словами, дисперсия эффективной оценки параметра в некотором классе является минимальной среди дисперсий всех оценок из рассматриваемого класса несмещенных оценок. Из всех состоятельных и несмещенных оценок следует предпочесть такую, которая оказывается наиболее близкой к оцениваемому параметру (эффективной, однако используемые в математической статистике оценки не всегда одновременно удовлетворяют всем трем перечисленным выше требованиям.
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
47
После того как исследователь выбрали подсчитал состоятельную, несмещенную и эффективную оценки интересующего его параметра распределения исследуемой случайной величины, первое и наиболее простое, что он может сделать, так это принять значение оценки как неизвестное значение параметра распределения, те. выполнить точечное оценивание. Точечное оценивание — способ оценивания, заключающийся в том, что значение оценки принимают как неизвестное значение параметра распределения. Рассмотрим некоторые точечные оценки основных параметров распределения для непрерывной случайной величины, не противоречащей нормальному закону распределения. Выборочное среднее арифметическое x — сумма значений рассматриваемой величины, полученных по результатам испытания выборки, деленная на ее объем.
n,
...,
2,
1,
=
i
,
1 1
n
i
i
x
n
x
(3.5) где n — объем выборки х
— результат измерения й единицы. В математической статистике доказано, что выборочное среднее арифметическое является наилучшей (состоятельной, несмещенной и эффективной) оценкой математического ожидания случайной величины, подчиняющейся нормальному закону распределения. В примере 3.1, даже если предположить, что твердость на поверхности катания головки рельса не противоречит нормальному закону распределения, из четырех полученных оценок предпочтение следует отдать значению НВ
1
= (351 + 370 + 365)/3 = 362,00 (выборочному среднему арифметическому) как наилучшей оценке для математического ожидания данной случайной величины. Три другие рассмотренные в этом примере оценки также являются состоятельными для математического ожидания. Однако среднее геометрическое это смещенная оценка (она будет наилучшей только тогда, когда случайная величина подчиняется так называемому логарифмически нормальному распределению, те. когда закону Гаусса подчиняется не сама случайная величина, а ее
47
После того как исследователь выбрали подсчитал состоятельную, несмещенную и эффективную оценки интересующего его параметра распределения исследуемой случайной величины, первое и наиболее простое, что он может сделать, так это принять значение оценки как неизвестное значение параметра распределения, те. выполнить точечное оценивание. Точечное оценивание — способ оценивания, заключающийся в том, что значение оценки принимают как неизвестное значение параметра распределения. Рассмотрим некоторые точечные оценки основных параметров распределения для непрерывной случайной величины, не противоречащей нормальному закону распределения. Выборочное среднее арифметическое x — сумма значений рассматриваемой величины, полученных по результатам испытания выборки, деленная на ее объем.
n,
...,
2,
1,
=
i
,
1 1
n
i
i
x
n
x
(3.5) где n — объем выборки х
— результат измерения й единицы. В математической статистике доказано, что выборочное среднее арифметическое является наилучшей (состоятельной, несмещенной и эффективной) оценкой математического ожидания случайной величины, подчиняющейся нормальному закону распределения. В примере 3.1, даже если предположить, что твердость на поверхности катания головки рельса не противоречит нормальному закону распределения, из четырех полученных оценок предпочтение следует отдать значению НВ
1
= (351 + 370 + 365)/3 = 362,00 (выборочному среднему арифметическому) как наилучшей оценке для математического ожидания данной случайной величины. Три другие рассмотренные в этом примере оценки также являются состоятельными для математического ожидания. Однако среднее геометрическое это смещенная оценка (она будет наилучшей только тогда, когда случайная величина подчиняется так называемому логарифмически нормальному распределению, те. когда закону Гаусса подчиняется не сама случайная величина, а ее
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
48
логарифм). Середина размаха НВ
3
=(351+370)/2=360,50 и средний член вариационного ряда НВ
4
= 365,00 — это хотя и несмещенные оценки для математического ожидания, но их эффективность, как показано в математической статистике, меньше, чему выборочного среднего арифметического (меньше единицы. Выборочная дисперсия
2
x
S или
2
x
S
— сумма квадратов отклонений выборочных результатов наблюдений от их выборочного среднего арифметического в выборке, деленная на n-1 или на n.
1
n
x
x
S
n
1
i
2
i
2
x
(3.6) или
1 Оценки и
2
x
S
являются состоятельными, несмещенными ив случае нормального распределения, асимптотически эффективными оценками дисперсии Для практических расчетов выражение (3.6) можно преобразовать к виду
1 1
1 2
1 1
2 В условиях примера 3.1 выборочная дисперсия твердости на поверхности катания головки рельса равна
00
,
97 365 370 351 3
1 365 370 351 1
3 1
2 2
2 Выборочное среднее квадратичное отклонение
x
S
или
x
S —
48
логарифм). Середина размаха НВ
3
=(351+370)/2=360,50 и средний член вариационного ряда НВ
4
= 365,00 — это хотя и несмещенные оценки для математического ожидания, но их эффективность, как показано в математической статистике, меньше, чему выборочного среднего арифметического (меньше единицы. Выборочная дисперсия
2
x
S или
2
x
S
— сумма квадратов отклонений выборочных результатов наблюдений от их выборочного среднего арифметического в выборке, деленная на n-1 или на n.
1
n
x
x
S
n
1
i
2
i
2
x
(3.6) или
1 Оценки и
2
x
S
являются состоятельными, несмещенными ив случае нормального распределения, асимптотически эффективными оценками дисперсии Для практических расчетов выражение (3.6) можно преобразовать к виду
1 1
1 2
1 1
2 В условиях примера 3.1 выборочная дисперсия твердости на поверхности катания головки рельса равна
00
,
97 365 370 351 3
1 365 370 351 1
3 1
2 2
2 Выборочное среднее квадратичное отклонение
x
S
или
x
S —
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
49
положительный квадратный корень из выборочной дисперсии
2
x
x
S
S
(3.9) или В примере 3.1
.
,
S
x
85 Зная выборочное среднее арифметическое
x
и выборочное среднее квадратичное отклонение
x
S
, можно подсчитать меру относительной изменчивости случайной величины — выборочный коэффициента вариации
— по формуле
,
x
S
x
(3.11) или, в процентах,
%.
100
x
S
x
(3.12) Для примера 3.1 выборочный коэффициент вариации твердости равен
= 9,85/362 = 0,027, или 2,7%. Через выборочное среднее арифметическое
x
и выборочное среднее квадратическое отклонение
x
S
могут быть сделаны точечные оценки для любых значений функции распределения, а также для вероятности попадания случайной величины в любой из заданных интервалов. Так, для какого-либо значения функции нормального распределения, поскольку
),
(
)
(
)
(
)
(
x
x
x
x
M
x
M
x
Z
P
M
x
M
X
P
x
X
P
x
F
(3.13)
49
положительный квадратный корень из выборочной дисперсии
2
x
x
S
S
(3.9) или В примере 3.1
.
,
S
x
85 Зная выборочное среднее арифметическое
x
и выборочное среднее квадратичное отклонение
x
S
, можно подсчитать меру относительной изменчивости случайной величины — выборочный коэффициента вариации
— по формуле
,
x
S
x
(3.11) или, в процентах,
%.
100
x
S
x
(3.12) Для примера 3.1 выборочный коэффициент вариации твердости равен
= 9,85/362 = 0,027, или 2,7%. Через выборочное среднее арифметическое
x
и выборочное среднее квадратическое отклонение
x
S
могут быть сделаны точечные оценки для любых значений функции распределения, а также для вероятности попадания случайной величины в любой из заданных интервалов. Так, для какого-либо значения функции нормального распределения, поскольку
),
(
)
(
)
(
)
(
x
x
x
x
M
x
M
x
Z
P
M
x
M
X
P
x
X
P
x
F
(3.13)
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
50
в качестве точечной оценки F(x) можно использовать
).
(
x
S
x
x
x
F
(3.14) Точечную оценку вероятности попадания случайной величины Х с нормальным законом распределения в любой из заданных интервалов (х, х) можно найти по формуле
).
(
)
(
1 2
2 1
x
x
S
x
x
S
x
x
x
X
x
P
(3.15) В соответствии с (2.32) точечная оценка квантили р порядка р для нормального распределения равна
x
p
p
S
z
x
x
(3.16) В примере 3.1 предположим, что получено только два значения твердости на поверхности катания головки рельса (на обоих концах на расстоянии не болеем от торцов 351 и 370, а третье испытание в средней части) еще не проводилось. Оценим при этих условиях вероятность того, что после измерения твердости в средней части рельса ее значение окажется ниже, чем
341, те. вероятность того, что в результате третьего испытания рельс попадет во второй класс (для которого твердость на поверхности катания головки может лежать в диапазоне 311…341) или его придется подвергнуть повторной однократной термической обработке (закалке и отпуску. Кроме того, оценим вероятность того, что после определения твердости в средней части рельса он будет по-прежнему удовлетворять требованиям первого класса по пункту 1.4 ГОСТ 18267-82
(НВ = 341…388). Если предположить, что твердость на поверхности катания головки рельса не противоречит нормальному закону распределения, то наилучшими точечными оценками для математического ожидания
50
в качестве точечной оценки F(x) можно использовать
).
(
x
S
x
x
x
F
(3.14) Точечную оценку вероятности попадания случайной величины Х с нормальным законом распределения в любой из заданных интервалов (х, х) можно найти по формуле
).
(
)
(
1 2
2 1
x
x
S
x
x
S
x
x
x
X
x
P
(3.15) В соответствии с (2.32) точечная оценка квантили р порядка р для нормального распределения равна
x
p
p
S
z
x
x
(3.16) В примере 3.1 предположим, что получено только два значения твердости на поверхности катания головки рельса (на обоих концах на расстоянии не болеем от торцов 351 и 370, а третье испытание в средней части) еще не проводилось. Оценим при этих условиях вероятность того, что после измерения твердости в средней части рельса ее значение окажется ниже, чем
341, те. вероятность того, что в результате третьего испытания рельс попадет во второй класс (для которого твердость на поверхности катания головки может лежать в диапазоне 311…341) или его придется подвергнуть повторной однократной термической обработке (закалке и отпуску. Кроме того, оценим вероятность того, что после определения твердости в средней части рельса он будет по-прежнему удовлетворять требованиям первого класса по пункту 1.4 ГОСТ 18267-82
(НВ = 341…388). Если предположить, что твердость на поверхности катания головки рельса не противоречит нормальному закону распределения, то наилучшими точечными оценками для математического ожидания
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
51
и дисперсии этой случайной величины в соответствии си) будут значения
5
,
360
)
370 351
(
2 1
HB
x
,
5
,
180 370 351 2
1 370 351 1
2 1
2 2
2 2
HB
S
, а по (3.10) выборочное среднее квадратичное отклонение составит
435
,
13 Тогда по (3.14) получаем, что
45
,
1
)
435
,
13 5
,
360 341
(
341 Поскольку согласно (2.29) Ф) = 1 - Ф, то по таблицам для функции Лапласа (см. прил. П) находим Фи, следовательно,
Ф) = 1 - 0,92647 ≈ 0,07. В электронных таблицах Microsoft Excel для подобных расчетов можно использовать функцию
51
и дисперсии этой случайной величины в соответствии си) будут значения
5
,
360
)
370 351
(
2 1
HB
x
,
5
,
180 370 351 2
1 370 351 1
2 1
2 2
2 2
HB
S
, а по (3.10) выборочное среднее квадратичное отклонение составит
435
,
13 Тогда по (3.14) получаем, что
45
,
1
)
435
,
13 5
,
360 341
(
341 Поскольку согласно (2.29) Ф) = 1 - Ф, то по таблицам для функции Лапласа (см. прил. П) находим Фи, следовательно,
Ф) = 1 - 0,92647 ≈ 0,07. В электронных таблицах Microsoft Excel для подобных расчетов можно использовать функцию
1 2 3 4 5 6 7 8 9 ... 20
НОРМ.СТ.РАСП:
НОРМ.СТ.РАСП((341-СРЗНАЧ(351;370))/СТАНДОТКЛОН.В
(351;370); ИСТИНА) = 0,07333, где СРЗНАЧ(351;370) и СТАНДО-
ТКЛОН.В(351;370) — статистические функции для вычисления соответственно выборочного среднего арифметического значения ивы- борочного среднего квадратичного отклонения. Точно такое же значение может быть получено через функцию
НОРМ.РАСП:
НОРМ.РАСП(341;СРЗНАЧ(351;370);СТАНДОТКЛОН.В(351;370); ИСТИНА) = 0,0733. Итак, точечной оценкой (полученной по двум выборочным значениями) функции распределения твердости НВ на поверхности катания головки рельса от значения 341 является величина
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
07
,
0 341 341
HB
P
F
Другими словами, точечная оценка вероятности того, что при испытании твердости в средней части рельса ее значение окажется меньше 341, равна 0,07. Или, если проведено два испытания на обоих концах рельса и получены значения 351 и 370, то после определения твердости в средней части, возможно, только семь рельсов из ста придется перевести во второй класс или подвергнуть повторной однократной термической обработке. Для оценки вероятности того, что после определения твердости в средней части рельс по-прежнему будет удовлетворять требованиям первого класса, воспользуемся соотношением (3.15) и получим
45
,
1 05
,
2
)
435
,
13 5
,
360 341
(
)
435
,
13 5
,
360 388
(
388 Значение Ф) ≈ 0,07 нами было уже найдено, а Ф) ≈
≈ 0,98 (по таблицам [11], в табл. Пили в Microsoft Excel
НОРМ.СТ.РАСП(2,05;ИСТИНА) =0,979818). Следовательно,
,
91
,
0 07
,
0 98
,
0 388 341
HB
P
те. 91% всех рельсов, после измерения твердости в средней части, будут по- прежнему отвечать требованиям пункта 1.4 ГОСТ 18267-82 (НВ =
341…388), если на их концах уже были получены значения 351 и 370. Добавим, что значения 341 и 388 являются оценками квантилей порядка соответственно 0,07 и 0,98, те.
,
341 аи если, допустим, необходимо оценить квантиль порядка 0,99, то по формуле (3.16) можно получить следующее значение
,
80
,
391 435
,
13 326
,
2 5
,
360 453
,
13 5
,
360 99 0
99 где z
0,99
— квантиль нормированного нормального распределения порядка 0,99 — можно найти по таблицам [11], в табл. Пили в
Microsoft
Excel с использованием функции
НОРМ.СТ.ОБР(0,99) = 2,326342, а также НОРМ.ОБР(0,99;0;1) =
= 2,326342. Следовательно, если на обоих концах рельса получены значения
351 и 370, то скорее всего только водном случае из ста твердость
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
53
на поверхности катания головки в средней части может оказаться больше 391,8. Однако все последние приведенные в примере 3.1 выводы и заключения относительно оценок различных вероятностей не следует понимать в буквальном смысле слова. Так, если бы удалось собрать данные по твердости в средней части наста рельсах, у которых значения этого показателя качества по концам составляли бы ровно 351 и 370, то, конечно же, совершенно необязательно, что именно только на одном рельсе из ста твердость оказалась бы больше, чем 391,8. Такое событие вполне могло бы быть отмечено и на двух, и на трех и т.д. рельсах либо вообще ни разу не встретиться. Дело здесь заключается в том, что, во-первых, даже если бы нам удалось найти саму теоретическую вероятность какого-либо события изучить всю генеральную совокупность, а не ее оценку (полученную по выборке ограниченного объема, то ив этом случае фактическая частота реализации этого события вполне могла бы отличаться (хотя и не очень сильно) от соответствующей ей теоретической вероятности. Так, например, если сто раз подбросить идеальную монету, то совершенно необязательно, что ровно в 50 случаях выпадет орел, а в остальных 50 — решка. Хотя то, что во всех 100 случаях выпадет орел и ни разу — решка, мы вряд ли увидим (если тот, кто подбрасывает монету, не факир или фокусник, то вероятность подобного события равна (0,5)
100
= 8
10
-31
). И, во-вторых, если в нашем распоряжении имеются только лишь какая-либо точечная оценка, то вообще совершенно невозможно сказать, насколько близко она располагается относительно оцениваемого ею параметра. Так, например, если вероятность того, что при получении твердости на концах рельса 351 ион и после измерения этой величины в средней части будет отвечать пункту 1.4 ГОСТ 18267-82 оценивается значением 0,91, тона самом деле (для всей генеральной совокупности, те. для всех рельсов Р, выпускаемых по ГОСТ 18267-82) эта вероятность может быть равна и 0,85, и 0,95 и т.д. По значению точечной оценки не представляется возможным определить хотя бы, в каком диапазоне находится оцениваемый ею параметр. Этот существенный недостаток точечного оценивания
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
54
может быть компенсирован оцениванием с помощью так называемого доверительного интервала.
3.2. Оценивание с помощью доверительного интервала В отличие от точечной оценки, интервальная оценка позволяет получить вероятностную характеристику точности оценивания неизвестного параметра. Идея оценивания с помощью доверительного интервала заключается в том, чтобы в окрестности точечной оценки попытаться построить такой интервал (доверительный интервал, который с некоторой, отличной от нуля, вероятностью (доверительной вероятностью) накрыл бы оцениваемый параметр распределения. Доверительный интервал — интервал, который с заданной вероятностью накроет неизвестное значение оцениваемого параметра распределения. Доверительная вероятность — вероятность того, что доверительный интервал накроет действительное значение параметра, оцениваемого по выборочным данным.
Оценивание с помощью доверительного интервала — способ оценки, при котором с заданной доверительной вероятностью устанавливают границы доверительного интервала. Предположим, что для оценки параметра
удалось найти две функции
1
*(x
1
, x
2
, ..., x n
) и
2
*(x
1
, x
2
, ..., x n
), такие, что при всех
(x
1
, x
2
, ..., x n
) и при любых значениях
выполняется условие
1
n x
,...,
2
x
,
1
x
*
2
n x
,...,
2
x
,
1
x
*
1
P
;
*
2
*
1
(3.17) Это означает, что действительное значение параметра
находится в интервале значений (
1
*;
2
*) с вероятностью P. Интервал (
1
*;
2
*) как рази называют доверительным интервалом для неизвестного параметра
, а соответствующую ему вероятность доверительной вероятностью (или надеж-
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
55
ностью) P = 1-
, где
— уровень значимости. Если, к примеру,
= 0,05, то строится доверительный интервал с доверительной вероятностью (или процентный доверительный интервал. Часто доверительный интервал находится как интервал, симметричный относительно точечной оценки параметра. Для симметричного доверительного интервала его ширина 2
определяется условием
,
*
P
1
(3.18) где
*
— точечная оценка параметра При фиксированном значении
(вероятности того, что доверительный интервал не накроет действительного значения параметра) чем меньше
, тем точнее оценивается Вероятностное утверждение P{
1
*
2
*} не следует понимать таким образом, что параметр
есть случайная величина, которая с вероятностью P попадет в интервал между
1
* и
2
*. Любой параметр распределения
(в отличие от его оценок) — это детерминированная величина, неизвестная нам, но имеющая строго определенное, фиксированное значение (которое, по крайней мере, теоретически, может быть найдено при исследовании всей генеральной совокупности. Границы
1
* и
2
* (как некоторые функции от результатов наблюдений) есть случайные величины. Поэтому утверждение означает, что для данного доверительного интервала (
1
*;
2
*) вероятность содержать значение
равна P. Рассмотрение способов получения интервальных оценок для основных параметров распределения начнем с построения доверительного интервала для математического ожидания, так как именно такие задачи наиболее часто встречаются в инженерной практике.
3.2.1. Построение доверительного интервала для математического ожидания
Как уже было отмечено, наилучшей (состоятельной, несмещенной и эффективной) точечной оценкой математического ожидания случайной величины Х с нормальным законом распределения
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
56
является ее выборочное среднее арифметическое
x
. Поэтому за основу построения доверительного интервала для математического ожидания обычно выбирается именно эта точечная оценка данного параметра. Задача получения интервальной оценки в этом случае заключается в поиске границ
)
;
(
x
x
такого интервала, который с заданной доверительной вероятностью P
Mx накроет действительное значение математического ожидания M
x
(рис. 3.1). При построении любой интервальной оценки, в том числе и для математического ожидания, необходимо знать распределение той точечной оценки (случайной величины, которая берется за основу для построения доверительного интервала. В математической статистике доказано, что выборочное среднее арифметическое
x
из n независимых результатов наблюдений случайной величины, распределенной нормально с параметрами M
x и σ
x
2
, также подчиняется нормальному закону распределения с параметрами) Подтвердить справедливость равенства (3.19) можно хотя бы тем, что выборочное среднее арифметическое — это несмещенная оценка математического ожидания, следовательно, по определению см. (3.2)), математическое ожидание этой оценки (выборочного
M
x
x
x Рис. 3.1. Построение доверительного интервала для математического ожидания
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
57
среднего арифметического) равно значению оцениваемого параметра математическому ожиданию. Соотношение (3.20) не должно, интуитивно, вызывать никаких серьезных возражений ведь если подсчитать выборочное среднее арифметическое по нескольким выборкам одного итого же объема, а затем найти дисперсию полученных значений, то вероятнее всего предположить, что разброс (дисперсия) выборочных средних арифметических будет меньше, чем разброс (дисперсия) самих опытных данных. Прокомментируем это положение следующим иллюстративным числовым материалом (в продолжение примера 3.1). На каждом двадцатом походу технологического процесса рельсе Р (по ГОСТ
18267-82) получены следующие значения твердости на поверхности катания головки первый рельс
— 351, 370, 365 (
362
HB
x
,
97 2
HB
S
); двадцать первый рельс
— 375, 369, 345 (
363
HB
x
,
252 2
HB
S
); сорок первый рельс
— 348, 363, 369 (
360
HB
x
,
117 2
HB
S
). Если теперь по (3.8) оценить дисперсию такой случайной величины, как
HB
, то получим
33
,
2 360 363 362 3
1 360 363 362 1
3 1
2 2
2 Как видно из этого числового примера, выборочная дисперсия средних арифметических — 2,33 потрем выборкам (объемом 3) почти на порядок меньше тех выборочных дисперсий (97, 252 и 117), которые имеют сами опытные данные. Для более строгого обоснования соотношения (3.20) напомним, что если случайная величина Y = X
1
X
2
— является суммой или разностью двух независимых случайных величин X
1
и X
2
, то справедливо равенство
2 2
2 2
1
x
x
y
(3.21) Кроме того, дисперсия произведения случайной переменной X
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
58
и постоянной величины (константы) C равна
2 2
2
x
C
x
C
(3.22) Закон сложения дисперсий справедлив при любом числе слагаемых. Учитывая, что
n
i
i
x
n
x
1 и
2
x
— дисперсия случайной величины, а также соотношения (3.21) и (3.22), получаем
,
)
(
1
)
1
(
)
(
2 2
2 1
2 2
1 что и требовалось доказать, причем Если заранее известна дисперсия
x
2
, то доверительный интервал для математического ожидания M
x рассчитывается достаточно просто. Его границы можно найти, например, следующим образом. Поскольку случайная величина
X
подчиняется нормальному закону распределения с параметрами M(
x
) = M
x и σ
2
(
x
) = σ
x
2
/n , то соответствующая ей приведенная случайная величина
n
M
X
x
x
M
X
Z
x
x
/
)
(
)
(
_
_
_
,
(3.23) имеет нормированный стандартный нормальный закон распределения см. Квантиль
p
x
порядка P такой случайной величины, как X , определяется аналогично (аи с учетом соотношений (3.19) и (3.20) равна Далее, в соответствии с (2.20)
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 2
2
_
1 Если в последнем соотношении неравенство, стоящее под знаком вероятности, разрешить относительно M
x
, то получим
1 2
1
_
2
_
P
P
n
z
x
M
n
z
x
P
x
P
x
x
P
(3.24) Если то и, следовательно,
n
z
x
M
x
P
x
2
_
, и, аналогично, если то и, следовательно, Таким образом, вероятность того, что выполняется неравенство
n
z
x
M
n
z
x
x
P
x
x
P
1
_
2
_
,
(3.25) будет P = P
2
– P
1
= 1- α.
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
60
Если для примера принять P
1
= 0,025 и P
2
= 0,975 (P = 0,975 –
– 0,025 = 0,95; α = 0,05), то, поскольку (см. (2.32)) z
0,025
= z
1-0,975
=
= - z
0,975
, а z
0,975
= 1,96 (по таблицам [11], табл. Пили используя
НОРМ.СТ.ОБР(0,975) = 1,959961), получим
,
95
,
0
)
96
,
1 96
,
1
(
_
_
n
x
M
n
x
P
x
x
x
(3.26) те. при многократном извлечении выборок (объемом n каждая) из нормально распределенной генеральной совокупности с параметрами M
x и
x
2
) можно построить последовательность соответствующих данным выборкам интервалов (3.26), причем примерно 95% этих интервалов будут включать в себя (накрывать) истинное значение математического ожидания Расчет теоретического значения стандартного нормального распределения в вероятностном калькуляторе пакета Statistica дает аналогичный результат (см. рис. 3.2). Рис. 3.2. Калькулятор вероятностных распределений, расчет квантиля нормального распределения
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
61
На рис. 3.2 показан инструмент пакета Statistica — калькулятор вероятностых распределений. В данном примере выполнен расчет квантиля порядка 0,975 для стандартного нормального распределения
(«z (Normal)», M
x
= 0 и σ
2
(x) = 1): z
0,975
= 1,96. Флаг «Two-tailed» отвечает за число хвостов распределния». Если выставить данную опцию, то будет расчитываться двухстороннее распределение. Флаг «(1-Cumulative p)» позволяет рассчитать квантиль для разности
1 – вероятность. При построении доверительного интервала для математического ожидания обычно принимают P
1
= α/2 и P
2
= 1 – α/2, те. рассматривают симметричные границы относительно выборочного среднего арифметического. В инженерных приложениях для значений
α обычно выбирают α = 0,1 или α = 0,05, режете. строят такие доверительные интервалы, которые вили (реже 99%) случаев накрывают математическое ожидание. С учетом соотношения (2.32) z
α/2
= – z
1- α/2
, по (3.25) получаем, что вероятность выполнения неравенства
n
z
x
M
n
z
x
x
x
x
2
/
1
_
2
/
1
_
(3.27) равна P = 1 – α/2
- α/2
= 1- α. Следовательно, интервал (3.27) является доверительным интервалом для математического ожидания M
x случайной величины с нормальным законом распределения, построенным с доверительной вероятностью P = 1– α. Границы этого интервала равны и
n
z
x
x
2
/
1
_
, а половина его ширины (см. рис. 3.1) Пример. Проведено исследование содержания кремния при выплавке передельного чугуна в доменной печи. Всего было отобрано 50 проб чугуна и получены следующие данные M
[Si]
= 0,65,
[Si]
= 0,13. Необходимо определить доверительный интервал для вероятности Р = 0,95; объем выборки n, который необходимо выполнить, чтобы точность статистических выводов
0,02.
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
62
Воспользовавшись соотношением
(3.26), рассчитаем доверительный интервал
,
50 13
,
0 96
,
1 65
,
0 50 13
,
0 96
,
1 65
,
0
]
[
Si
M
0,61
M
[Si]
0,69. Необходимый объем выборки для
= 0,02 составит
178 02
,
0 13
,
0 96
,
1 На практике, как правило, число измерений (например, отбора проб шихты, чугуна, стали и других материалов) конечно и не превышает. При таком малом числе наблюдений фактическая дисперсия
x
2
неизвестна, поэтому при построении доверительного интервала для математического ожидания M
x используют выборочную дисперсию В этом случае приведенная случайная величина, аналогичная
(3.23), а) где S
x
— выборочное среднее квадратичное отклонение, определяемое по формуле (3.10), имеет распределение, отличное от нормального. Функция распределения случайной величины t (3.27) имеет вид
,
dt
m
t
m
m
m
)
t
(
F
t
m
2 1
2 1
2 2
1
(3.28) где Г(у) — гамма-функция, являющаяся обобщением понятия
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
63
факториала и обладающая рекуррентным свойством Г + 1) = Г) для целых чисел n справедливо Г + 1) = n, см. [1]); m — число степеней свободы, определяемое разностью между объемом выборки n и числом параметров, оцениваемых по выборке в данном случае m = n-1 (поскольку при определении t по (а) необходимо оценить один параметр S
x
). Число степеней свободы m — это понятие, которое учитывает в статистических ситуациях связи, ограничивающие свободу изменения случайных величин. Поэтому число степеней свободы вычисляется как разность между числом экспериментальных точек n и числом связей f, ограничивающих свободу изменения случайной величины Так, при вычислении выборочной дисперсии по формуле
(3.6)
)
1
(
1 2
2
n
x
x
S
n
i
i
x
наблюдается одна связь, определяемая уровнем выборочного среднего
n
i
i
x
n
x
1 1
, поэтому число степеней свободы выборочной дисперсии будет равно m = n – 1, а, например, для выборочной дисперсии, найденной из соотношения (3.7)
n
M
x
S
n
i
x
i
x
1 2
2
, число степеней свободы равно числу испытаний
m = n, так как M
x определено независимым способом. Понятие о степени свободы поясним еще на примере решения системы линейных алгебраических уравнений. Допустим, что мы имеем систему из n линейных алгебраических уравнений с n неизвестными x
1
, x
2
, ..., x
n
. Очевидно, решение такой системы (при линейной независимости уравнений) будет единственным, те. такая система не будет иметь ни одной степени свободы. Но если для n неизвестных переменных мы имеем только одно уравнение, то для однозначного определения x
1
, x
2
, ..., x
n
должно быть наложено еще m = n–1 условий (уравнений, те. число степеней свободы такой системы уравнений будет равно n–1. Наконец, если по выборке объемом n будут сделаны оценки ровно для n (линейно независимых) параметров распределения, то расчет n + 1 оценки не будет нести никакой дополнительной информации о распределении случайной величины (все n выборочных значений x
1
, x
2
, ..., x n
будут однозначно определены
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
64
через n оценок параметров, поскольку после оценки n параметров число степеней свободы m = n - n уже окажется равным нулю. Распределение (3.28), зависящее только от числа степеней свободы
(однопараметрическое), называют распределением
Стьюдента, или распределением. Плотность распределения
Стьюдента выражается формулой
2 1
m
2
m t
1 2
m m
2 1
m
)
t
(
f
,
(3.29) причем множители при
2 1
m
2
m t
1
в f(t) выбраны так, чтобы площадь под любой кривой f(t) равнялась единице.
Стьюдент — псевдоним УС. Госсета (1876-1937) — химика, работавшего водной из пивоваренных фирм Великобритании. Он самостоятельно разработал статистику малых выборок. Поскольку в современной технике чаще всего исследуются небольшие по объему выборки (менее 30), то работа Стьюдента имеет большое практическое значение. На рис. 3.3 приведено распределение Стьюдента для различных значений m. При n
(практически при n
30) распределение Стью- дента переходит в стандартное нормальное распределение с единичной дисперсией. Для случайной величины t (3.27), в соответствии с (2.20), можно записать, что
1 2
2 1
2 1
)
/
)
(
(
)
(
P
P
t
n
S
M
x
t
P
t
t
t
P
P
x
x
P
P
P
,
(3.30) где t
P1
и t
P2
— значения квантилей случайной величины t порядка p
1
и
p
2 соответственно. Если в соотношении (3.30), аналогично (3.24), разрешить относительно M
x неравенство, стоящее под знаком вероятности, и при
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
65
построении доверительного интервала для математического ожидания принять симметричные границы P
1
= α/2 и P
2
= 1 – α/2, то получим, что вероятность выполнения неравенства
n
s
t
x
M
n
s
t
x
x
m
,
_
x
x
m
,
_
(3.31) равна P = 1 – α , где t
α,m
— так называемый коэффициент Стьюдента значение квантили статистики t (3.27) порядка P = 1 – α /2 для числа степеней свободы m = n – 1).
-3
-2
-1 0
1 2
3
t
0,1 0,2 0,4
m=10
m=4
m=1
f(t)
- t
-3
-2
-1 0
1 2
3 4
0,2 0,4 0,8
m=10
m=4
m=1
F(t)
- 4 б- t t
а
1 2 3 4 5 6 7 8 9 ... 20
07
,
0 341 341
HB
P
F
Другими словами, точечная оценка вероятности того, что при испытании твердости в средней части рельса ее значение окажется меньше 341, равна 0,07. Или, если проведено два испытания на обоих концах рельса и получены значения 351 и 370, то после определения твердости в средней части, возможно, только семь рельсов из ста придется перевести во второй класс или подвергнуть повторной однократной термической обработке. Для оценки вероятности того, что после определения твердости в средней части рельс по-прежнему будет удовлетворять требованиям первого класса, воспользуемся соотношением (3.15) и получим
45
,
1 05
,
2
)
435
,
13 5
,
360 341
(
)
435
,
13 5
,
360 388
(
388 Значение Ф) ≈ 0,07 нами было уже найдено, а Ф) ≈
≈ 0,98 (по таблицам [11], в табл. Пили в Microsoft Excel
НОРМ.СТ.РАСП(2,05;ИСТИНА) =0,979818). Следовательно,
,
91
,
0 07
,
0 98
,
0 388 341
HB
P
те. 91% всех рельсов, после измерения твердости в средней части, будут по- прежнему отвечать требованиям пункта 1.4 ГОСТ 18267-82 (НВ =
341…388), если на их концах уже были получены значения 351 и 370. Добавим, что значения 341 и 388 являются оценками квантилей порядка соответственно 0,07 и 0,98, те.
,
341 аи если, допустим, необходимо оценить квантиль порядка 0,99, то по формуле (3.16) можно получить следующее значение
,
80
,
391 435
,
13 326
,
2 5
,
360 453
,
13 5
,
360 99 0
99 где z
0,99
— квантиль нормированного нормального распределения порядка 0,99 — можно найти по таблицам [11], в табл. Пили в
Microsoft
Excel с использованием функции
НОРМ.СТ.ОБР(0,99) = 2,326342, а также НОРМ.ОБР(0,99;0;1) =
= 2,326342. Следовательно, если на обоих концах рельса получены значения
351 и 370, то скорее всего только водном случае из ста твердость
53
на поверхности катания головки в средней части может оказаться больше 391,8. Однако все последние приведенные в примере 3.1 выводы и заключения относительно оценок различных вероятностей не следует понимать в буквальном смысле слова. Так, если бы удалось собрать данные по твердости в средней части наста рельсах, у которых значения этого показателя качества по концам составляли бы ровно 351 и 370, то, конечно же, совершенно необязательно, что именно только на одном рельсе из ста твердость оказалась бы больше, чем 391,8. Такое событие вполне могло бы быть отмечено и на двух, и на трех и т.д. рельсах либо вообще ни разу не встретиться. Дело здесь заключается в том, что, во-первых, даже если бы нам удалось найти саму теоретическую вероятность какого-либо события изучить всю генеральную совокупность, а не ее оценку (полученную по выборке ограниченного объема, то ив этом случае фактическая частота реализации этого события вполне могла бы отличаться (хотя и не очень сильно) от соответствующей ей теоретической вероятности. Так, например, если сто раз подбросить идеальную монету, то совершенно необязательно, что ровно в 50 случаях выпадет орел, а в остальных 50 — решка. Хотя то, что во всех 100 случаях выпадет орел и ни разу — решка, мы вряд ли увидим (если тот, кто подбрасывает монету, не факир или фокусник, то вероятность подобного события равна (0,5)
100
= 8
10
-31
). И, во-вторых, если в нашем распоряжении имеются только лишь какая-либо точечная оценка, то вообще совершенно невозможно сказать, насколько близко она располагается относительно оцениваемого ею параметра. Так, например, если вероятность того, что при получении твердости на концах рельса 351 ион и после измерения этой величины в средней части будет отвечать пункту 1.4 ГОСТ 18267-82 оценивается значением 0,91, тона самом деле (для всей генеральной совокупности, те. для всех рельсов Р, выпускаемых по ГОСТ 18267-82) эта вероятность может быть равна и 0,85, и 0,95 и т.д. По значению точечной оценки не представляется возможным определить хотя бы, в каком диапазоне находится оцениваемый ею параметр. Этот существенный недостаток точечного оценивания
54
может быть компенсирован оцениванием с помощью так называемого доверительного интервала.
3.2. Оценивание с помощью доверительного интервала В отличие от точечной оценки, интервальная оценка позволяет получить вероятностную характеристику точности оценивания неизвестного параметра. Идея оценивания с помощью доверительного интервала заключается в том, чтобы в окрестности точечной оценки попытаться построить такой интервал (доверительный интервал, который с некоторой, отличной от нуля, вероятностью (доверительной вероятностью) накрыл бы оцениваемый параметр распределения. Доверительный интервал — интервал, который с заданной вероятностью накроет неизвестное значение оцениваемого параметра распределения. Доверительная вероятность — вероятность того, что доверительный интервал накроет действительное значение параметра, оцениваемого по выборочным данным.
Оценивание с помощью доверительного интервала — способ оценки, при котором с заданной доверительной вероятностью устанавливают границы доверительного интервала. Предположим, что для оценки параметра
удалось найти две функции
1
*(x
1
, x
2
, ..., x n
) и
2
*(x
1
, x
2
, ..., x n
), такие, что при всех
(x
1
, x
2
, ..., x n
) и при любых значениях
выполняется условие
1
n x
,...,
2
x
,
1
x
*
2
n x
,...,
2
x
,
1
x
*
1
P
;
*
2
*
1
(3.17) Это означает, что действительное значение параметра
находится в интервале значений (
1
*;
2
*) с вероятностью P. Интервал (
1
*;
2
*) как рази называют доверительным интервалом для неизвестного параметра
, а соответствующую ему вероятность доверительной вероятностью (или надеж-
55
ностью) P = 1-
, где
— уровень значимости. Если, к примеру,
= 0,05, то строится доверительный интервал с доверительной вероятностью (или процентный доверительный интервал. Часто доверительный интервал находится как интервал, симметричный относительно точечной оценки параметра. Для симметричного доверительного интервала его ширина 2
определяется условием
,
*
P
1
(3.18) где
*
— точечная оценка параметра При фиксированном значении
(вероятности того, что доверительный интервал не накроет действительного значения параметра) чем меньше
, тем точнее оценивается Вероятностное утверждение P{
1
*
2
*} не следует понимать таким образом, что параметр
есть случайная величина, которая с вероятностью P попадет в интервал между
1
* и
2
*. Любой параметр распределения
(в отличие от его оценок) — это детерминированная величина, неизвестная нам, но имеющая строго определенное, фиксированное значение (которое, по крайней мере, теоретически, может быть найдено при исследовании всей генеральной совокупности. Границы
1
* и
2
* (как некоторые функции от результатов наблюдений) есть случайные величины. Поэтому утверждение означает, что для данного доверительного интервала (
1
*;
2
*) вероятность содержать значение
равна P. Рассмотрение способов получения интервальных оценок для основных параметров распределения начнем с построения доверительного интервала для математического ожидания, так как именно такие задачи наиболее часто встречаются в инженерной практике.
3.2.1. Построение доверительного интервала для математического ожидания
Как уже было отмечено, наилучшей (состоятельной, несмещенной и эффективной) точечной оценкой математического ожидания случайной величины Х с нормальным законом распределения
56
является ее выборочное среднее арифметическое
x
. Поэтому за основу построения доверительного интервала для математического ожидания обычно выбирается именно эта точечная оценка данного параметра. Задача получения интервальной оценки в этом случае заключается в поиске границ
)
;
(
x
x
такого интервала, который с заданной доверительной вероятностью P
Mx накроет действительное значение математического ожидания M
x
(рис. 3.1). При построении любой интервальной оценки, в том числе и для математического ожидания, необходимо знать распределение той точечной оценки (случайной величины, которая берется за основу для построения доверительного интервала. В математической статистике доказано, что выборочное среднее арифметическое
x
из n независимых результатов наблюдений случайной величины, распределенной нормально с параметрами M
x и σ
x
2
, также подчиняется нормальному закону распределения с параметрами) Подтвердить справедливость равенства (3.19) можно хотя бы тем, что выборочное среднее арифметическое — это несмещенная оценка математического ожидания, следовательно, по определению см. (3.2)), математическое ожидание этой оценки (выборочного
M
x
x
x Рис. 3.1. Построение доверительного интервала для математического ожидания
57
среднего арифметического) равно значению оцениваемого параметра математическому ожиданию. Соотношение (3.20) не должно, интуитивно, вызывать никаких серьезных возражений ведь если подсчитать выборочное среднее арифметическое по нескольким выборкам одного итого же объема, а затем найти дисперсию полученных значений, то вероятнее всего предположить, что разброс (дисперсия) выборочных средних арифметических будет меньше, чем разброс (дисперсия) самих опытных данных. Прокомментируем это положение следующим иллюстративным числовым материалом (в продолжение примера 3.1). На каждом двадцатом походу технологического процесса рельсе Р (по ГОСТ
18267-82) получены следующие значения твердости на поверхности катания головки первый рельс
— 351, 370, 365 (
362
HB
x
,
97 2
HB
S
); двадцать первый рельс
— 375, 369, 345 (
363
HB
x
,
252 2
HB
S
); сорок первый рельс
— 348, 363, 369 (
360
HB
x
,
117 2
HB
S
). Если теперь по (3.8) оценить дисперсию такой случайной величины, как
HB
, то получим
33
,
2 360 363 362 3
1 360 363 362 1
3 1
2 2
2 Как видно из этого числового примера, выборочная дисперсия средних арифметических — 2,33 потрем выборкам (объемом 3) почти на порядок меньше тех выборочных дисперсий (97, 252 и 117), которые имеют сами опытные данные. Для более строгого обоснования соотношения (3.20) напомним, что если случайная величина Y = X
1
X
2
— является суммой или разностью двух независимых случайных величин X
1
и X
2
, то справедливо равенство
2 2
2 2
1
x
x
y
(3.21) Кроме того, дисперсия произведения случайной переменной X
58
и постоянной величины (константы) C равна
2 2
2
x
C
x
C
(3.22) Закон сложения дисперсий справедлив при любом числе слагаемых. Учитывая, что
n
i
i
x
n
x
1 и
2
x
— дисперсия случайной величины, а также соотношения (3.21) и (3.22), получаем
,
)
(
1
)
1
(
)
(
2 2
2 1
2 2
1 что и требовалось доказать, причем Если заранее известна дисперсия
x
2
, то доверительный интервал для математического ожидания M
x рассчитывается достаточно просто. Его границы можно найти, например, следующим образом. Поскольку случайная величина
X
подчиняется нормальному закону распределения с параметрами M(
x
) = M
x и σ
2
(
x
) = σ
x
2
/n , то соответствующая ей приведенная случайная величина
n
M
X
x
x
M
X
Z
x
x
/
)
(
)
(
_
_
_
,
(3.23) имеет нормированный стандартный нормальный закон распределения см. Квантиль
p
x
порядка P такой случайной величины, как X , определяется аналогично (аи с учетом соотношений (3.19) и (3.20) равна Далее, в соответствии с (2.20)
2
_
1 Если в последнем соотношении неравенство, стоящее под знаком вероятности, разрешить относительно M
x
, то получим
1 2
1
_
2
_
P
P
n
z
x
M
n
z
x
P
x
P
x
x
P
(3.24) Если то и, следовательно,
n
z
x
M
x
P
x
2
_
, и, аналогично, если то и, следовательно, Таким образом, вероятность того, что выполняется неравенство
n
z
x
M
n
z
x
x
P
x
x
P
1
_
2
_
,
(3.25) будет P = P
2
– P
1
= 1- α.
60
Если для примера принять P
1
= 0,025 и P
2
= 0,975 (P = 0,975 –
– 0,025 = 0,95; α = 0,05), то, поскольку (см. (2.32)) z
0,025
= z
1-0,975
=
= - z
0,975
, а z
0,975
= 1,96 (по таблицам [11], табл. Пили используя
НОРМ.СТ.ОБР(0,975) = 1,959961), получим
,
95
,
0
)
96
,
1 96
,
1
(
_
_
n
x
M
n
x
P
x
x
x
(3.26) те. при многократном извлечении выборок (объемом n каждая) из нормально распределенной генеральной совокупности с параметрами M
x и
x
2
) можно построить последовательность соответствующих данным выборкам интервалов (3.26), причем примерно 95% этих интервалов будут включать в себя (накрывать) истинное значение математического ожидания Расчет теоретического значения стандартного нормального распределения в вероятностном калькуляторе пакета Statistica дает аналогичный результат (см. рис. 3.2). Рис. 3.2. Калькулятор вероятностных распределений, расчет квантиля нормального распределения
61
На рис. 3.2 показан инструмент пакета Statistica — калькулятор вероятностых распределений. В данном примере выполнен расчет квантиля порядка 0,975 для стандартного нормального распределения
(«z (Normal)», M
x
= 0 и σ
2
(x) = 1): z
0,975
= 1,96. Флаг «Two-tailed» отвечает за число хвостов распределния». Если выставить данную опцию, то будет расчитываться двухстороннее распределение. Флаг «(1-Cumulative p)» позволяет рассчитать квантиль для разности
1 – вероятность. При построении доверительного интервала для математического ожидания обычно принимают P
1
= α/2 и P
2
= 1 – α/2, те. рассматривают симметричные границы относительно выборочного среднего арифметического. В инженерных приложениях для значений
α обычно выбирают α = 0,1 или α = 0,05, режете. строят такие доверительные интервалы, которые вили (реже 99%) случаев накрывают математическое ожидание. С учетом соотношения (2.32) z
α/2
= – z
1- α/2
, по (3.25) получаем, что вероятность выполнения неравенства
n
z
x
M
n
z
x
x
x
x
2
/
1
_
2
/
1
_
(3.27) равна P = 1 – α/2
- α/2
= 1- α. Следовательно, интервал (3.27) является доверительным интервалом для математического ожидания M
x случайной величины с нормальным законом распределения, построенным с доверительной вероятностью P = 1– α. Границы этого интервала равны и
n
z
x
x
2
/
1
_
, а половина его ширины (см. рис. 3.1) Пример. Проведено исследование содержания кремния при выплавке передельного чугуна в доменной печи. Всего было отобрано 50 проб чугуна и получены следующие данные M
[Si]
= 0,65,
[Si]
= 0,13. Необходимо определить доверительный интервал для вероятности Р = 0,95; объем выборки n, который необходимо выполнить, чтобы точность статистических выводов
0,02.
62
Воспользовавшись соотношением
(3.26), рассчитаем доверительный интервал
,
50 13
,
0 96
,
1 65
,
0 50 13
,
0 96
,
1 65
,
0
]
[
Si
M
0,61
M
[Si]
0,69. Необходимый объем выборки для
= 0,02 составит
178 02
,
0 13
,
0 96
,
1 На практике, как правило, число измерений (например, отбора проб шихты, чугуна, стали и других материалов) конечно и не превышает. При таком малом числе наблюдений фактическая дисперсия
x
2
неизвестна, поэтому при построении доверительного интервала для математического ожидания M
x используют выборочную дисперсию В этом случае приведенная случайная величина, аналогичная
(3.23), а) где S
x
— выборочное среднее квадратичное отклонение, определяемое по формуле (3.10), имеет распределение, отличное от нормального. Функция распределения случайной величины t (3.27) имеет вид
,
dt
m
t
m
m
m
)
t
(
F
t
m
2 1
2 1
2 2
1
(3.28) где Г(у) — гамма-функция, являющаяся обобщением понятия
63
факториала и обладающая рекуррентным свойством Г + 1) = Г) для целых чисел n справедливо Г + 1) = n, см. [1]); m — число степеней свободы, определяемое разностью между объемом выборки n и числом параметров, оцениваемых по выборке в данном случае m = n-1 (поскольку при определении t по (а) необходимо оценить один параметр S
x
). Число степеней свободы m — это понятие, которое учитывает в статистических ситуациях связи, ограничивающие свободу изменения случайных величин. Поэтому число степеней свободы вычисляется как разность между числом экспериментальных точек n и числом связей f, ограничивающих свободу изменения случайной величины Так, при вычислении выборочной дисперсии по формуле
(3.6)
)
1
(
1 2
2
n
x
x
S
n
i
i
x
наблюдается одна связь, определяемая уровнем выборочного среднего
n
i
i
x
n
x
1 1
, поэтому число степеней свободы выборочной дисперсии будет равно m = n – 1, а, например, для выборочной дисперсии, найденной из соотношения (3.7)
n
M
x
S
n
i
x
i
x
1 2
2
, число степеней свободы равно числу испытаний
m = n, так как M
x определено независимым способом. Понятие о степени свободы поясним еще на примере решения системы линейных алгебраических уравнений. Допустим, что мы имеем систему из n линейных алгебраических уравнений с n неизвестными x
1
, x
2
, ..., x
n
. Очевидно, решение такой системы (при линейной независимости уравнений) будет единственным, те. такая система не будет иметь ни одной степени свободы. Но если для n неизвестных переменных мы имеем только одно уравнение, то для однозначного определения x
1
, x
2
, ..., x
n
должно быть наложено еще m = n–1 условий (уравнений, те. число степеней свободы такой системы уравнений будет равно n–1. Наконец, если по выборке объемом n будут сделаны оценки ровно для n (линейно независимых) параметров распределения, то расчет n + 1 оценки не будет нести никакой дополнительной информации о распределении случайной величины (все n выборочных значений x
1
, x
2
, ..., x n
будут однозначно определены
64
через n оценок параметров, поскольку после оценки n параметров число степеней свободы m = n - n уже окажется равным нулю. Распределение (3.28), зависящее только от числа степеней свободы
(однопараметрическое), называют распределением
Стьюдента, или распределением. Плотность распределения
Стьюдента выражается формулой
2 1
m
2
m t
1 2
m m
2 1
m
)
t
(
f
,
(3.29) причем множители при
2 1
m
2
m t
1
в f(t) выбраны так, чтобы площадь под любой кривой f(t) равнялась единице.
Стьюдент — псевдоним УС. Госсета (1876-1937) — химика, работавшего водной из пивоваренных фирм Великобритании. Он самостоятельно разработал статистику малых выборок. Поскольку в современной технике чаще всего исследуются небольшие по объему выборки (менее 30), то работа Стьюдента имеет большое практическое значение. На рис. 3.3 приведено распределение Стьюдента для различных значений m. При n
(практически при n
30) распределение Стью- дента переходит в стандартное нормальное распределение с единичной дисперсией. Для случайной величины t (3.27), в соответствии с (2.20), можно записать, что
1 2
2 1
2 1
)
/
)
(
(
)
(
P
P
t
n
S
M
x
t
P
t
t
t
P
P
x
x
P
P
P
,
(3.30) где t
P1
и t
P2
— значения квантилей случайной величины t порядка p
1
и
p
2 соответственно. Если в соотношении (3.30), аналогично (3.24), разрешить относительно M
x неравенство, стоящее под знаком вероятности, и при
65
построении доверительного интервала для математического ожидания принять симметричные границы P
1
= α/2 и P
2
= 1 – α/2, то получим, что вероятность выполнения неравенства
n
s
t
x
M
n
s
t
x
x
m
,
_
x
x
m
,
_
(3.31) равна P = 1 – α , где t
α,m
— так называемый коэффициент Стьюдента значение квантили статистики t (3.27) порядка P = 1 – α /2 для числа степеней свободы m = n – 1).
-3
-2
-1 0
1 2
3
t
0,1 0,2 0,4
m=10
m=4
m=1
f(t)
- t
-3
-2
-1 0
1 2
3 4
0,2 0,4 0,8
m=10
m=4
m=1
F(t)
- 4 б- t t
а
1 2 3 4 5 6 7 8 9 ... 20
Рис. 3.3. Плотность (аи функция (б) распределения Стьюдента
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
66
Следовательно, интервал (3.31) является доверительным интервалом для математического ожидания M
x случайной величины с нормальным законом распределения, построенным с доверительной вероятностью P = 1 – α, при неизвестном значении генеральной дисперсии Значения t
α,m табулированы (см, например, [11] или табл. П, их можно определить также, воспользовавшись статистической функцией СТЬЮДЕНТ.ОБР.2Х из электронных таблиц Microsoft
Excel, причем при m > 30 t
α,m
≈ z
1- α/2
. Так, при α = 0,05 и m = 31
СТЬЮДЕНТ.ОБР.2Х(0,05;31) = 2,039515, а НОРМ.СТ.ОБР
(1-0,05/2) = 1,959961. Если в примере 3.1 потрем) выборочным значениями (первый рельс -
362
HB
x
;
85
,
9
HB
S
) было бы необходимо при α = 0,05 построить доверительный интервал для математического ожидания твердости на поверхности катания головки рельса, то, если предположить, что твердость не противоречит нормальному закону распределения, и поскольку t
0,05,2
≈ 4,3 (СТЬЮ-
ДЕНТ.ОБР.2Х (0,05;2) = 4,302656), он оказался бы равным
3 85
,
9 3
,
4 362 3
85
,
9 3
,
4 362
HB
M
, или
45
,
24 Следовательно, интервал [337,55; 386,45] с вероятностью
1 – 0,05 = 0,95 накрывает математическое ожидание твердости на поверхности катания головки рельса. Расчет теоретического значения критерия Стьюдента в вероятностном калькуляторе пакета Statistica приведен на рис. 3.4. На рис. 3.4 показан расчет значения критерия Стьюдента
(«t (Student)») для вероятности 0,95 и числа степеней свободы 2: t
0.95,2
= 4,3. Параметр «df» позволяет указать число степеней свободы. Флаг
«Two-tailed» отвечает за число хвостов распределения. Если выставить данную опцию, то будет рассчитываться двухстороннее распределение. Флаг «(1-Cumulative p)» позволяет рассчитать квантиль для разности 1 – вероятность. В качестве примера предположим, что нам необходимо определить правую границу для M
HB
66
Следовательно, интервал (3.31) является доверительным интервалом для математического ожидания M
x случайной величины с нормальным законом распределения, построенным с доверительной вероятностью P = 1 – α, при неизвестном значении генеральной дисперсии Значения t
α,m табулированы (см, например, [11] или табл. П, их можно определить также, воспользовавшись статистической функцией СТЬЮДЕНТ.ОБР.2Х из электронных таблиц Microsoft
Excel, причем при m > 30 t
α,m
≈ z
1- α/2
. Так, при α = 0,05 и m = 31
СТЬЮДЕНТ.ОБР.2Х(0,05;31) = 2,039515, а НОРМ.СТ.ОБР
(1-0,05/2) = 1,959961. Если в примере 3.1 потрем) выборочным значениями (первый рельс -
362
HB
x
;
85
,
9
HB
S
) было бы необходимо при α = 0,05 построить доверительный интервал для математического ожидания твердости на поверхности катания головки рельса, то, если предположить, что твердость не противоречит нормальному закону распределения, и поскольку t
0,05,2
≈ 4,3 (СТЬЮ-
ДЕНТ.ОБР.2Х (0,05;2) = 4,302656), он оказался бы равным
3 85
,
9 3
,
4 362 3
85
,
9 3
,
4 362
HB
M
, или
45
,
24 Следовательно, интервал [337,55; 386,45] с вероятностью
1 – 0,05 = 0,95 накрывает математическое ожидание твердости на поверхности катания головки рельса. Расчет теоретического значения критерия Стьюдента в вероятностном калькуляторе пакета Statistica приведен на рис. 3.4. На рис. 3.4 показан расчет значения критерия Стьюдента
(«t (Student)») для вероятности 0,95 и числа степеней свободы 2: t
0.95,2
= 4,3. Параметр «df» позволяет указать число степеней свободы. Флаг
«Two-tailed» отвечает за число хвостов распределения. Если выставить данную опцию, то будет рассчитываться двухстороннее распределение. Флаг «(1-Cumulative p)» позволяет рассчитать квантиль для разности 1 – вероятность. В качестве примера предположим, что нам необходимо определить правую границу для M
HB
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
67
Для этого выполним расчет критерия Стьюдента для одностороннего распределения, рис. 3.5. Рис. 3.4. Калькулятор вероятностных распределений, расчет значения критерия Стьюдента, двустороннее распределение Рис. 3.5. Калькулятор вероятностных распределений, расчет значения критерия Стьюдента, односторонее распределение
67
Для этого выполним расчет критерия Стьюдента для одностороннего распределения, рис. 3.5. Рис. 3.4. Калькулятор вероятностных распределений, расчет значения критерия Стьюдента, двустороннее распределение Рис. 3.5. Калькулятор вероятностных распределений, расчет значения критерия Стьюдента, односторонее распределение
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 3
85
,
9 92
,
2 362
HB
M
, M
HB
< 378,55 Следовательно, M
HB с вероятностью 0,95 не превысит значения
378,55.
3.2.2. Построение доверительного интервала для дисперсии При построении доверительного интервала для дисперсии используется случайная величина
2
(читается «хи-квадрат»),
,
1 2
1 2
2 2
x
n
i
x
x
i
S
n
x
x
(которая имеет так называемое распределение Пирсона (по имени английского математика и биолога К. Пирсона), или распределение («хи-квадрат-распределение»). Плотность распределения случайной величины
2
описывается уравнением
,
0
,
e
2
m
2 1
f
2 2
1 2
2
m
2 2
/
m
2 2
(3.33) где Г) — гамма – функция m — число степеней свободы (при построении доверительного интервала m = n-1). На рис. 3.6 приведены кривые f(
2
) для различных значений m. Эти кривые асимметричны, причем асимметрия особенно резко выражена при малых значениях параметра m. Так, при m =1 и
2
=0 кривая уходит в бесконечность, а при m = 2 иона достигает максимального значения, равного 0,5. При m>2 кривые имеют максимум при
2
max
= m – 2. При больших значениях m (m>30) распределение переходит в нормальное со средним значением
1 2
)
(
2
m
f
и дисперсией Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
69
Для построения доверительного интервала для дисперсии рассмотрим соотношение
1 2
2 2
2
)
(
2 1
P
P
P
P
P
(3.34) и с учетом (3.32) решим стоящее в скобках неравенство относительно
x
2
:
1 2
2
P
2
x
2
x
2
P
2
x
P
P
)
1
n
S
1
n
S
(
P
2 1
,
(3.35)
2 4
6 8
10 12 14
m=10
m=4
m=2 а f(
2
)
16 18
2 2
4 6
8 10 12 14
m=10
m=4
m=1 б 18
2 1,0 0,2 0,4 0,6 Рис. 3.6. Плотность распределения (аи функция распределения (б)
2
0,5 0,1 0,2 0,3 0,4
85
,
9 92
,
2 362
HB
M
, M
HB
< 378,55 Следовательно, M
HB с вероятностью 0,95 не превысит значения
378,55.
3.2.2. Построение доверительного интервала для дисперсии При построении доверительного интервала для дисперсии используется случайная величина
2
(читается «хи-квадрат»),
,
1 2
1 2
2 2
x
n
i
x
x
i
S
n
x
x
(которая имеет так называемое распределение Пирсона (по имени английского математика и биолога К. Пирсона), или распределение («хи-квадрат-распределение»). Плотность распределения случайной величины
2
описывается уравнением
,
0
,
e
2
m
2 1
f
2 2
1 2
2
m
2 2
/
m
2 2
(3.33) где Г) — гамма – функция m — число степеней свободы (при построении доверительного интервала m = n-1). На рис. 3.6 приведены кривые f(
2
) для различных значений m. Эти кривые асимметричны, причем асимметрия особенно резко выражена при малых значениях параметра m. Так, при m =1 и
2
=0 кривая уходит в бесконечность, а при m = 2 иона достигает максимального значения, равного 0,5. При m>2 кривые имеют максимум при
2
max
= m – 2. При больших значениях m (m>30) распределение переходит в нормальное со средним значением
1 2
)
(
2
m
f
и дисперсией Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
69
Для построения доверительного интервала для дисперсии рассмотрим соотношение
1 2
2 2
2
)
(
2 1
P
P
P
P
P
(3.34) и с учетом (3.32) решим стоящее в скобках неравенство относительно
x
2
:
1 2
2
P
2
x
2
x
2
P
2
x
P
P
)
1
n
S
1
n
S
(
P
2 1
,
(3.35)
2 4
6 8
10 12 14
m=10
m=4
m=2 а f(
2
)
16 18
2 2
4 6
8 10 12 14
m=10
m=4
m=1 б 18
2 1,0 0,2 0,4 0,6 Рис. 3.6. Плотность распределения (аи функция распределения (б)
2
0,5 0,1 0,2 0,3 0,4
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
70
где
2
P
2
x
2
x
2
P
2
x
2 1
1
n
S
1
n
S
(3.36) есть доверительный интервал для дисперсии
x
2 с доверительной вероятностью- Как и при построении доверительного интервала для математического ожидания в технических приложениях обычно принимают
P
1
=
/2 и P
2
=1-
/2, а
выбирают равным 0,1 или 0,05, реже 0,01. Квантили распределения Пирсона находят по таблицам (см. [11] или табл. Пав для этого используется функция
ХИ2.ОБР.ПХ. Границы доверительного интервала для среднего квадратичного отклонения
x находятся путем извлечения квадратного корня из значений доверительных границ для дисперсии. В примере
3.1 потрем выборочным значениями при α = 0,05 (P
1
= 0,05/2 = 0,025 и
P
2
= 1-0,05/2 = 0,975;
ХИ2.ОБР.ПХ(0,025;2) = 7,377779 и ХИ2.ОБР.ПХ(0,975;2) = 0,050636) доверительный интервал для дисперсии твердости составит
05
,
0 1
3 97 38
,
7 1
3 97 2
, или после вычислений
3880 26 2
, а доверительный интервал для среднего квадратичного отклонения будет равен
62 Расчеты теоретического значения критерия Пирсона в вероятностном калькуляторе пакета Statistica. На рисунках 3.7 и 3.8 показан расчет значения критерия Пирсо- на («Chi I») для вероятностей 0,975 и 0,025 соответственно при числе степеней свободы 2:
2 0.975,2
=7,377759
2 0.025,2
=0,050636 Параметр «df» позволяет указать число степеней свободы. Флаг
«Two-tailed» в данном случае недоступен, поскольку распределение- несимметрично. Флаг «(1-Cumulative p)» позволяет рассчитать квантиль для разности 1 – вероятность.
70
где
2
P
2
x
2
x
2
P
2
x
2 1
1
n
S
1
n
S
(3.36) есть доверительный интервал для дисперсии
x
2 с доверительной вероятностью- Как и при построении доверительного интервала для математического ожидания в технических приложениях обычно принимают
P
1
=
/2 и P
2
=1-
/2, а
выбирают равным 0,1 или 0,05, реже 0,01. Квантили распределения Пирсона находят по таблицам (см. [11] или табл. Пав для этого используется функция
ХИ2.ОБР.ПХ. Границы доверительного интервала для среднего квадратичного отклонения
x находятся путем извлечения квадратного корня из значений доверительных границ для дисперсии. В примере
3.1 потрем выборочным значениями при α = 0,05 (P
1
= 0,05/2 = 0,025 и
P
2
= 1-0,05/2 = 0,975;
ХИ2.ОБР.ПХ(0,025;2) = 7,377779 и ХИ2.ОБР.ПХ(0,975;2) = 0,050636) доверительный интервал для дисперсии твердости составит
05
,
0 1
3 97 38
,
7 1
3 97 2
, или после вычислений
3880 26 2
, а доверительный интервал для среднего квадратичного отклонения будет равен
62 Расчеты теоретического значения критерия Пирсона в вероятностном калькуляторе пакета Statistica. На рисунках 3.7 и 3.8 показан расчет значения критерия Пирсо- на («Chi I») для вероятностей 0,975 и 0,025 соответственно при числе степеней свободы 2:
2 0.975,2
=7,377759
2 0.025,2
=0,050636 Параметр «df» позволяет указать число степеней свободы. Флаг
«Two-tailed» в данном случае недоступен, поскольку распределение- несимметрично. Флаг «(1-Cumulative p)» позволяет рассчитать квантиль для разности 1 – вероятность.
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
71
Рис. 3.7. Калькулятор вероятностных распределений, расчет значения критерия Пирсона, расчет для вероятности 0,975 Рис. 3.8. Калькулятор вероятностных распределений, расчет значения критерия Пирсона, расчет для вероятности 0,025
71
Рис. 3.7. Калькулятор вероятностных распределений, расчет значения критерия Пирсона, расчет для вероятности 0,975 Рис. 3.8. Калькулятор вероятностных распределений, расчет значения критерия Пирсона, расчет для вероятности 0,025
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ. Определение необходимого количества опытов при построении интервальной оценки для математического ожидания Увеличение количества измерений (числа проб, образцов и т.п.), как видно из выражений (3.27) и (3.31) даже при неизменной их точности, может увеличить доверительную вероятность P или сузить доверительный интервал ±
для определения действительного значения измеряемой величины (математического ожидания. Необходимое количество измерений (образцов, проб и т.п.) n для достижения требуемой точности
при заданной доверительной вероятности Р можно определить заранее в том случае, когда известно действительное значение среднеквадратичного отклонения
x
, а экспериментальные данные (измерения) подчиняются нормальному закону распределения. Действительно, при этих допущениях число измерений можно определить из выражения (3.27):
2 2
2 1
2 2
2 1
2 2
1
/
x
/
x
/
z
z
z
n
,
(3.37) где ε = Таким образом, число измерений n определяется требуемой доверительной вероятностью Р = 1 – α и относительным (по отношению к среднеквадратичному отклонению) значением половины ширины доверительного интервала
, те. требуемой точностью определения измеряемой величины. Так, при Р = 0,95, z
0,975
= 1,96 и при
=
x число измерений равно 4. При увеличении необходимой точности измерений в 2 раза, те. сужении доверительного интервала до величины
=(1/2)
x
, необходимое число измерений составит 16. Нетрудно заметить, что необходимое число измерений с увеличением точности возрастает в квадратичной зависимости. Как правило, действительное значение среднеквадратичной ошибки (
x
) неизвестно, а имеется только ее оценка (S
x
). В этом случае следует воспользоваться соотношением (3.31), те. критерием
для определения действительного значения измеряемой величины (математического ожидания. Необходимое количество измерений (образцов, проб и т.п.) n для достижения требуемой точности
при заданной доверительной вероятности Р можно определить заранее в том случае, когда известно действительное значение среднеквадратичного отклонения
x
, а экспериментальные данные (измерения) подчиняются нормальному закону распределения. Действительно, при этих допущениях число измерений можно определить из выражения (3.27):
2 2
2 1
2 2
2 1
2 2
1
/
x
/
x
/
z
z
z
n
,
(3.37) где ε = Таким образом, число измерений n определяется требуемой доверительной вероятностью Р = 1 – α и относительным (по отношению к среднеквадратичному отклонению) значением половины ширины доверительного интервала
, те. требуемой точностью определения измеряемой величины. Так, при Р = 0,95, z
0,975
= 1,96 и при
=
x число измерений равно 4. При увеличении необходимой точности измерений в 2 раза, те. сужении доверительного интервала до величины
=(1/2)
x
, необходимое число измерений составит 16. Нетрудно заметить, что необходимое число измерений с увеличением точности возрастает в квадратичной зависимости. Как правило, действительное значение среднеквадратичной ошибки (
x
) неизвестно, а имеется только ее оценка (S
x
). В этом случае следует воспользоваться соотношением (3.31), те. критерием
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
73
Стьюдента, и необходимое число измерений определять из соотношения (где ε = При расчетах поэтому уравнению следует иметь ввиду, что значение критерия Стьюдента зависит не только от
, но и от числа степеней свободы m, последние же определяются числом измерений. В связи с этим уравнение (3.38) следует решать методом последовательных приближений. В качестве начального приближения можно задать, в частности, число измерений, рассчитанных по формуле
(3.37). Так, если решить последнее уравнение методом последовательных приближений, то можно показать, что при P = 0,95 (
=0,05) для определения доверительного интервала с точностью
=S
x требуется измерений, ас точностью
=0,5S
x
– 19. С повышением необходимой точности различие в числе измерений, рассчитанных по соотношениями, уменьшается и, как показывают расчеты, при величине
0,2S
x они практически совпадают. В примере 3.1 доверительный интервал для математического ожидания твердости на поверхности катания головки рельса составили если бы нам было необходимо определить твердость с точностью ±10НВ (ε ≈ 1), то для этого потребовалось бы еще, как минимум, четыре измерения (кроме уже трех имеющихся. Действительно, при ε = 1 и P = 0,95 (
= 0,05), как уже было отмечено, по (3.38) получается
4
)
96
,
1
(
1 2
2 2
2
/
05
,
0 1
z
n
, затем при
m = 4-1 = 3 t
0,05,2
≈ 3 (СТЬЮДЕНТ.ОБР.2Х (0,05;3) = 3,182449), по
(3.27) получаем
9 1
2 2
3
,
05
,
0
t
n
; наследующей итерации t
0,05,8
≈ 2,3
(СТЬЮДЕНТ.ОБР.2Х (0,05;8) = 2,306006), n ≥ 2,3 2
≈5 и затем
t
0,05,4
≈ 2,8 (СТЬЮДЕНТ.ОБР.2Х (0,05;4) = 2,776451), n ≥ 2,8 2
≈7. Количество опытов, необходимых для построения доверительных интервалов для математического ожидания при некоторых других и P, приведены в табл. 3.1 (для P = 0,95 в скобках приведены значения, рассчитанные по формуле (3.37)).
73
Стьюдента, и необходимое число измерений определять из соотношения (где ε = При расчетах поэтому уравнению следует иметь ввиду, что значение критерия Стьюдента зависит не только от
, но и от числа степеней свободы m, последние же определяются числом измерений. В связи с этим уравнение (3.38) следует решать методом последовательных приближений. В качестве начального приближения можно задать, в частности, число измерений, рассчитанных по формуле
(3.37). Так, если решить последнее уравнение методом последовательных приближений, то можно показать, что при P = 0,95 (
=0,05) для определения доверительного интервала с точностью
=S
x требуется измерений, ас точностью
=0,5S
x
– 19. С повышением необходимой точности различие в числе измерений, рассчитанных по соотношениями, уменьшается и, как показывают расчеты, при величине
0,2S
x они практически совпадают. В примере 3.1 доверительный интервал для математического ожидания твердости на поверхности катания головки рельса составили если бы нам было необходимо определить твердость с точностью ±10НВ (ε ≈ 1), то для этого потребовалось бы еще, как минимум, четыре измерения (кроме уже трех имеющихся. Действительно, при ε = 1 и P = 0,95 (
= 0,05), как уже было отмечено, по (3.38) получается
4
)
96
,
1
(
1 2
2 2
2
/
05
,
0 1
z
n
, затем при
m = 4-1 = 3 t
0,05,2
≈ 3 (СТЬЮДЕНТ.ОБР.2Х (0,05;3) = 3,182449), по
(3.27) получаем
9 1
2 2
3
,
05
,
0
t
n
; наследующей итерации t
0,05,8
≈ 2,3
(СТЬЮДЕНТ.ОБР.2Х (0,05;8) = 2,306006), n ≥ 2,3 2
≈5 и затем
t
0,05,4
≈ 2,8 (СТЬЮДЕНТ.ОБР.2Х (0,05;4) = 2,776451), n ≥ 2,8 2
≈7. Количество опытов, необходимых для построения доверительных интервалов для математического ожидания при некоторых других и P, приведены в табл. 3.1 (для P = 0,95 в скобках приведены значения, рассчитанные по формуле (3.37)).
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
74
Т а блица Необходимое количество измерений при построении
доверительного интервала для математического ожидания
/S
x
P=0,90
P=0,95
P=0,99 1
5 7 (4)
11 0,5 13 19 (16)
31 0,4 19 27 (24)
46 0,3 32 46 (48)
78 0,1 273 387 (384)
668
3.3. Статистические гипотезы Как уже видно из изложенного выше материала, при статистическом оценивании (те. при приближенном определении случайной величины) для обоснования (состоятельности, несмещенности и эффективности) выбора той или иной оценки неизвестного параметра распределения приходится высказывать предположение, что, например, случайная величина не противоречит нормальному закону распределения. Кроме того, использование всех имеющихся выборочных значений при расчете оценок, так или иначе, предполагает, что среди них нет грубых ошибок (резко выделяющихся значений. С еще большим количеством различных предположений (гипотез) приходится сталкиваться, когда необходимо не только определять случайные величины, но и сравнивать их между собой, и тем более, когда по результатам эксперимента строится функция отклика. Статистическая гипотеза — любое предположение, касающееся неизвестного распределения случайной величины. Например, специалиста интересует, удалось ли добиться повышения механической прочности окатышей при использовании новой технологии их обжига. Он может сформулировать следующую гипотезу Механическая прочность окатышей увеличилась. Эта гипотеза нулевая гипотеза) будет подлежать проверке входе проведения опытов. Кроме того, можно сформулировать и любую другую (альтернативную) гипотезу, например Изменения механической прочности не произошло или Механическая прочность окатышей, наоборот, даже уменьшилась.
74
Т а блица Необходимое количество измерений при построении
доверительного интервала для математического ожидания
/S
x
P=0,90
P=0,95
P=0,99 1
5 7 (4)
11 0,5 13 19 (16)
31 0,4 19 27 (24)
46 0,3 32 46 (48)
78 0,1 273 387 (384)
668
3.3. Статистические гипотезы Как уже видно из изложенного выше материала, при статистическом оценивании (те. при приближенном определении случайной величины) для обоснования (состоятельности, несмещенности и эффективности) выбора той или иной оценки неизвестного параметра распределения приходится высказывать предположение, что, например, случайная величина не противоречит нормальному закону распределения. Кроме того, использование всех имеющихся выборочных значений при расчете оценок, так или иначе, предполагает, что среди них нет грубых ошибок (резко выделяющихся значений. С еще большим количеством различных предположений (гипотез) приходится сталкиваться, когда необходимо не только определять случайные величины, но и сравнивать их между собой, и тем более, когда по результатам эксперимента строится функция отклика. Статистическая гипотеза — любое предположение, касающееся неизвестного распределения случайной величины. Например, специалиста интересует, удалось ли добиться повышения механической прочности окатышей при использовании новой технологии их обжига. Он может сформулировать следующую гипотезу Механическая прочность окатышей увеличилась. Эта гипотеза нулевая гипотеза) будет подлежать проверке входе проведения опытов. Кроме того, можно сформулировать и любую другую (альтернативную) гипотезу, например Изменения механической прочности не произошло или Механическая прочность окатышей, наоборот, даже уменьшилась.
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
75
Процесс принятия решения называется проверкой статистической гипотезы. Поскольку мы выдвигали гипотезу, опираясь только на случайные выборочные значения, наши выводы будут носить вероятностный характер, то есть мы не можем дать точного ответа да или нет. Можно будет лишь с некоторой долей уверенности (с некоторой вероятностью) утверждать, что данные не противоречат (или противоречат) предположению. Статистические гипотезы можно разделить наследующие группы
1. Гипотезы о параметрах распределения . Эти гипотезы представляют собой предположение о значении некоторых параметров распределения генеральной совокупности. Пусть, например, высказывается гипотеза о том, что параметры (математическое ожидание, дисперсии) в двух выборках равны между собой. Обычно гипотезы о параметрах распределения можно выдвигать, располагая достаточно большой информацией о генеральной совокупности или имея весомые основания считать известным ее закон распределения.
2. Гипотезы о виде распределения . Это более общие гипотезы, они выдвигаются в условиях недостаточной информации о генеральной совокупности. По выборке выдвигается гипотеза о том, соответствуют ли данные, например, нормальному закону распределения. Заметим, что проверка гипотезы о нормальности распределения может помочь при дальнейшей обработке выборки если случайную величину достаточно уверенно можно считать нормально распределенной, ток ней применимы все теоремы о нормальных величинах, в частности имеется возможность построить доверительные интервалы для параметров. Нулевая гипотеза Н
— гипотеза, подлежащая проверке. Это гипотеза, имеющая наиболее важное значение в проводимом исследовании. Нулевую гипотезу выдвигают и затем проверяют с помощью статистических критериев с целью выявления оснований для ее отклонения и принятия альтернативной гипотезы. Альтернативная гипотеза Н — каждая допустимая гипотеза, отличная от нулевой. Обычно в качестве альтернативной гипотезы принимают гипотезу вторую по значимости после основной. Предположение, которое касается неизвестного параметра рас
75
Процесс принятия решения называется проверкой статистической гипотезы. Поскольку мы выдвигали гипотезу, опираясь только на случайные выборочные значения, наши выводы будут носить вероятностный характер, то есть мы не можем дать точного ответа да или нет. Можно будет лишь с некоторой долей уверенности (с некоторой вероятностью) утверждать, что данные не противоречат (или противоречат) предположению. Статистические гипотезы можно разделить наследующие группы
1. Гипотезы о параметрах распределения . Эти гипотезы представляют собой предположение о значении некоторых параметров распределения генеральной совокупности. Пусть, например, высказывается гипотеза о том, что параметры (математическое ожидание, дисперсии) в двух выборках равны между собой. Обычно гипотезы о параметрах распределения можно выдвигать, располагая достаточно большой информацией о генеральной совокупности или имея весомые основания считать известным ее закон распределения.
2. Гипотезы о виде распределения . Это более общие гипотезы, они выдвигаются в условиях недостаточной информации о генеральной совокупности. По выборке выдвигается гипотеза о том, соответствуют ли данные, например, нормальному закону распределения. Заметим, что проверка гипотезы о нормальности распределения может помочь при дальнейшей обработке выборки если случайную величину достаточно уверенно можно считать нормально распределенной, ток ней применимы все теоремы о нормальных величинах, в частности имеется возможность построить доверительные интервалы для параметров. Нулевая гипотеза Н
— гипотеза, подлежащая проверке. Это гипотеза, имеющая наиболее важное значение в проводимом исследовании. Нулевую гипотезу выдвигают и затем проверяют с помощью статистических критериев с целью выявления оснований для ее отклонения и принятия альтернативной гипотезы. Альтернативная гипотеза Н — каждая допустимая гипотеза, отличная от нулевой. Обычно в качестве альтернативной гипотезы принимают гипотезу вторую по значимости после основной. Предположение, которое касается неизвестного параметра рас
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
76
пределения, когда вид распределения известен (например, закон Гаусса, называется параметрической гипотезой, а предположение, при котором вид распределения неизвестен, называется непараметрической гипотезой. Задача исследователя заключается в том, чтобы на основе анализа опытных данных, полученных по выборке, принять ту или иную гипотезу относительно свойств генеральной совокупности, используя при этом какой-либо способ (критерий) проверки высказанного предположения. Статистический критерий — однозначно определенный способ проверки статистических гипотез. Критерии для проверки параметрических гипотез называются параметрическими, а для проверки непараметрических гипотез — соответственно непараметрическими. Естественно, что прежде чем использовать тот или иной параметрический критерий, экспериментатор должен найти способ убедиться в том, согласуется или нет распределение исследуемой им случайной величины стем или иным теоретическим (например, нормальным) распределением. Критерий согласия — статистический критерий для проверки гипотезы о согласии (равенстве) распределения случайной величины исследуемой совокупности с теоретическим распределением или гипотезы о согласии распределений в двух и более совокупностях. Как и при статистическом оценивании, любой критерий может быть построен только на основе тех результатов наблюдений, которые имеются в распоряжении исследователя, те. путем вычисления той или иной статистики. А как уже раннее было отмечено, любая статистика как некоторая функция случайной величины (функция от результатов наблюдений) также является случайной величиной. Таким образом, статистические гипотезы всегда носят вероятностный характер. Это говорит о том, что, основываясь на той или иной статистике и принимая нулевую гипотезу в качестве рабочей либо отвергая эту гипотезу ив качестве рабочей принимая альтернативную, исследователь может совершить ошибки. Ситуации, возникающие при проверке статистических гипотез, представлены в табл. 3.2.
76
пределения, когда вид распределения известен (например, закон Гаусса, называется параметрической гипотезой, а предположение, при котором вид распределения неизвестен, называется непараметрической гипотезой. Задача исследователя заключается в том, чтобы на основе анализа опытных данных, полученных по выборке, принять ту или иную гипотезу относительно свойств генеральной совокупности, используя при этом какой-либо способ (критерий) проверки высказанного предположения. Статистический критерий — однозначно определенный способ проверки статистических гипотез. Критерии для проверки параметрических гипотез называются параметрическими, а для проверки непараметрических гипотез — соответственно непараметрическими. Естественно, что прежде чем использовать тот или иной параметрический критерий, экспериментатор должен найти способ убедиться в том, согласуется или нет распределение исследуемой им случайной величины стем или иным теоретическим (например, нормальным) распределением. Критерий согласия — статистический критерий для проверки гипотезы о согласии (равенстве) распределения случайной величины исследуемой совокупности с теоретическим распределением или гипотезы о согласии распределений в двух и более совокупностях. Как и при статистическом оценивании, любой критерий может быть построен только на основе тех результатов наблюдений, которые имеются в распоряжении исследователя, те. путем вычисления той или иной статистики. А как уже раннее было отмечено, любая статистика как некоторая функция случайной величины (функция от результатов наблюдений) также является случайной величиной. Таким образом, статистические гипотезы всегда носят вероятностный характер. Это говорит о том, что, основываясь на той или иной статистике и принимая нулевую гипотезу в качестве рабочей либо отвергая эту гипотезу ив качестве рабочей принимая альтернативную, исследователь может совершить ошибки. Ситуации, возникающие при проверке статистических гипотез, представлены в табл. 3.2.
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
77
Т а блица Возможные исходы при проверке статистических гипотез Фактическая ситуация Н — принимается Н — отвергается Н — верна Правильное решение Ошибка первого рода (α) Н — неверна Ошибка второго рода (β) Правильное решение
1. Гипотеза Н
верна, иона не отвергается, те. принятое решение отражает истинное положение и принимается верная гипотеза.
2. Гипотеза Н
верна, но она отвергается, те. в этом случае допущена ошибка первого рода. Ошибка первого рода — ошибка, заключающаяся в том, что отвергают нулевую гипотезу, в то время как в действительности эта гипотеза верна. Вероятность этого события по определению равна уровню значимости α. Уровень значимости α — вероятность ошибки первого рода. Так как уровень значимости задается произвольно, можно снизить вероятность ошибки первого рода до сколь угодно низкого уровня.
3. Гипотеза Н неверна, иона отвергается Опять принятое решение отражает истинное положение и отвергается неверная гипотеза. Гипотеза Н неверна, но она не отвергается. В этом случае допущена ошибка второго рода. Ошибка второго рода — ошибка, заключающаяся в том, что принимают нулевую гипотезу, в то время как в действительности эта гипотеза неверна. Если вероятность ошибки второго рода обозначить как β, то величина 1 – β носит название мощность критерия. Мощность критерия — вероятность того, что если верна альтернативная гипотеза, то нулевая гипотеза будет отвергнута. Значения применяемой для данного критерия статистики, при которых для выбранного уровня значимости отвергается нулевая гипотеза, образуют так называемую критическую область. Критическая область ω — область со следующими свойствами если значения применяемой статистики принадлежат данной области, то отвергают нулевую гипотезу в противном случае ее принимают. Приведенные определения намечают самую простую форму
77
Т а блица Возможные исходы при проверке статистических гипотез Фактическая ситуация Н — принимается Н — отвергается Н — верна Правильное решение Ошибка первого рода (α) Н — неверна Ошибка второго рода (β) Правильное решение
1. Гипотеза Н
верна, иона не отвергается, те. принятое решение отражает истинное положение и принимается верная гипотеза.
2. Гипотеза Н
верна, но она отвергается, те. в этом случае допущена ошибка первого рода. Ошибка первого рода — ошибка, заключающаяся в том, что отвергают нулевую гипотезу, в то время как в действительности эта гипотеза верна. Вероятность этого события по определению равна уровню значимости α. Уровень значимости α — вероятность ошибки первого рода. Так как уровень значимости задается произвольно, можно снизить вероятность ошибки первого рода до сколь угодно низкого уровня.
3. Гипотеза Н неверна, иона отвергается Опять принятое решение отражает истинное положение и отвергается неверная гипотеза. Гипотеза Н неверна, но она не отвергается. В этом случае допущена ошибка второго рода. Ошибка второго рода — ошибка, заключающаяся в том, что принимают нулевую гипотезу, в то время как в действительности эта гипотеза неверна. Если вероятность ошибки второго рода обозначить как β, то величина 1 – β носит название мощность критерия. Мощность критерия — вероятность того, что если верна альтернативная гипотеза, то нулевая гипотеза будет отвергнута. Значения применяемой для данного критерия статистики, при которых для выбранного уровня значимости отвергается нулевая гипотеза, образуют так называемую критическую область. Критическая область ω — область со следующими свойствами если значения применяемой статистики принадлежат данной области, то отвергают нулевую гипотезу в противном случае ее принимают. Приведенные определения намечают самую простую форму
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
78
проверки статистических гипотез. Для того чтобы пояснить сущность этого метода, предположим, что выборочная величина
, представляющая собой несмещенную оценку параметра
0
, имеет плотность распределения f(
). Если гипотеза, состоящая в том, что
=
0
, верна, то функция f(
) должна попадать в среднюю область, как показано на рис. 3.8. Вероятность того, что параметр
не будет превышать нижнего уровня
1-
, составит
.
/
d
f
P
/
/
2 2
1 Вероятность того, что параметр
превысит верхний уровень
, равна
.
/
d
f
P
/
/
2 2
2 Следовательно, вероятность того, что параметр
выйдет за пределы интервала [
1-
;
], составляет
. Теперь примем величину малой, чтобы попадание параметра
за пределы интервала
[
1-
;
] было маловероятно. Если после извлечения выборки и определения величины
окажется, что она выходит за пределы интервала и попадает в критическую область, тов этом случае есть серьезные основания подвергнуть сомнению справедливость проверяемой гипотезы
=
0
. С другой стороны, если параметр попадает в интервал [
1-
;
], тов этом случае нет серьезных оснований подвергать сомнению справедливость проверяемой гипотезы, и гипотезу равенства
=
0 можно принять. Как видно из рис. 3.9 ошибка первого рода допускается, если гипотеза верна, а параметр
попадает в область отклонения гипотезы. Отсюда следует, что вероятность допустить ошибку первого рода равна
, те. уровню значимости критерия. Для того чтобы найти, какова вероятность допустить ошибку второго рода, необходимо задать определенную величину отклонения истинного значения от гипотетического значения параметра, которое требуется определить.
78
проверки статистических гипотез. Для того чтобы пояснить сущность этого метода, предположим, что выборочная величина
, представляющая собой несмещенную оценку параметра
0
, имеет плотность распределения f(
). Если гипотеза, состоящая в том, что
=
0
, верна, то функция f(
) должна попадать в среднюю область, как показано на рис. 3.8. Вероятность того, что параметр
не будет превышать нижнего уровня
1-
, составит
.
/
d
f
P
/
/
2 2
1 Вероятность того, что параметр
превысит верхний уровень
, равна
.
/
d
f
P
/
/
2 2
2 Следовательно, вероятность того, что параметр
выйдет за пределы интервала [
1-
;
], составляет
. Теперь примем величину малой, чтобы попадание параметра
за пределы интервала
[
1-
;
] было маловероятно. Если после извлечения выборки и определения величины
окажется, что она выходит за пределы интервала и попадает в критическую область, тов этом случае есть серьезные основания подвергнуть сомнению справедливость проверяемой гипотезы
=
0
. С другой стороны, если параметр попадает в интервал [
1-
;
], тов этом случае нет серьезных оснований подвергать сомнению справедливость проверяемой гипотезы, и гипотезу равенства
=
0 можно принять. Как видно из рис. 3.9 ошибка первого рода допускается, если гипотеза верна, а параметр
попадает в область отклонения гипотезы. Отсюда следует, что вероятность допустить ошибку первого рода равна
, те. уровню значимости критерия. Для того чтобы найти, какова вероятность допустить ошибку второго рода, необходимо задать определенную величину отклонения истинного значения от гипотетического значения параметра, которое требуется определить.
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
79
Предположим, например, что истинное значение параметра в действительности равно
0
+d или
0
-d, как показано на рис. 3.10. Если, согласно гипотезе,
=
0
, а в действительности
=
0
d, то вероятность того, что
попадает в область принятия гипотезы, те. в интервал [
1-
;
], составляет
. Это означает, что вероятность допустить ошибку второго рода при выявлении отклонения
d от гипотетического значения
равна Очевидно, что при любом заданном объеме выборки вероятность допустить ошибку первого рода можно сократить, уменьшив уровень значимости
. Однако при этом увеличивается вероятность допущения ошибки второго рода (снижается мощность критерия. Таким образом, в большинстве случаев нельзя добиться минимального значения вероятностей
и β одновременно. Поступают обычно следующим образом фиксируют вероятность
ошибки первого рода, а затем добиваются минимума вероятности β ошибки второго рода. За счет чего можно уменьшить β при фиксированном значении
? За счет правильного выбора критической области при заданной альтернативе Н критическую область выбирают таким образом, чтобы значение β (вероятность принять неверную гипотезу) было наименьшим из возможных. Таким образом, задача состоит в построении f(
)
1-
/2 Площадь = Область отклонения Область принятия Область отклонения Площадь = Площадь =
/2
/2
0 Рис. 3.9. Области принятия и отклонения гипотезы при проверке гипотез
79
Предположим, например, что истинное значение параметра в действительности равно
0
+d или
0
-d, как показано на рис. 3.10. Если, согласно гипотезе,
=
0
, а в действительности
=
0
d, то вероятность того, что
попадает в область принятия гипотезы, те. в интервал [
1-
;
], составляет
. Это означает, что вероятность допустить ошибку второго рода при выявлении отклонения
d от гипотетического значения
равна Очевидно, что при любом заданном объеме выборки вероятность допустить ошибку первого рода можно сократить, уменьшив уровень значимости
. Однако при этом увеличивается вероятность допущения ошибки второго рода (снижается мощность критерия. Таким образом, в большинстве случаев нельзя добиться минимального значения вероятностей
и β одновременно. Поступают обычно следующим образом фиксируют вероятность
ошибки первого рода, а затем добиваются минимума вероятности β ошибки второго рода. За счет чего можно уменьшить β при фиксированном значении
? За счет правильного выбора критической области при заданной альтернативе Н критическую область выбирают таким образом, чтобы значение β (вероятность принять неверную гипотезу) было наименьшим из возможных. Таким образом, задача состоит в построении f(
)
1-
/2 Площадь = Область отклонения Область принятия Область отклонения Площадь = Площадь =
/2
/2
0 Рис. 3.9. Области принятия и отклонения гипотезы при проверке гипотез
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
80
наиболее мощного критерия (1- β) при заданном уровне значимости Различают односторонние и двусторонние критические области. Различные варианты областей представлены на рис. 3.11. Если хотят убедиться, что одна случайная величина строго больше или строго меньше другой, то используют одностороннюю критическую область (риса, б. Область принятия Область отклонения кр пр,
80
наиболее мощного критерия (1- β) при заданном уровне значимости Различают односторонние и двусторонние критические области. Различные варианты областей представлены на рис. 3.11. Если хотят убедиться, что одна случайная величина строго больше или строго меньше другой, то используют одностороннюю критическую область (риса, б. Область принятия Область отклонения кр пр,
1 2 3 4 5 6 7 8 9 ... 20