Файл: Металлургия Екатеринбург 2015.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 12.01.2024

Просмотров: 182

Скачиваний: 2

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Рис. 3.11. Критические области плотности распределения а – правосторонняя, б – левосторонняя, в – двусторонняя Область принятия Область отклонения кр лев,



/2
О
б л
ас ть принятия Область отклонения кр
2
/
лев,


кр
2
/
пр,



/2
Область отклонения а б в f(

) f(

) f(

) f(

)

1-

/2 Площадь =
1-



/2

0 Площадь = Площадь Площадь =


0
+d

0
-d Рис. 3.10. Области принятия и отклонения гипотезы, соответствующие ошибке второго рода при проверке гипотезы
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
81
Таким образом, для данного случая Н

=

0
; Н :



0
;
Н
1
(2)



0
Если проверяют как положительные, таки отрицательные расхождения между изучаемыми величинами, то используют двусторонние критические области (рис. 3.11 в Н :

=

0
; Н Подводя итог всему вышесказанному, алгоритм проверки любой статистической гипотезы в самом общем случае заключается в следующем) формулирование нулевой гипотезы Н
2) выбор одной из альтернативных гипотез Н) Н)
, Н
3) поиск критерия, по которому может быть проверена сформулированная нулевая гипотеза Н
4) расчет значения статистики, применяемой для данного критерия) выбор уровня значимости

;
6) построение критической области ω при выбранном уровне значимости

;
7) принятие решения если значение статистики попало в критическую область — нулевая гипотеза отвергается, при этом вероятность ошибки (первого рода) не превышает выбранный уровень значимости в противном случае — нулевая гипотеза принимается. При использовании механизма статистических гипотез следует помнить, что даже в случае принятия нулевой гипотезы в 100

% вывод будет ошибочным в связи со всегда имеющейся вероятностью совершить ошибку первого рода. Причем если значение статистики не попадает в критическую область, то прежде, чем принять нулевую гипотезу, необходимо оценить вероятность ошибки второго рода, те. рассчитать мощности критерия. Если же его величина оказывается
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
82
недостаточной для решения поставленной задачи, требуется увеличение объема опытных данных (однако поскольку при обработке эксперимента исследователи зачастую уже не имеют возможности увеличить объем выборки, то они обычно пропускают данный пункт.
3.4. Отсев грубых погрешностей Часто даже тщательно поставленные эксперименты могут давать неоднородные данные, поскольку в процессе эксперимента могут измениться условия проведения опытов. Если экспериментатор по каким-либо причинам не уловил этих изменений, наблюдения, соответствующие разным уровням факторов, будут принадлежать к разным генеральным совокупностям. Данные, соответствующие изменившимся условиям, называют грубыми погрешностями (ошибками) или резко выделяющимися (аномальными) значениями. Грубые погрешности появляются также при неправильной записи показаний приборов. В литературе приводятся сведения о том, что экспериментальные данные могут содержать 10% аномальных значений. Однако эти 10% могут дать сильное смещение при оценке параметров распределения, особенно для дисперсии, так как ошибки заметно отклоняются от основной группы значений, а на дисперсию особенно сильно влияют крайние члены вариационного ряда (вариационный ряд — результаты наблюдений, расположенные в возрастающей последовательности. В случае отсева грубых погрешностей (ошибок) нулевая гипотеза формулируется следующим образом Н Среди результатов наблюдений (выборочных, опытных данных) нет резко выделяющихся (аномальных) значений. Альтернативной гипотезой может быть
 либо Н Среди результатов наблюдений есть только одна грубая ошибка,
 либо Н Среди результатов наблюдений есть две или более грубых ошибки. В литературе можно встретить большое количество различных критериев для отсева грубых погрешностей наблюдений. Обычно
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
83
экспериментаторы имеют дело с выборками небольшого объема (те. когда генеральная дисперсия

x
2 неизвестна и оценивается по опытным данным через выборочную дисперсию S
x
2
), причем именно в этом случае аномальные данные имеют большой вес. Наиболее распространенными и теоретически обоснованными в этом случае являются критерий Н.В. Смирнова (используется при Ни критерий Диксона (применим как при Н)
, таки при Н)
).
3.4.1. Критерий Н.В. Смирнова Если известно, что есть только одно аномальное значение (альтернативная гипотеза Н, то оно будет крайним членом вариационного ряда. Поэтому проверять выборку на наличие одной грубой ошибки естественно при помощи статистики
x
s
x
x
u
1
_
1


,
(3.39) если сомнение вызывает первый член вариационного ряда
i
i
x
x
min
1

, или
x
n
n
s
x
x
u
_


,
(3.40) если сомнителен максимальный член вариационного ряда Этот критерий впервые был предложен Н.В. Смирновым. Он исследовал распределение статистики составил таблицы процентных точек u
α,n квантили порядка р = 1 – α) для α = 0,1; 0,05;
0,01 при 3 ≤ n ≤ 20 [11]. При выбранном уровне значимости α критическая область для критерия Н.В. Смирнова строится следующим образом u
1
> u
α,n или u n
> u
α,n
,
(3.41) где u
α,n
— это табличные значения (см. [6] или табл. П.
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
84
В случае если выполняется последнее условие (статистика попадает в критическую область, то нулевая гипотеза отклоняется, те. выбросили неслучаен и нехарактерен для рассматриваемой ности данных, а определяется изменившимися условиями или грубыми ошибками при проведении опытов. В этом случае значение
x
1
или x
n исключают из рассмотрения, а найденные ранее оценки подвергаются корректировке с учетом отброшенного результата.
3.4.2. Критерий Диксона В критерии Диксона применяется статистика
 если подозрительная чужеродная точка имеет наибольшее значение,
1
,





j
n
i
n
n
j
i
x
x
x
x
r
,
(3.42)
 если подозрительная чужеродная точка имеет наименьшее значение,
1 1
1
,
x
x
x
x
r
j
n
i
j
i





,
(3.43) где x
n
, x
n-i
, x
j+1
— члены вариационного ряда x
1
x
2
x
3
... ≤ x
i
Диксоном были получены распределения для r
10
, r
11
, r
12
, r
20
, r
21
и
r
22
и построены таблицы для α = 0,1; 0,05; 0,01 и 0,005 при 3 ≤ n ≤ 30
[11]. Статистика
1 1
10
x
x
x
x
r
n
n
n




используется для проверки максимального или минимального члена вариационного ряда (одна грубая ошибка, альтернативная гипотеза Н)
) при 3 ≤ n ≤ 7. Если притом же объеме выборки предполагается наличие двух и более резко выделяющихся значений (альтернативная гипотеза Н, то используется статистика r
20
. Статистики критерия Диксона,
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
85
используемые при других объемах выборки, приведены в табл. 3.3. Таблица Статистики критерия Диксона, используемые при различных объемах выборки n Объем выборки n Число грубых погрешностей одна две и более
3…7 8…10 11…13 14…30
r
10
r
11
r
21
r
22
r
20
r
20
r
21 Критическая область в критерии Диксона выглядит аналогично критерию Н.В. Смирнова и включает значения
r
ij
> (r
ij
)
α,n
,
(3.44) где (r
ij
)
α,n
— табличные значения (см. [11] или табл. П. Рассмотрим небольшой пример. Пример. Пирометром измеряется температура поверхности нагретого тела (например, прокатываемой заготовки, причем будем предполагать, что температура ее видимой поверхности во всех точках одинакова. Было проведено шесть измерений температуры
T Си получены следующие значения 925, 930, 950, 975, 990, 1080
(n = 6, причем, как видно, все значения приведены в возрастающей последовательности, те. в виде вариационного ряда T
1
= 925 ≤ T
2
=
= 930 ≤ T
3
=950... ≤ T
6
= 1080). Можно ли значение T
6
=1080 считать грубой погрешностью, полученной, допустим, в результате неправильной регистрации показаний пирометра Для ответа на поставленный в этом примере вопрос предварительно вычислим оценки параметров распределения исследуемой случайной величины T (предполагая, что она не противоречит нормальному закону распределения выборочное среднее арифметическое и выборочное среднее квадратичное отклонение S
T
:
;
975 6
/
)
1080 990 975 950 930 925
(
1 1










n
i
i
T
n
T
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 990 975 950 930 925
(
6 1
)
1080 990 975 950 930 925
[(
1 6
1
T
n
1
T
1
n
1
S
2 2
2 2
2 2
2 2
n
1
i i
n
1
i
2
i
2
T












































27
,
57 3280 В электронных таблицах Microsoft Excel для этих расчетов можно было бы использовать две статистические функции
СРЗНАЧ (925;930;950;975;990;1080) = 975 и
СТАНДОТКЛОН.В(925;930;950;975;990;1080) = 57,27128. Теперь воспользуемся предложенным выше алгоритмом проверки статистических гипотез.
1. Формулируем нулевую гипотезу Н Среди значений 925; 930;
950; 975; 990; 1080 нет грубых погрешностей.
2. Исходя из условий примера 3.3, выбираем следующую альтернативную гипотезу Н Значение 1080 является (одной) грубой погрешностью.
3. Сформулированная нулевая гипотеза Н может быть проверена по любому из приведенных в этом разделе критериев, те. как по критерию Н.В. Смирнова, таки по критерию Диксона (хотя в литературе могут быть найдены и другие критерии. Для начала остановимся на критерии Н.В. Смирнова.
4. Значение статистики критерия Н.В. Смирнова в примере 3.3 равно (см. (3.40))
83
,
1 27
,
57 975 1080
_
6 6





T
s
T
T
u
5. Уровень значимости α примем равным 0,05.
6. По табл. П при α = 0,05 и n = 6 находим u
0,05;6
= 1,82, и с использованием) строим критическую область ω: u
6
> u
0,05;6
, те. u
6
> 1,82.
7. Принимаем решение поскольку значение статистики (1,83 > 1,82) попало в критическую область — нулевая гипотеза отвергается, ив качестве рабочей принимается альтернативная гипотеза, те. значение 1080 с вероятностью 0,95 (уровень значимости, не пре-
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
87
вышает 0,05) по критерию Н.В. Смирнова можно считать грубой погрешностью. Интересно отметить, что если бы на этапе 5 мы приняли
α = 0,01, по таблицам критерия Н.В. Смирнова u
0,01;6
= 1,94 и подсчитанное значение статистики при этом уровне значимости, то оно не попало бы в критическую область (1,83<1,94). Следовательно, примы не можем отвергнуть нулевую гипотезу, те. по критерию
Н.В. Смирнова с вероятностью 0,99 (надежностью, достоверностью) мы не можем сказать, что значение 1080 является грубой погрешностью. В завершение данного примера рассмотрим, как бы выглядели наши расчеты, если на этапе 3 мы бы остановились на критерии Диксона
4. При n = 6 и альтернативной гипотезе, что имеется только одна грубая погрешность, в критерии Диксона используется статистика (см. табл. 3.3), значение которой в примере 3.2 (см. (3.43)):
581
,
0 925 1080 990 1080 1
6 5
6 1
0 6
1 6
6 10












T
T
T
T
T
T
T
T
r
5. Уровень значимости α примем равным 0,05.
6. По табл. П при α = 0,05 и n = 6 находим (r
10
)
0,05;6
= 0,560, и с использованием (3.44) строим критическую область ω:
r
10
> (r
10
)
0,05;6
, те. r
10
> 0,560.
7. Принимаем решение поскольку значение статистики > 0,560) попало в критическую область — нулевая гипотеза отвергается, ив качестве рабочей принимается альтернативная, те. значение 1080 с вероятностью и по критерию Диксона можно считать грубой погрешностью. Заметим, однако, как и по критерию Н.В. Смирнова, высказать подобное утверждение с вероятностью 0,99 по критерию Диксона мы не имеем права, поскольку по таблицам (r
10
)
0,01;6
= 0,698.
3.5. Сравнение двух рядов наблюдений
При проведении и анализе результатов экспериментальных ис-
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
88
следований часто приходится сравнивать две партии изделий, показания двух или нескольких приборов, анализировать результаты работы однотипных агрегатов, сравнивать результаты исследований двух проб материалов и т.д. Вот некоторые примеры подобных ситуаций
1. Необходимо сравнить показания двух приборов, измеряющих одну и туже величину, когда этими рабочими средствами измерений получено два ряда наблюдений данной величины. Одинакова ли точность измерения одного итого же технологического параметра разными приборами
2. Требуется поверить рабочее средство измерения (те. определить, не выходят ли погрешности его измерений за пределы регламентированных значений) с помощью образцового средства измерения. Равно ли математическое ожидание показаний данного прибора действительному значению измеряемого параметра
3. Два агрегата выпускают одну и туже продукцию. Необходимо сделать вывод о том, какой из них лучше или хуже в каком-либо смысле. Решение подобных задач осуществляется также с использованием аппарата проверки статистических гипотез. Ведь если нам необходимо было бы сравнить две случайные величины X и Y, имеющие нормальное распределение, при известных их математических ожиданиях и дисперсиях M
x
; σ
x
2
и M
y
; σ
y
2
, то вопрос, очевидно, решался бы достаточно просто. Две случайные величины с нормальным распределением равны между собой (имеют одинаковое распределение, те. имеют одну и туже функцию распределения F(X) = F(Y) или плотность распределения f(X) = f(Y)), когда равны между собой их математические ожидания (M
x
= M
y
) и дисперсии (σ
x
2
= σ
y
2
), поскольку только эти два параметра полностью определяют нормальное (двух- параметрическое) распределение (см. (2.12) или (2.21)). Однако, как это уже неоднократно ранее отмечалось, любой из параметров распределения случайной величины

может быть найден лишь по всей генеральной совокупности, те. только теоретически при проведении бесконечно большого количества опытов. Практически, по выборке ограниченного объема, исследователь может определить только приближенное значение параметра — его оценку

*. При этом вероятность того, что оценка

* совпадет со значением оцениваемого параметра

, очень мала. Следовательно, даже если равны
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
89
между собой параметры распределений двух случайных величин
(

x
=

y
), то их оценки скорее всего не будут одинаковыми
(

x
*


y
*). Поэтому при сравнении двух случайных величин обычно приходится высказывать и проверять нулевую гипотезу Н

x
=

y
, при альтернативных гипотезах типа Н

x
<

y или Н

x
>

y
. Н

x


y
3.5.1. Сравнение двух дисперсий При выполнении измерений в различных условиях часто возникает задача сравнения степени разброса (дисперсий) исследуемых параметров (случайных величин. Проверка гипотезы о равенстве дисперсий имеет большое значение, так как измеряемая дисперсией величина рассеяния характеризует такие исключительно важные показатели, как точность машин, приборов, стабильность технологических процессов, качество готовой продукции и т.д. Поэтому, например, о преимуществах той или иной технологии или о качестве выпускаемой продукции вывод можно часто сделать в результате сравнения дисперсий тех параметров, которые их характеризуют. Таким образом, требуется установить, являются ли выборочные дисперсии S
1
2

S
2
2 со степенями свободы m
1 и m
2
значимо отличающимися или же они характеризуют выборки, взятые из одной и той же генеральной совокупности или из генеральных совокупностей с равными дисперсиями (

1 2
=

2 2
=

2
). В этом случае нулевая гипотеза формулируется в виде H
0
:

1 2
=

2 2
=

2
, те. между двумя генеральными дисперсиями различия нет при заданном уровне значимости Для проверки этой гипотезы используется критерий, основанный на распределении Фишера, зависящем только от числа степеней свободы m
1 и m
2
. Аналитическое выражение критерия Фишера имеет вида) Плотность распределения величины F
m1, m2
, представленная на рис. 3.12, есть функция
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
90






















































0.
F
при
0 при m
F
m
1 2
m
Г
2
m
Г
F
m m
2
m Г m
2 1
2 1
1 2
m
2
m
2 1
2 1
2 1
1 б) Рис. 3.12. Плотность (аи функция (б) распределения частный случай при m
1
= 20)
1 2
F
m
1
=20
m
2
=25
m
2
=10 0
1 2
3 4
F(F)
1,0
F f(F)
0
m
2
=

5 а б
0,8 0,6 0,4 0,2 1,0 0,8 0,6 0,4 0,2
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
91
Надо иметь ввиду, что скорость возрастания и убывания функции, а также величина и положение максимума зависят от параметров m
1 и Соответствующая функция распределения величины F
m1, m2 определяется через плотность распределения
 в) Существуют статистические таблицы как с табулированными значениями функции распределения Фишера для принятого уровня значимости, таки с табулированными значениями квантилей этого распределения (см. табл. Пи П. Поскольку по условию нуль–гипотезы

1
2
=

2
2
, то выражение можно представить как отношение выборочных дисперсий
F=S
1 2
/S
2 2
, где S
1 2

S
2 2 Если при проверке нулевой гипотезы H
0
:

1
2
=

2
2
=

2
альтернативной является гипотеза H
1
(1)
:

1
2


2
2
, то применяют одностороннее неравенство
F=S
1 2
/S
2 2

Для альтернативной гипотезы H
1
(2)
:

1
2


2
2
, когда соотношение между генеральными дисперсиями неизвестно, различие между дисперсиями считают значимым, если выполняется условие
F=S
1
2
/S
2
2

F
(

/2),m1,m2
. Таким образом, алгоритм решения задачи сводится к следующему. Пусть по результатам испытаний двух независимых выборок объемом и n
2
из нормально распределенных совокупностей подсчитаны оценки дисперсий S
1
2
и S

2
2
, причем S
1
2
> S
2
2
. Требуется проверить предположение (нулевую гипотезу Но том, что указанные выборки принадлежат генеральным совокупностям с равными дисперсиями
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
92
В соответствии с общим алгоритмом проверки любой статистической гипотезы
1. Н σ
1
2
= σ
2
2
= σ
2 2. Возможно два варианта альтернативной гипотезы Н σ
1
2

σ
2
2
; Н σ
1
2
> Предположить вариант альтернативной гипотезы Н σ
1
2
< σ
2
2
, конечно же, возможно, но вряд ли целесообразно при условии, что S
1
2
> S
2
2.
3. Используется критерий (критерий Фишера) — это отношение двух дисперсий (большей к меньшей, F — статистика поэтому имеет вид
2 2
2 1
S
S
F

,
(3.45) где S
1
2
> Очевидно, что значения F всегда больше единицы.
4. Выбирается уровень значимости

5. Границы критической области можно установить по таблицам квантилей распределения (см. [11] или табл. П, Пав для этого используется функция
1   2   3   4   5   6   7   8   9   ...   20


F.ОБР.ПХ для числа степеней свободы m
1
= n
1
-1 и m
2
= n
2
- 1 и уровня значимости при альтернативной гипотезе Н σ
1
2

σ
2
2 уровень значимсти равен

/2 и критическая область определяется соотношением
2 1
,
),
2
/
(
m
m
F
F


;
 при альтернативной гипотезе Н σ
1
2
> σ
2
2 уровень значимости равен

и критическая область определяется соотношением
2 1
,
,
m
m
F
F


6. Нулевую гипотезу принимают, те. полагают, что σ
1
2
= σ
2
2
= σ
2 при выполнении одного из неравенств (для различных альтернативных гипотез

2 1
,
),
2
/
(
m
m
F
F


приН
1
(1)
σ
1
2

σ
2
2
;

2 при Н σ
1
2
> σ
2
2
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
93
В случае подтверждения нулевой гипотезы, по двум выборочным дисперсиям производят оценку общей генеральной дисперсии

2 2
)
1
(
)
1
(
2 1
2 2
2 2
1 1
2






n
n
S
n
S
n
S
,
(3.46) которая может быть использована для дальнейшего анализа опытных данных. Проиллюстрируем применение критерия Фишера наследующем примере. Пример. Проводятся измерения одной и той же физической величины (температуры, давления, состава газа и т.п.). Первым старым) измерительным прибором выполнено 200 измерений, которые дали выборочную дисперсию S
1 2
= 3,82, а вторым (новым) сделано только 15 измерений при выборочной дисперсии S
2 2
= 2,00. Можно ли считать, что разброс в показаниях нового прибора существенно ниже, чему старого
1. Сформулируем нулевую гипотезу о равенстве дисперсий Н σ
1
2
=σ
2
2
= σ
2 2. Выберем альтернативную ей гипотезу Н σ
1
2
> σ
2
2 3. Воспользуемся критерием Фишера и рассчитаем статистику этого критерия F
= 3,82/2,00 = 1,91.
4. Для уровня значимости

= 0,05 строим критическую область при m
1
= 200 – 1 = 199 и m
2
= 15-1 = 14; F
0,05;199;14
= 2,16 (см или
F.ОБР.ПХ(0,05;199;14) = 2,159361).
5. Подсчитанное значение статистики (F = 1,91) не попадает в критическую область (1,91 < 2,16), следовательно, нулевая гипотеза Н σ
1
2
= σ
2
2
= σ
2
принимается, те. по имеющимся экспериментальным данным нет достаточных оснований считать, что результаты измерений нового прибора точнее, чем старого. Как изменится наш вывод, если мы увеличим число измерений новым прибором допри условии, что выборочная дисперсия его показаний при этом не изменится Табличное значение критерия Фишера при этом равно
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
= 1,49, и значение статистики попадет в критическую область 1,91 > 1,49, следовательно, в качестве рабочей может быть принята альтернативная гипотеза Н σ
1
2
> σ
2
2
, те. результаты измерений новым прибором точнее, чем старым.
3.5.2. Проверка однородности нескольких дисперсий Критерий Фишера используется для сравнения только двух дисперсий, однако на практике приходится сравнивать между собой три и более дисперсий. При сопоставлении дисперсий ряда совокупностей нулевая гипотеза заключается в том, что все k совокупностей, из которых взяты выборки, имеют равные дисперсии.
1. Н σ
1
2
= σ
2
2
= σ
3
2
= … = σ
k
2
=σ
2
, те. проверке подлежит предположение, что все эмпирические дисперсии S
1 2
, S
2 2
, ..., S
k
2
относятся к выборкам из совокупности с одной и той же генеральной дисперсией

2
Пусть среди нескольких серий измерений обнаружена такая, выборочная дисперсия которой S
2
max заметно больше всех остальных. Задача заключается в том, чтобы выяснить, можно ли считать отличие выделенной дисперсии S
2
max существенным. Другими словами, альтернативная гипотеза может быть выбрана как
2. Н σ
2
max
> σ
2 3. При равном объеме n
1
= n
2
= n
3
= … = n
k
= n всех выборок может быть использован так называемый критерий Кохрена (в ряде книг пишется — Кочрена).
4. Статистика критерия Кохрена G рассчитывается как отношение
S
2
max к сумме всех выборочных дисперсий
1 2
max
2



k
i
i
S
S
G
(3.47)
5. В дальнейшем для выбранного уровня значимости

определяется табличное значение этого критерия, которое зависит от числа степеней свободы m = n – 1 и числа сравниваемых дисперсий k – G

;m;k см. [11] или табл. П.
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 6. Критическая область строится как G

G

;m;k
.
7. При G < G

;m;k гипотеза Н σ
1
2
= σ
2
2
= σ
3
2
= … = σ
k
2
=σ
2
принимается в качестве рабочей, те. отличие выделенной дисперсии S
2
max считается несущественным. В случае подтверждения однородности дисперсий можно сделать оценку обобщенной дисперсии σ
2
:
k
S
S
k
i
i



1 2
2
(3.48) Пример. Шестью (k = 6) приборами произведено по семь измерений (n = 7) одного итого же параметра, при этом получены следующие выборочные дисперсии S
i
2
: 3,82; 1,7; 1,3; 0,92; 0,78; 0,81. Можно ли считать, что разброс показаний первого прибора
(S
2
max
=3,82) существенно превышает разбросы показаний остальных пяти приборов
1. Нулевая гипотеза Н σ
1
2
= σ
2
2
= σ
3
2
= σ
4
2
= σ
5
2
= σ
6
2
= σ
2 2. Альтернативная гипотеза Н σ
2
max
> σ
2 3. Поскольку (n
1
= n
2
= n
3
= n
4
= n
5
= n
6
= 7) все шесть выборок имеют одинаковый объем, то может быть использован критерий Кох- рена.
4. Значение статистики данного критерия в соответствии с уравнением) составит
409
,
0 33
,
9 82
,
3 81
,
0 78
,
0 92
,
0 3
,
1 7
,
1 82
,
3 82
,
3








G
5. Табличное значение этого критерия для уровня значимости

= 0,05, при числе степеней свободы для каждой из дисперсий
m = 7–1 = 6 и числе сравниваемых дисперсий k = 6, равно
G
0,05;6;6
=0,418 (табл.П.9).
6. Так как G < G

;m;n
, отклонение дисперсии S
2
max
= 3,82 от остальных нельзя (с вероятностью 0,95) признать существенными, следовательно, все дисперсии однородны (те. разбросы в показаниях всех шести приборов примерно одинаковы.
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
96
Оценка обобщенной дисперсии
56
,
1 6
33
,
9 1
2 Критерий Кохрена можно использовать только в тех случаях, когда все сравниваемые дисперсии имеют одинаковое число степеней свободы m = n –1 (одинаковые объемы выборок n
1
= n
2
= n
3
= … = n
k
=
= n). Если же число измерений n в различных сериях неодинаково, то для проверки однородности дисперсий можно выбрать, например, критерий Бартлета. При необходимости с процедурой его использования можно познакомиться в литературе по теории вероятности и математической статистике (см. например, [9,10]).
3.5.3. Проверка гипотез о числовых значениях математических ожиданий Часто для решения вопроса о соответствии произведенной продукции определенным требованиям (например, требованиям ГОСТ или ТУ) при выявлении преимущества того или иного технологического процесса или нового материала и т.д. возникает необходимость по выборочным средним значениям исследуемых случайных величин делать вывод о соответствующих им генеральных значениях математических ожиданий. При этом может возникнуть задача сравнения неизвестного математического ожидания M
1
, для которого получена оценка через выборочное среднее
1
x
, с конкретным числовым значением M (например, с известным математическим ожиданием) или задача сравнения двух математических ожиданий M
1 и M
2
, оцененным по двум выборочным средними В первом случаев качестве нулевой гипотезы выдвигается предположение о том, что оцененное математическое ожидание равно известному математическому ожиданию M.
1. Н M
1
= M .
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 2. Альтернативная гипотеза может быть в трех вариантах
Н M
1
> M; Н M
1
< M; Н M
1

M.
3. Если генеральная дисперсия σ
2
неизвестна и для нее, по той же самой выборке, что и для
1
x
, сделана оценка S
2
, то используется критерий (распределения Стьюдента).
4. статистика имеет вид
n
S
M
x
t



(3.49)
5. Как и при построении доверительного интервала, для математического ожидания (см. раздел 3.2.1) выбирается уровень значимости. Для числа степеней свободы m = n –1 (с которым сделана оценка дисперсии) устанавливаются границы критической области по табличным значениям квантилей распределения (см, например,
[11] или табл. Пили их можно определить, воспользовавшись статистической функцией СТЬЮДЕНТ.ОБР.2Х из электронных таблиц Microsoft Excel.
7. Нулевую гипотезу принимают, те. полагают, что M
1
= M при выполнении неравенств
 для альтернативных гипотез Ни Н M
1
< M
m
t
t
,
2


;
 для альтернативной гипотезы Н
M
1

M Появление в последних неравенствах величин α и 2α при определении табличных значений критерия Стьюдента связано стем, что обычно эти таблицы (см. табл. П) приводятся для двустороннего распределения Стьюдента, те. под понимается величина, которая прибудет стремиться к квантили нормированного нормального закона распределения порядка 1– α/2 2
/
1
,





p
m
Z
t
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
98
Поэтому, работая с таблицами критерия Стьюдента, неплохо делать проверку, показывающую для какого распределения (одностороннего или двустороннего) они составлены. Так, по табл. П 960
,
1 965
,
1 975
,
0 2
/
05
,
0 1
500
;
05
,
0






p
Z
t
, следовательно, это двусторонние пределы распределения Стьюдента. Аналогичная ситуация связана и с функцией
СТЬЮДЕНТ.ОБР.2Х(вероятность;степени_свободы), где вероятность — это вероятность, соответствующая двустороннему распределению Стьюдента. Пример. При проверке Рh-метра с помощью эталонного раствора, имеющего Р, получены следующие результаты 8,7;
9,2; 9,1; 9,0; 9,4; 9,6; 9,7; 8,9; 8,8; 8,7; 9,8; 9,3; 9,8; 8,8, те. n = 14. Обладает ли Рh-метр систематической погрешностью Для решения этой задачи предварительно рассчитаем выборочное среднее x
и выборочное среднеквадратическое отклонение S в предположении, что показания Рh-метра не противоречат нормальному закону распределения и среди них нет грубых погрешностей см. формулы (3.5), (3.8) и (3.10)):
;
2
,
9
)
8
,
8 1
,
9 2
,
9 7
,
8
(
14 1
14 1
1 14 1
1












i
i
n
i
i
x
x
n
x


















































2 14 1
14 1
2 2
1 1
2 1
2 2
14 1
1 14 1
1 1
1 1
i
i
i
i
n
i
i
n
i
i
n
i
i
x
x
x
x
n
x
n
n
x
x
S


;
1646
,
0 8
,
8 1
,
9 2
,
9 7
,
8 14 1
)
8
,
8 1
,
9 2
,
9 7
,
8
(
1 14 1
2 2
2 2
2















4057
,
0 1646
,
0 В электронных таблицах Microsoft Excel для подобных расчетов
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
99
можно было бы воспользоваться следующими тремя статистическими функциями
СРЗНАЧ(8,7; 9,2; 9,1; 9; 9,4; 9,6; 9,7; 8,9; 8,8; 8,7; 9,8; 9,3; 9,8; 8,8) =
= 9,2;
ДИСП.В(8,7; 9,2; 9,1; 9; 9,4; 9,6; 9,7; 8,9; 8,8; 8,7; 9,8; 9,3; 9,8; 8,8) =
= 0,164615;
СТАНДОТКЛОН.В(8,7; 9,2; 9,1; 9; 9,4; 9,6; 9,7; 8,9; 8,8; 8,7; 9,8; 9,3;
9,8; 8,8) = 0,4057. Далее, в соответствии с описанным выше алгоритмом
1. Выдвигается нулевая гипотеза о том, что математическое ожидание показаний Рh-метра равно Р эталонного раствора (не имеют систематической погрешности) Н M
1
= 9 .
2. Альтернативная гипотеза выбирается в виде Н M
1

9, поскольку показания Рh-метра не должны как завышать, таки занижать истинное значение Р раствора. Так как значение генеральной дисперсии σ
2
показаний Рh-метра неизвестно, а имеется только ее оценка S
2
= 0,1646, то используется критерий (распределения Стьюдента).
4. статистика имеет вид (см. (3.49))
84
,
1 14 4057
,
0 9
2
,
9







n
S
M
x
t
5. Выбирается (обычный для большинства технических приложений) уровень значимости

= 0,05.
6. При этом уровне значимости, числе степеней свободы m = n –1 =
= 13 и для альтернативной гипотезы Н M
1

9 устанавливаются границы критической области по табличным значениям квантилей распределения Стьюдента t
0,05;13
= 2,16 или их можно определить, воспользовавшись функцией
СТЬЮ-
ДЕНТ.ОБР.2Х(0,05;13) = 2,160368 из электронных таблиц
Microsoft Excel.
7. Поскольку рассчитанное значение статистики t = 1,84 не попадает в критическую область (1,84 < 2,16), то нулевая гипотеза принимается в качестве рабочей, те. можно считать, что M
1
= 9 (вероятность того, что показания Рh-метра имеют систематическую погрешность меньше чем 0,05).
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
100
В задаче сравнения двух неизвестных математических ожиданий
M
1 и M
2
прежде всего рассмотрим ситуацию, когда исследуемые выборки, по которым делаются оценки для M
1 и M
2
, независимы между собой. Если для двух нормально распределенных генеральных сово- купностей с неизвестными параметрами M
1
,

1 2
и M
2
,

2 2
получены независимые выборки объемом соответственно n
1
и n
2
, то для сравнения выборочных средних
1
x
и
2
x выдвигается нулевая гипотеза о равенстве математических ожиданий
1. Н M
1
= M
2
.
2. При этом можно сформулировать три альтернативных гипотезы Н M
1
> M
2
;
Н M
1
< M
2
; Н M
1

M
2 3. Как ив рассмотренной выше ситуации сравнения с известным математическим ожиданием, используется критерий.
4. Вид статистики зависит оттого, равны

1 2
=

2 2
=

2
либо неравны между собой генеральные дисперсии (для ответа на этот вопрос можно воспользоваться, например, рассмотренным выше критерием Фишера). В первом случае, когда дисперсии не имеют значимого отличия, статистика принимает вид
2 1
2 1
1 1
n
n
S
x
x
t



(3.50)

двухвыборочный критерий с равными дисперсиями, где
S — обобщенное среднее квадратичное отклонение (см.
(3.46)):
2
)
1
(
)
1
(
2 1
2 2
2 2
1 Во втором случае, когда дисперсии значимо отличаются друг от друга,

1 2


2 2
, статистика имеет вид
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 2
2 2
1 2
1 2
1
n
S
n
S
x
x
t



(3.51)

двухвыборочный критерий с неравными дисперсиями.
5. В зависимости от условия решаемой задачи выбирается необходимый уровень значимости

6. Границы критической области устанавливаются по табличным значениям квантилей распределения (см, например, [11] или табл. П) либо их можно определить, воспользовавшись статистической функцией СТЬЮДЕНТ.ОБР.2Х из электронных таблиц. При этом число степеней свободы m рассчитывается для

1 2
=

2 2
=

2 как m = n
1
+ n
2
– 2;
 для

1 2


2 2


1 1
1 1
2 2
1 2





n
c
n
c
m
, где
2 2
2 1
2 1
1 2
1
n
s
n
s
n
s
c


7. Нулевую гипотезу принимают, те. полагают, что M
1
= при выполнении неравенств
 для альтернативных гипотез Н
M
1
> M
2
; Н M
1
< M
2
m
t
t
,
2


;
 для альтернативной гипотезы Н
M
1

Пример. Проведены испытания механической прочности проб окатышей при использовании старой и двух новых технологий их обжига. Холодная прочность окатышей обычно оценивается при испытании на раздавливание (кН/окатыш). Обычно прочность определяют по результатам раздавливания не менее 20 окатышей размером мм. Для иллюстрации процедуры проверки гипотез о числовых значениях математических ожиданий будем предполагать, что имелась
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
102
возможность исследовать всего по 8 окатышей для каждой из технологий. Результаты испытаний представлены в табл. 3.4. Таблица Результаты испытаний прочности окатышей, изготовленных по разным технологиям, кН/окатыш Номер окатыша Старая технология Новая технология, вариант 1 Новая технология, вариант 2 x
2i
x
Δi
= x
1i
x
2i
1 2,11 2,21 2,21 0
2 2,12 2,26 2,22 0,04 3
1,97 2,19 2,08 0,11 4
2,10 2,21 2,19 0,02 5
2,17 2,27 2,24 0,03 6
2,12 2,24 2,21 0,03 7
1,93 2,14 2,06 0,08 8
2,28 2,32 2,31 0,01
x
2,10 2,23 2,19 0,04
S
2 0,0120 0,003029 0,0068 0,001371 Можно ли по полученным данным сделать вывод, что новая технология по варианту 1 позволяет повысить прочность окатышей
1. Сформулируем нулевую гипотезу Н M
1
= M
0
.
2. Поскольку предполагается, что новая технология по варианту 1 позволит повысить прочность окатышей, то альтернативная гипотеза выбирается в виде Н M
1
> M
0 3. Будем считать, что выборки взяты из генеральных совокупностей с нормальным законом распределения. Для того чтобы определить вариант статистики для критерия, сравним между собой соответствующие дисперсии. Для этого в качестве нулевой гипотезы примем Н

1 2
=

0 2
=

2
. В предположении, что новая технология позволяет также снизить и разброс в значениях прочности (те. иметь и более стабильный технологический процесс, в качестве альтернативной гипотезы примем Н

1 2
<

0 Статистика критерия (критерия Фишера) при этом равна
F = 0,0120/0,003029 = 3,96, и для построения критической области при

= 0,05 находим F
0,05;8-1;8-1
= 3,79 (по таблицам либо в
Microsoft Excel через
1   2   3   4   5   6   7   8   9   10   ...   20

F.ОБР.ПХ(0,05;7;7) = 3,787051). Поскольку
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 3,96 > 3,79, то с вероятностью большей, чем 0,95 можно говорить, что

1 2
<

0 2
4. статистика в этом случае должна иметь вид (см. (3.51))
00
,
3 8
0120
,
0 8
003029
,
0 10
,
2 23
,
2




t
5. Как обычно, выберем уровень значимости

= 0,05.
6. Для построения критической области рассчитаем число степей свободы
20
,
0 8
0120
,
0 8
03029
,
0 8
03029
,
0



c
;


0,096883 1
8 20
,
0 1
1 8
20
,
0 1
2 2






m
;
m = 10,3. Табличное значение t
2*0,05;10
= 1,81
(СТЬЮДЕНТ.ОБР.2Х(0,1;10) = 1,812462).
7. Поскольку рассчитанное ранее значение статистики попадает в критическую область 3,00 > 1,81, то нулевая гипотеза Н M
1
= должна быть отвергнута, те. новая технология по варианту 1 действительно позволяет повысить прочность окатышей. Вероятность ошибки подобного утверждения (ошибки первого рода, заключающейся в том, что отвергают нулевую гипотезу Н
M
1
= M
0
, в то время как в действительности эта гипотеза верна, те. уровень значимости α при этом можно оценить как СТЬЮ-
ДРАСП(3,00;10;1) = 0,006672. При расчете значения функции распределения Стьюдента в данном случае используется найденная в пункте 4 статистика t = 3,00; определенное в пункте 6 число степеней свободы m

10 и такой параметр, как число возвращаемых хвостов распределения. Хвосты = 1, и функция СТЬЮДРАСП возвращает одностороннее распределение, поскольку была принята односторонняя альтернативная гипотеза Н M
1
> Для определения найденного выше значения уровня значимости
α = 0,0067 в электронных таблицах в Microsoft Excel может быть
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
104
использована такая статистическая функция, как
СТЬЮ-
ДЕНТ.ТЕСТ. Она используется для того, чтобы определить, насколько вероятно, что две выборки взяты из генеральных совокуп- ностей, которые имеют одно и тоже математическое ожидание
СТЬЮДЕНТ.ТЕСТ({2,21;2,26;2,19;2,21;2,27;2,24;2,14;2,32};{2,11;
2,12;1,97;2,10;2,17;2,12;1,93;2,28};1;3)=0,006459. В качестве аргументов функции СТЬЮДЕНТ.ТЕСТ, кроме самих выборочных значений (которые стоят в фигурных скобках, используется еще такие два параметра, как Хвосты = 1 (для односторонней альтернативной гипотезы) и Тип — это вид исполняемого теста. В данном случае«Тип» = 3, поскольку необходимо провести двухвыборочный тест с неравными дисперсиями. Полученное в данном случае значение теста говорит о том, что вероятность равенства математического ожидания прочности окатышей по новой вариант) и старой технологии их обжига очень мала (составляет только
0,6%), следовательно, новая технология по варианту 1 действительно является более предпочтительной, чем старая. В продолжение примера 3.7 ответим на вопрос есть или нет ка- кое-либо значимое различие между двумя новыми технологиями обжига (по варианту 1 и 2) сточки зрения повышения механической прочности окатышей
1. В соответствии с общим алгоритмом проверки статистических гипотез сформулируем Н M
1
= M
2
.
2. Поскольку предполагается, что обе новые технологии равнозначны между собой, то альтернативная гипотеза выбирается в виде Н M
1

M
2 3. Для того чтобы определить тип t – теста, сравним между собой дисперсии Н

1 2
=

2 2
=

2
в предположении, что обе новые технологии дают одинаковый разброс в значениях прочности, альтернативная гипотеза выбирается в виде Н

1 2

2 Статистика критерия
Фишера при этом равна
F =
= 0,0068/0,003029 = 2,25 (в числителе критерия Фишера всегда должна стоять большая дисперсия, а поскольку при α = 0,05
F
(0,05/2);8-1;8-1
= 4,99 (см. табл. Пи, то действительно можно считать, что

1 2
=

2 2
=

2
S — обобщенное среднее квадратичное отклонение тогда будет равно (см)
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 07
,
0 2
8 8
0068
,
0
)
1 8
(
003029
,
0
)
1 8
(







S
4. Поскольку дисперсии не имеют значимого отличия, статистика критерия принимает вид (см. (3.50))
14
,
1 8
1 8
1 07
,
0 19
,
2 23
,
2




t
5. Выбираем уровень значимости

= 0,05 и определяем число степеней свободы m = 8 + 8 – 2 = 14.
6. Для построения критической области находим табличное значение (СТЬЮДЕНТ.ОБР.2Х(0,05;14) = 2,144789).
7. Поскольку рассчитанное ранее значение статистики не попадает в критическую область 1,14 < 2,15, то нулевая гипотеза Н M
1
= принимается в качестве рабочей, те. новые технологии как по варианту 1, таки по варианту 2 равнозначны между собой сточки зрения повышения механической прочности окатышей. Вероятность ошибки (первого рода) при этом можно оценить величиной СТЬЮДРАСП(1,14;14;2) = 0,272934, те. если бы мы в подобных ситуациях отвергали нулевую гипотезу, то примерно в 27 случаях из 100 мы поступали неверно. В данном случае Хвосты = 2, и функция СТЬЮДРАСП возвращает двустороннее распределение, поскольку альтернативная гипотеза была принята в виде На не в виде Н M
1
> Для определения найденного нами значения уровня значимости
α = 0,27 в электронных таблицах Microsoft Excel также могла быть использована функция
СТЬЮДЕНТ.ТЕСТ ({2,21;2,26;2,19;2,21;2,27;2,24;2,14;2,32};{2,21;
2,22;2,08;2,19;2,24;2,21;2,06;2,31};2;2)= 0,272934. В данном случае Хвосты = 2 (для двусторонней альтернативной гипотезы) и Тип = 2, поскольку используется двухвыборочный тест с равными дисперсиями. И наконец, в задаче сравнения двух неизвестных математических ожиданий M
1 и M
2
рассмотрим ситуацию, когда исследуемые выборки зависимы между собой.
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
106
t-критерий для зависимых выборок очень полезен в тех довольно часто возникающих на практике ситуациях, когда важный источник внутригрупповой вариации (разброса или ошибки) может быть легко определен и исключен из анализа. Это относится к экспериментам, в которых две сравниваемые группы получены на одной и той же совокупности наблюдений (субъектов, которые тестировались дважды (например, дои после термообработки проката, дои после вакуумирования стали, измерения, производимые на одних и тех же партиях продукции различными методами или различными приборами и т.д.). В подобных экспериментах значительная часть внутригрупповой изменчивости (вариации) в обеих группах может быть объяснена индивидуальными различиями субъектов (различиями в свойствах отдельных прокатанных полос, каждой конкретной плавки или партии продукции. Если та же самая выборка тестируется дважды, то можно легко исключить эту часть вариации. Вместо исследования каждой группы отдельно можно рассматривать просто разности между двумя измерениями для каждого субъекта (например, анализировать одни и те же плавки до вакуумирования и после вакуумирования. Вычитая первые значения из вторых для каждого субъекта прокатанной полосы, плавки или партии продукции) и анализируя затем только эти чистые (парные) разности, появляется возможность исключить ту часть вариации, которая является результатом различия в исходных уровнях индивидуумов. Именно таки проводятся вычисления в критерии для зависимых выборок. В сравнении с критерием для независимых выборок такой подход дает всегда лучший результат (критерий становится более чувствительным. Реализация критерия для зависимых выборок начинается сто- го, что строится новая выборка из n = n
1
= n
2
элементов (парные наблюдения, определяемая как разность значений первой и второй выборок x
Δi
= x
1i
x
2i и по ней рассчитываются оценки математического ожидания

x
и среднеквадратичного отклонения S
Δ
:


1 1
S
;
1 1
2 1















n
i
i
n
i
i
x
x
n
x
n
x
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 1. Выдвигается нулевая гипотеза о том, что математическое ожидание разности равно нулю Н M
Δ
= 0.
2. Как и для случая независимых выборок, можно сформулировать три альтернативных гипотезы
Н M
Δ
> 0; Н M
Δ
< 0; Н M
Δ

0;
3. Используется критерий для зависимых выборок (парный.
4. Статистика критерия Стьюдента, учитывая, что M
Δ
= 0, примет вид (см. (3.49))
0
n
S
x
n
S
x
n
S
M
x
t















(3.52)
5. В зависимости от условия решаемой задачи выбирается необходимый уровень значимости

. Число степеней свободы для зависимых выборок равно m= n – 1.
6. Границы критической области устанавливаются в зависимости от вида альтернативной гипотезы по значениям квантилей распределения Стьюдента t
α; m или t
2α; m
7. Нулевую гипотезу принимают, те. полагают, что M
Δ
= 0 при выполнении неравенств
 для альтернативных гипотез Н
M
Δ
> 0; Н M
Δ
< 0
m
t
t
,
2


;
 для альтернативной гипотезы Н
M
Δ

0 Еще раз обратимся к числовому материалу примера 3.7 и переформулируем условия задачи таким образом, чтобы как по варианту
1, таки по варианту 2 были приведены данные для одной и той же новой технологии, полученные дважды на одних и тех же партиях окатышей, но измерения прочности выполнены по двум различным методикам. Можно ли сказать, что результаты измерения прочности, полученные для новой технологии по различным методикам на одних и тех же партиях окатышей, не имеют значимого различия Поскольку при таких условиях задачи выборки по варианту 1 и 2 становятся зависимыми друг от друга (значения прочности окатышей по каждой из восьми партий произведены дважды, но про разным
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
108
методикам), то для решения необходимо воспользоваться описанным выше парным критерием. Рассчитанные значения x
Δi
,

x
и S
2
Δ
приведены в табл. 3.4 (см. последний столбец.
037
,
0 001371
,
0



S
1. Выдвигаем нулевую гипотезу Н M
Δ
= 0.
2. Поскольку между двумя методиками не предполагается никакого различия, то альтернативную гипотезу выбираем в виде Н
M
Δ

0 3. Используется критерий для зависимых выборок (парный.
4. Статистика критерия Стьюдента в этом случае представляет собой
055
,
3 8
037
,
0 04
,
0







n
S
x
t
5. Выбираем уровень значимости

= 0,05 и определяем число степеней свободы m = 8 – 1 = 7.
6. Для построения критической области находим табличное значение (СТЬЮДЕНТ.ОБР.2Х(0,05;7) = 2,364623).
7. Поскольку рассчитанное ранее значение статистики попадает в критическую область 3,06 > 2,37, то нулевая гипотеза Н M
1
= 0 отвергается, ив качестве рабочей необходимо принять альтернативную Н M
Δ

0, те. методики определения прочности повари- анту 1 и по варианту 2 дают значимо различные результаты на одних и тех же партиях и для одной и той же новой технологии отжига окатышей. Вероятность ошибки первого рода при этом составляет Хвосты, поскольку Н M
1

0) СТЬЮДРАСП(3,055;7;2) = 0,018453, те, отвергая в аналогичных условиях нулевую гипотезу, мы примерно только водном или двух случаях из 100 будем допускать ошибку. Найденная оценка α = 0,018 в электронных таблицах Microsoft
Excel может быть рассчитана с использованием функции
СТЬЮДЕНТ.ТЕСТ. СТЬЮДЕНТ.ТЕСТ({2,21;2,26;2,19;2,21;2,27;
2,24;2,14;2,32};{2,21;2,22;2,08;2,19;2,24;2,21;2,06;2,31};2;1) =
= 0,018452. Последний параметр в этой функции Тип = 1 (парный тест.
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
109
Если сравнить результаты, полученные в примере 3.7 по тесту на двух совершенно одинаковых выборках (вариант 1 и 2) при условии, что эти выборки независимы (двухвыборочный тест с равными дисперсиями) и зависимы (парный тест, то можно увидеть, что они дают совершенно противоположные результаты. Когда на выборки по варианту 1 и 2 мы смотрели как на независимые, мы не видели различия в их математических ожиданиях, но при условии зависимости в математических ожиданиях удалось установить значимые расхождения. Этот числовой материал подтверждает ранее уже высказанное положение о том, что критерий для зависимых выборок является более чувствительным. Поскольку методика парного теста полностью повторяет алгоритм сравнения неизвестного математического ожидания M
1 с конкретным числовым значением M, то статистическая функция СТЬ-
ЮДЕНТ.ТЕСТ в электронных таблицах Microsoft Excel применима и для решения задач о соответствии полученного в эксперименте выборочного среднего
1
x
известному математическому ожиданию. Так, для примера 3.6 (о наличии погрешности в показаниях
Рh-метра)
СТЬЮДЕНТ.ТЕСТ({8,7;9,2;9,1;9;9,4;9,6;9,7;8,9;8,8;8,7;
9,8;9,3;9,8;8,8};{9;9;9;9;9;9;9;9;9;9;9;9;9;9};2;1) = 0,088025, что при найденном в этом примере значении статистики t = 1,84, числе степеней свободы m = 14 – 1 = 13 и альтернативной гипотезе Н M
1

9 Хвосты = 2) соответствует СТЬЮДРАСП(1,84;13;2) = 0,088706. Полученное значение функции СТЬЮДЕНТ.ТЕСТ говорит о том, что вероятность наличия систематической погрешности у Рh-метра может быть оценена величиной 1 – 0,089 = 0,91 (меньшей, чем 0,95, значения которого мы закладывали, выбирая уровень значимости
α = 0,05). В заключение этого раздела еще раз подчеркнем, что все перечисленные выше критерии могут быть использованы только для случайных величин, не противоречащих нормальному закону распределения (закону распределения Гаусса. Так, например, применительно к критерию для зависимых выборок это означает, что попарные разности должны быть нормально распределены. Если это предположение не выполняется (о том, как его можно проверить, смотри следующий раздел, то необходимо воспользоваться одним из альтернативных непараметрических критериев (см. например, [10]).
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ. Критерии согласия. Проверка гипотез о виде функции распределения Рассмотренные ранее методы оценивания параметров распределения случайной величины и критерии для проверки статистических гипотез предполагали, что известна функция распределения (нормальный закон — распределение Гаусса. Однако в большинстве случаев вид закона распределения является гипотетическими сам по себе требует статистического подтверждения. Наиболее простым, но весьма приближенным методом проверки согласия результатов эксперимента стем или иным законом распределения является графический метод. Он заключается в оценке эмпирической функции распределения и сопоставлении ее с функцией предполагаемого теоретического закона. Если построенные экспериментальные точки лежат вблизи теоретического графика, то можно считать, что полученные в опытах данные не противоречат выбранному теоретическому закону распределения. Графический метод является в значительной мере субъективными используется на практике в качестве первого приближения при решении подобных задач. Более объективные методы установления вида распределения случайной величины строятся на аппарате проверки статистических гипотез — критериях согласия. Нулевая гипотеза в данном случае заключается в том, что Н исследуемая генеральная совокупность не противоречит предполагаемому теоретическому закону распределения. При этом альтернативная гипотеза обычно формулируется как Н случайная величина имеет любое другое распределение, отличное от предполагаемого. Разработано достаточно много критериев согласия, отличающихся как своей мощностью, таки объемом опытных данных, необходимых для их использования. Рассмотрим некоторые из них, ив первую очередь остановимся на критериях согласия, которые могут быть использованы при относительно больших объемах выборки. Когда экспериментатор располагает достаточно представительным количеством экспериментальных данных (n > 100), то их предварительная обработка начинается с группировки, которая проводится в следующей последовательности
1. Находят наибольшее (x max
) и наименьшее (x min
) выборочные зна-
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
111
чения случайной величины и вычисляют ее размах R= x max
–x min
2. Размах случайной величины разбивают на k равных интервалов. Количество интервалов k выбирают в зависимости от объема выборки. Например, при n

100 его значение рекомендуется принимать равным k = при n

100 k = 7). Число интервалов k можно определить и по формуле Штюргеса k = 1 + 3,32lg(n) с округлением полученного значения до ближайшей целой величины.
3. Определяют ширину интервала h = R/k, для упрощения расчетов полученные значения округляют в любую сторону, несколько увеличивая или уменьшая при этом размах варьирования R.
4. Устанавливают границы интервалов и подсчитывают число попаданий случайной величины в каждый из выбранных интервалов. Определяют частоту попаданий для каждого интервала как
P
i
= i
m
/n. Результаты подобных вычислений могут быть сведены в таблицу (подобную, например, табл. 3.5). Таблица Построение распределения экспериментальных данных Интервал Число замеров в каждом интервале Частота попадания в интервал P
i
=
m
i
/n x
1

x
2
m
1
m
1
/n x
2

x
3
m
2
m
2
/n x
i

x i+1
m
i
m
i
/n x
k

x k+1
m
k
m
k
/n Проверка
n
m
k
i
i



1 Графической формой представления непрерывной случайной величины является гистограмма (рис. 3.13). Последовательность построения гистограмм следующая
1. Определяется величина ординаты h
i
P
i f

, где P
i
— вероятность появления случайной величины в м интервале.
2. В системе координат f i
= f(x) на ширине интервала h откладывают величины f i
как высоты и строятся прямоугольники.
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
112
Очевидно, что площадь элементарного прямоугольника
n
m
P
h
P
h
f
h
S
i
i
i
i
i






(3.53) равна отношению числа опытов m i
, при которых случайная величина оказалась внутри этого интервала, к общему числу опытов n. Площадь всей гистограммы
1
k
1
i i
P
k
1
i i
S
S







. Следовательно, площадь, ограниченная гистограммой, равна единице.
3. Построение гистограммы интегральной функции распределения осуществляется суммированием вероятностей



k
1
i В дальнейшем осуществляется сравнение экспериментально полученного распределения случайной величины с некоторым видом теоретического распределения. Для этой цели используются различные критерии согласия

2
(хи-квадрат) Пирсона, Колмогорова-
Смирнова и др. f(x) h x
F(x) x
1,0 Рис. 3.13. К построению гистограммы случайной величины
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
113
Критерий Пирсона Рассмотрим методику проверки гипотезы нормального распределения по критерию

2
Пирсона. Этот критерий кроме определения доверительного интервала для дисперсии нередко используется для проверки согласованности распределений, полученных поданным выборки с некоторой теоретической плотностью распределения. В данном случае применение критерия

2
предполагает использование свойств нормированного (стандартного) нормального распределения. Напомним, что уравнение кривой плотности стандартного нормального распределения имеет вид
M
- x
=
z
;
4
,
0 2
1
)
(
x x
2
/
2
/
2 Тогда теоретическая вероятность попадания случайной величины в интервал

z = z i+1
– z i
в случае нормального распределения можно определить по формуле
2 1
)
(
)
(
*
1 2
2
/
1
du
e
z
F
z
F
P
i
i
z
z
u
i
i
i








(3.54) Отличие оценки закона распределения P от теоретического закона распределения P* можно охарактеризовать величиной


,
*
P
P
C
i
i
k
i
i
2 1
2





(3.55) где P
i и P
i
* — оценка и теоретическая вероятность случайной величины для го интервала C
i
— весовые коэффициенты, которые с большим весом учитывают отклонения для меньших P
i
Пирсон выбрал весовые коэффициенты следующим образом
*
P
n
C
i
i

(3.56)
Пирсон показал, что при таком выборе C
i закон распределения
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ слабо зависит от n и P(x), а определяется в основном числом разрядов. Следовательно,






*
*
*
*
*
*
1 2
1 2
1 2
2














k
i
i
i
i
k
i
i
i
i
k
i
i
i
i
P
n
P
n
m
P
P
n
m
n
P
P
P
n

(3.57) Очевидно, что при идеальном соответствии экспериментальных данных нормальному закону распределения экспериментальное значение критерия Пирсона будет равно нулю, т.к. P
i
= P
i
*. В выражении (3.55) стоит сумма квадратов k случайных величин, однако они не являются независимыми, так как на них накладывается некоторое число связей. Одной из таких связей является требование, чтобы площадь под кривой оценки закона распределения равнялась единице
1
k
1
i i
P



Иногда требуют, чтобы среднее значение совпадало с математическим ожиданием M
x
, а выборочная дисперсия с дисперсией

x
2
. Поэтому число степеней свободы чаще всего определяется как
m = k – 2.
(3.58) Теоретическое значение критерия Пирсона

2

;m определяется по справочным данным (см. табл.П.3) или с использованием пакетов прикладных программ при заданном уровне значимости

и числе степеней свободы m (см. функцию ХИ2.ОБР.ПХ(

;m) из электронных таблиц Microsoft Excel). Алгоритм использования критерия Пирсона заключается в следующем. Выдвигаются нуль-гипотеза Н Отличие экспериментальных данных от нормального закона распределения несущественно и альтернативная ей гипотеза Н Отличие экспериментальных данных от нормального закона распределения существенно, те. экспериментальные данные не подчиняются закону нормального распределения.
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 2. По результатам экспериментальных измерений и предположению нормального закона их распределения определяется расчетное значение критерия Пирсона

2 3. Определяют число степеней свободы m, задаются уровнем значимости и определяют теоретическое значение критерия Пир- сона

2

m
4. Если

2
<

2

m,
то нуль-гипотеза Но нормальном законе распределения экспериментальных данных принимается с доверительной вероятностью P = 1 –

. В противном случае нуль-гипотеза отвергается и принимается альтернативная гипотеза Н
1
Отметим важные рекомендации по использованию критерия Если при некотором числе измерений критерий

2


2

;m
, но сомнения в нормальности распределения отсутствуют, то следует, если имеется возможность, увеличить число измерений в несколько рази повторить анализ поэтому же критерию. Число степеней свободы m = k – 2 относится к такому случаю, когда оба параметра нормального закона распределения определяются по результатам измерений, те. когда вместо точных измерений значений M
x и

x применяют их эмпирические значения (оценки) x
и
S
x
. Если же значение M
x точно известно (например, при измерении эталона, то число степеней свободы равно k = n – 1; если известны оба параметра M
x и

x
, то число степеней свободы равно k = n. На практике такая ситуация встречается относительно редко, и поэтому для получения числа степеней свободы не менее пяти желательно брать число интервалов не менее семи (иногда девяти. Критерий Колмогорова-Смирнова Рассмотрим использование критерия Колмогорова-Смирнова для проверки гипотезы нормальности распределения случайных величин. Данная процедура также предполагает построение таблицы распределения экспериментально полученных значений с группировкой данных в определенное число разрядов k. Дополнительно в таблицу необходимо включить следующие колонки колонку с накопительной суммой


i
1
p p
m для каждого го интервала сгруппированных данных, как показано в табл. 3.6.
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
116
Т а блица Процедура вычисления критерия Колмогорова-Смирнова Интервал Число замеров в каждом интервале m
i


i
1
p Теоретическая вероятность i+1
m i


i
1
p p
m
P
i
*
,
i
1
p
*
p
P
n







i
1
p
*
p
P
n i
1
p p
m



… x
k

x k+1
m k


k
1
p p
m
P
k
*
,
k
1
p
*
p
P
n







k
1
p
*
p
P
n k
1
p колонку с накопительной суммой
,
i
1
p
*
p
P
n


где Р — теоретическая вероятность попадания случайной величины в й интервал, значения которой, как уже отмечалось ранее, табулированы и приводятся в статистических справочниках. На основании данных табл. 3.6 вычисляют экспериментальное значение критерия согласия Колмогорова-Смирнова: а) Далее экспериментальное значение критерия Колмогорова-
Смирнова сравнивают с теоретическим D
n;

, которое определяют из статистических таблиц в соответствии с объемом выборки n и требуемым уровнем значимости

(см. табл. П. Если D < D
n;

, то гипотеза о нормальном распределении результатов замеров принимается с вероятностью P = 1 –

Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
117
Критерий согласия Колмогорова-Смирнова для проверки нормальности распределения результатов наблюдений входит в пакет статистической обработки данных STATISTICA, с которым мы познакомимся в главе 7. Рассмотрим использование рассмотренных критериев

2
Пирсона и Колмогорова-Смирнова для оценки нормальности распределения данных наследующем примере. Пример. В табл. 3.7 приведено содержание кремния в чугуне при выплавке передельного чугуна в доменной печи, которое изменяется в пределах от 0,32 до 0,95%. Всего было отобрано 50 проб чугуна. Таблица Содержание кремния в чугуне по результатам отбора 50 проб Номер пробы
1 2
3 4
5 6
7 8
9 10
[Si],%
0,32 0,35 0,45 0,43 0,41 0,51 0,52 0,53 0,57 0,58 Номер пробы
11 12 13 14 15 16 17 18 19 20
[Si],%
0,59 0,56 0,56 0,58 0,54 0,57 0,61 0,62 0,63 0,64 Номер пробы
21 22 23 24 25 26 27 28 29 30
[Si],%
0,65 0,66 0,67 0,68 0,69 0,61 0,65 0,62 0,63 0,67 Номер пробы
31 32 33 34 35 36 37 38 39 40
[Si],%
0,65 0,62 0,68 0,71 0,72 0,78 0,75 0,72 0,79 0,72 Номер пробы
41 42 43 44 45 46 47 48 49 50
[Si],%
0,73 0,72 0,79 0,73 0,84 0,82 0,87 0,90 0,95 0,93 Требуется оценить, подчиняется ли содержание кремния в пробах нормальному закону распределения Если да, определить медиану, моду, среднее, выборочную дисперсию, доверительный интервал для математического ожидания, среднеквадратичное отклонение. Для вычислений воспользуемся статистическими функциями из электронной таблицы Microsoft Excel. Предварительно вычислим с использованием статистических функций СРЗНАЧ, ДИСП и СТАНДОТКЛОН.В среднее значение
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ, выборочную дисперсию S
x
2
и стандартное отклонение S
x
, которые оказались равны соответственно x
=0,65, S
x
2
=0,01853 и S
x
=0,1361. Примем число интервалов равным 7. Тогда величина интервала составит h=(0,95-0,32)/7=0,09=0,1. Результаты группировки исходных данных и вычислений приведены в табл. 3.8. Таблица Процедура вычисления критерия

2
Пирсона поданным примера 3.8 Интервал x
i-1

x i
i m
F(
i x
)
P
i
*
=F(x i
)-F(x i-1
) n P
i
* i
m
- nP
i
*


i nP
2
*
i nP
i m
2
i



0,3

0,4 2
0,033 0,033 1,7 0,3 0,07 0,4

0,5 3
0,135 0,102 5,1
-2,1 0,86 0,5

0,6 11 0,356 0,221 11,1
-0,1 0,00 0,6

0,7 17 0,642 0,286 14,3 2,7 0,51 0,7

0,8 11 0,864 0,222 11,1
-0,1 0,00 0,8

0,9 4
0,967 0,103 5,2
-1,2 0,26 0,9

1,0 2
0,995 0,028 1,4 0,6 0,26 Вычисление F(x i
) проводили с использованием статистической функции НОРМ.РАСП. В частности, для интервала 0,3

0,4 находим
НОРМ.РАСП(0,4; СРЗНАЧ(B4:B53); СТАНДОТКЛОН.В(B4:B53); ИСТИНА. Отметим, что поскольку среди аргументов функции
НОРМ.РАСП есть среднее арифметическое и стандартное отклонение, то для определения соответствующих параметров также воспользуемся встроенными функциями электронных таблиц Microsoft Excel
СРЗНАЧ и СТАНДОТКЛОН.В. В показанном примере полагаем, что данные 50 опытов по содержанию кремния в чугуне расположены на листе электронной таблицы в ячейках от B4 до B53. Аналогично определяли функции распределения для каждого интервала, результаты отражены в табл. 3.8. Таким образом, экспериментальное значение критерия Пирсона
96
,
1 1
2 2




k
i
i


, а теоретическое при уровне значимости

= 0,05 и числе степеней свободы m
1
= 7 – 2 = 5 составляет
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 0,05;5
= 11,07 (ХИ2.ОБР.ПХ(0,05;5) = 11,07048), что значительно больше экспериментального значения. Следовательно, весьма уверенно можно утверждать, что содержание кремния в пробах чугуна подчиняется нормальному закону распределения. Предлагаем читателям самостоятельно оценить доверительный интервал математического ожидания. Здесь можно отметить, что, как показывают расчеты, доверительный интервал с вероятностью 95% равен 0,030. Учитывая близость распределения к нормальному и достаточно большое число экспериментальных точек, можно воспользоваться электронными таблицами Microsoft Excel (функция ДОВЕРИТ, те. действительное среднее содержание кремния в чугуне (математическое ожидание) лежит в интервале от 0,62% до 0,68%. Процедура проверки гипотезы нормального распределения данных из примера с использованием критерия Колмогорова-Смирнова
(D) представлена в табл. 3.9. Таблица Процедура вычисления критерия Колмогорова-Смирнова поданным примера 3.8 Интервал x
i-1

x i
i m


i
1
p p
m
F(x i
)
P
i
*
=F(x i
)
-
-F(x i-1
) n P
i
*


i
1
p
*
p
P
n





i
1
p
*
p
P
n i
1
p p
m
0,3

0,4 2
2 0,033 0,033 1,7 1,7 0,4 0,4

0,5 3
5 0,135 0,102 5,1 6,8 1,8 0,5

0,6 11 16 0,356 0,221 11,1 17,8 1,8 0,6

0,7 17 33 0,642 0,286 14,3 32,1 0,9 0,7

0,8 11 44 0,864 0,222 11,1 43,2 0,8 0,8

0,9 4
48 0,967 0,103 5,2 48,4 0,3 0,9

1,0 2
50 0,995 0,028 1,4 49,8 0,3 На основании результатов этой таблицы определяем максимальное значение из последней колонки и по нему рассчитываем экспериментальное значение критерия D:
036
,
0 50 8
,
1
max
1
*
1








n
P
n
m
D
i
p
p
i
p
p
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
120
Экспериментальное значение критерия сравниваем с теоретическим, взятым из табл. Пс учетом объема выборки n = 50 и уровнем значимости

=0,05. Величина D
50;0,05
>D, поэтому можно сделать тот же вывод, что и ранее гипотеза нормального распределения результатов измерения содержания кремния в чугуне принимается с вероятностью 95%. Расчет экспериментального значения критерия Пирсона и Кол- могорова-Смирнова в пакете Statistica представлен на рис. 3.14 В результате расчетов поданным примера 3.14, проведенных в пакете Statistica получены следующие значения
D = 0,03559;

2
= 1,74212 Рис. 3.14. Результат расчета критериев Пирсона и Колмогорова-Смирнова в пакете Statistica Небольшое отличие в расчетах критерия Пирсона (1,96 и 1,74) можно связать с повышенной точностью расчетов в пакете
Statistica — расчеты выполняются до пятого знака. Пример. В табл. 3.10 приведено содержание оксида железа в шлаке перед раскислением металла при выплавке стали марки 0,8
КП в тонной мартеновской печи, работающей с применением кислорода для интенсификации горения топлива и прямого окисления примесей ванны. Всего отобрано 56 проб шлака.
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 1
17 1
i m
17 1
2
x i
x i
m
2
x
S
;
375
,
17 17 1
i m
17 1
*
i m
i Таблица Исходные данные к примеру 3.9 х i
, %: i
m


l
1
i i
m
10 1
1 12 5
6 13 3
9 14 6
15 15 6
21 16 2
23 17 8
31 18 6
37 19 6
43 20 4
47 22 1
48 23 4
52 24 1
53 25 1
54 26 1
55 30 1
56 31 0
56 Из табл. 3.10 видно, что содержание оксида железа в шлаке колеблется от 10 до 31%. Примем число интервалов равным k = 7. Тогда величина интервала составит h = (31–10)/7 = 3. Результаты группировки исходных данных и вычислений приведены в табл. 3.11.
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
122
Т а блица Процедура вычисления критерия

2
поданным примера 3.9 Интервал x
i-1

x i
i m
F(x i
)
P
i
=F(x i
)
- F(x i-1
) nP
i m
i
-nP
i


m nP
i i

2



i i
i i
m nP
nP
2 2


10

13 6 0,0326 0,137 0,104 5,824 0,176 0,031 0,005 13

16 15 0,366 0,229 12,824 2,176 4,735 0,369 16

19 16 0,658 0,292 16,352 0,352 0,124 0,008 19

22 10 0,876 0,218 12,208 2,208 4,875 0,399 22

25 6
0,972 0,096 5,376 0,624 0,389 0,072 25

28 2
0,996 0,024 1,344 0,656 0,430 0,320 28

31 1
1,000 0,004 0,224 0,776 0,602 2,688 Сумма
56
-
-
-
-
-

=3,861 Расчетное значение критерия Пирсона составило

2
= 3,861. Его следует сравнить с табличным значением

2

;m для 5%-ного уровня значимости, которое при числе степеней свободы, равном m = 5, составляет

2 0,05;5
= 11,07. Таким образом, опытные данные не противоречат гипотезе о том, что содержание FeO в конечном шлаке подчиняется закону нормального распределения. Оцените самостоятельно моду, медиану, доверительный интервал для математического ожидания при вероятностях и 99,7%.
3.7. Преобразование распределений к нормальному Если исследователь, использовав методы, изложенные в предыдущем параграфе, убедился, что гипотеза нормальности распределения не может быть принята, то вполне может быть, что с помощью существующих методов удастся так преобразовать исходные данные, что их распределение будет подчиняться нормальному закону распределения. Для пояснения идеи преобразований рассмотрим качественный пример. Пусть кривая распределения f(x) имеет вид, представленный на риса, те. имеются очень крутая левая ветвь и пологая правая. Такое распределение отличается от нормального. Для выполнения операций преобразования каждое наблюдение
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
123
трансформируется с помощью логарифмического преобразования
).
x lg(
x


При этом левая ветвь кривой распределения сильно растягивается, и распределение принимает приближенно нормальный вид рис. 3.15 б. Рис. 3.15. Преобразование функции f(x) к нормальному распределению Если при преобразовании получаются значения, расположенные между 0 и 1, то все наблюдаемые значения для удобства расчетов и во избежание получения отрицательных параметров необходимо умножить на 10 в соответствующей степени, чтобы все вновь полученные, преобразованные значения были больше единицы, те. необходимо выполнить преобразования
).
a
10
x Асимметричное распределение с одной вершиной приводится к нормальному преобразованием
).
a x
lg(
x



В отдельных случаях можно применять и другие преобразования а) обратная величина б) обратное значение квадратных корней Преобразование обратная величина является наиболее сильным. Среднее положение между логарифмическим преобразованием и обратной величиной занимает преобразование обратное значение квадратных корней. Для нормализации смещенного вправо распределения служат, например, степенные преобразования a
x x


При этом для a прини-
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
124
мают значения а = 1,5 при умеренном и а = 2 при сильно выраженном правом смещении. Рекомендуем читателю придумать такие преобразования, которые удовлетворяли бы исследователя в томили ином случае.
3.8. Контрольные вопросы
1. Какие задачи решают входе предварительной статистической обработки экспериментальных данных
2. Что такое генеральная совокупность и выборка
3. Что такое точечное оценивание? Перечислите точечные оценки основных параметров нормального распределения для непрерывной случайной величины.
4. В чем заключается основная идея оценивания с помощью доверительного интервала С помощью каких распределений происходит построение доверительных интервалов для математического ожидания и дисперсии
5. В чем заключается сущность статистических гипотез Что такое нулевая и альтернативная статистические гипотезы
6. С помощью каких критериев производится отсев грубых погрешностей. Какие задачи возникают при сравнении двух рядов наблюдений экспериментальных данных С помощью каких критериев они решаются
8. Что такое критерий согласия Какова основная идея его использования при проверке гипотез о виде функции распределения
9. В чем заключается алгоритм использования критерия Пирсона для проверки гипотезы нормального распределения экспериментальных данных
10. Какова процедура использования критерия Колмогорова-
Смирнова для проверки гипотезы нормального распределения
Глава
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА
125
1   ...   4   5   6   7   8   9   10   11   ...   20

Глава 4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА. ЭМПИРИЧЕСКИЕ ЗАВИСИМОСТИ
4.1. Характеристика видов связей между рядами наблюдений На практике сама необходимость измерений большинства величин вызывается тем, что они не остаются постоянными, а изменяются в функции от изменения других величин. В этом случае целью проведения эксперимента является установление вида функциональной зависимости
y

= f(X). Для этого должны одновременно определяться как значения X, таки соответствующие им значения
y

, а задачей эксперимента является установление математической модели исследуемой зависимости. Фактически речь идет об установлении связи между двумя рядами наблюдений (измерений. Определение связи включает в себя указание вида модели и определение ее параметров. В теории экспериментов независимые параметры X=(x
1
, ..., x k
) принято называть факторами, а зависимые переменные y — откликами. Координатное пространство с координатами x
1
, x
2
, ..., x i
, ..., x называется факторным пространством. Эксперимент по определению вида функции
),
(x
f
y


(4.1) где x — скаляр, называется однофакторным
. Эксперимент по определению функции вида y

= f(X),
(а) где X = (x
1
, x
2
, ..., x i
, ..., x k
) — вектор — многофакторным. Геометрическим представлением функции отклика в факторном пространстве является поверхность отклика. При однофакторном
Глава
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА
126
эксперименте (k = 1) поверхность отклика представляет собой линию на плоскости, при двухфакторном (k = 2) — поверхность в трехмерном пространстве. Связи в общем случае являются достаточно многообразными и сложными. Обычно выделяют следующие виды связей. Функциональные связи (или зависимости) — это такие связи, когда при изменении величины X другая величина изменяется так, что каждому значению x i
соответствует совершенно определенное однозначное) значение y i риса. Таким образом, если выбрать все условия эксперимента абсолютно одинаковыми, то, повторяя испытания, получим одну и туже зависимость, те. кривые идеально совпадут для всех испытаний. К сожалению, такие условия в реальности не встречаются. На практике не удается поддерживать постоянство условий (например, физико-химические свойства шихты при моделировании процессов тепломассопереноса в металлургических печах. При этом влияние каждого случайного фактора в отдельности может быть мало, однако в совокупности они существенно могут повлиять на результаты эксперимента. В этом случае говорят о стохастической (вероятностной) связи между переменными. Рис. 4.1. Виды связей а – функциональная связь, все точки лежат на линии

б – связь достаточно тесная, точки группируются возле линии регрессии, ноне все они лежат на ней в – связь слабая
Стохастичность связи состоит в том, что одна случайная переменная реагирует на изменение другой X изменением своего закона распределения (см. рис. 4.1 б. Таким образом, зависимая
Глава
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА
127
переменная принимает не одно конкретное значение, а некоторое из множества значений. Повторяя испытания, мы будем получать другие значения функции отклика, и одному и тому же значению X в различных реализациях будут соответствовать различные значения y вин- тервале [x min
; x max
]. Искомая зависимость y

= f(X) может быть найдена лишь в результате совместной обработки полученных значений и y. На рис. 4.1 б — это кривая зависимости, проходящая по центру полосы экспериментальных точек (математическому ожиданию, которые могут и не лежать на искомой кривой y

= f(X), а занимают некоторую полосу вокруг нее. Эти отклонения вызваны погрешностями измерений, неполнотой модели и учитываемых факторов, случайным характером самих исследуемых процессов и другими причинами. Анализ стохастических связей приводит к различным постановкам задач статистического исследования зависимостей, которые упрощенно можно классифицировать следующим образом
1. Задачи корреляционного анализа — задачи исследования наличия взаимосвязей между отдельными группами переменных.
2. Задачи регрессионного анализа — задачи, связанные с установлением аналитических зависимостей между переменными одним или несколькими переменными x
1
, x
2
, ..., x i
, ..., x k
, которые носят количественный характер.
3. Задачи дисперсионного анализа — задачи, в которых переменные имеют качественный характера исследуется и устанавливается степень их влияния на переменное y. Стохастические зависимости характеризуются формой, теснотой связи и численными значениями коэффициентов уравнения регрессии. Форма связи устанавливает вид функциональной зависимости) и характеризуется уравнением регрессии. Если уравнение связи линейное, то имеем линейную многомерную регрессию, в этом случае зависимость y

от X описывается линейной зависимостью в мерном пространстве
,
1 0
j
k
j
j
x
b
b
y





(4.2) где b
0
, ..., b j
, ..., b k
— коэффициенты уравнения. Для пояснения суще-
Глава
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА
128
ства используемых методов ограничимся сначала случаем, когда x — скаляр. В общем случае виды функциональных зависимостей в технике достаточно многообразны показательные
1
b x
0
b y

, логарифмические и т.д. Заметим, что задача выбора вида функциональной зависимости — задача не формализуемая, так как одна и та же кривая на данном участке примерно с одинаковой точностью может быть описана самыми различными аналитическими выражениями. Отсюда следует важный практический вывод. Даже в наш век компьютеров принятие решения о выборе той или иной математической модели остается за исследователем. Только экспериментатор знает, для чего будет в дальнейшем использоваться эта модель, на основе каких понятий будут интерпретироваться ее параметры. Крайне желательно при обработке результатов эксперимента вид функции y

= f(X) выбирать, исходя из условия ее соответствия физической природе изучаемых явлений или имеющимся представлениям об особенностях поведения исследуемой величины. К сожалению, такая возможность не всегда имеется, так как эксперименты чаще всего проводятся для исследования недостаточно или неполно изученных явлений. При изучении зависимости y

= f(x) от одного фактора при заранее неизвестном виде функции отклика для приближенного определения вида уравнения регрессии полезно предварительно построить эмпирическую линию регрессии (рис. 4.2). Для этого весь диапазон изменения x разбивают на равные интервалы. Все точки, попавшие в данный интервал

x j
, относят к его середине j
x
. Для этого подсчитывают частные средние для каждого интервала j
n n
1
i ji y
j Здесь n j
— число точек в интервале

x j
, причем n
*
k
1
j j
n



,
Глава
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА
129
где k* — число интервалов разбиения n — объем выборки. Затем последовательно соединяют точки
)
j y
;
j x
(
отрезками прямой. Полученная ломаная называется эмпирической линией регрессии. По виду эмпирической линии регрессии можно в первом приближении подобрать вид уравнения регрессии y

= f(x). Под теснотой связи понимается степень близости стохастической зависимости к функциональной, те. показатель тесноты группирования экспериментальных данных относительно принятого уравнения модели (см. рис. 4.1 б, в. В дальнейшем уточним это положение.
4.2. Определение коэффициентов уравнения регрессии Будем полагать, что вид уравнения регрессии уже выбран и требуется определить только конкретные численные значения коэффициентов этого уравнения b =
}
k b
,...,
j b
,...,
0
b
{
. Отметим предварительно, что если выбор вида уравнения регрессии, как это уже отмечалось процесс неформальный и не может быть полностью передан компьютеру, то расчет коэффициентов выбранного уравнения регрессии операция достаточно формальная и ее следует решать с использованием компьютера. Это трудный и утомительный расчет, в котором человек не застрахован от ошибок, а компьютер выполнит его значительно быстрее и качественнее. Рис. 4.2.
К построению эмпирической линии регрессии

Глава
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА
130
Существует два основных подхода к нахождению коэффициентов. Выбор того или иного из них определяется целями и задачами, стоящими перед исследователем, точностью полученных результатов, их количеством и т.д. Первый подход — интерполирование Базируется на удовлетворении условию, чтобы функция y

= (X, b) совпадала с экспериментальными значениями в некоторых точках, выбранных в качестве опорных (основных, главных) y В этом случае для определения k + 1 неизвестных значений параметров используется система уравнений f(x i
, b
0
, ..., b j
, ...., b k
) = y i
, 1

i

n.
(4.4) В данном случае число независимых уравнений системы равно числу опорных точек, в пределе — n поставленных опытов. С другой стороны, для определения k + 1 коэффициентов необходимо не менее k + 1 независимых уравнений. Но если число n поставленных опытов и число независимых уравнений равно числу искомых коэффициентов k+1, то решение системы может быть единственно, а следовательно, точно соответствует случайным значениям исходных данных. Таким образом, в предельном случае, когда число коэффициентов уравнения регрессии равно числу экспериментальных точек n = k + 1, все экспериментальные точки будут совпадать сих расчетными значениями.
1 x y
2 Рис. 4.3.
Аппроксимация функции с большими небольшим (2) числом коэффициентов b

i
Глава
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА
131
Следует заметить, что добиваться такого точного совпадения путем значительного увеличения числа коэффициентов уравнения регрессии часто просто неразумно, поскольку экспериментальные результаты получены с большей или меньшей погрешностью, и такая функция может просто не отражать действительного характера изменения исследуемой величины в силу влияния помех (возмущений) рис. 4.3). Таким образом, задача в конечном счете сводится к решению системы k + 1 уравнений с k + 1 неизвестными. Основная сложность такого решения связана с нелинейностью системы, хотя в принципе при использовании компьютера она преодолима. При числе опытов n большем, чем k +1 искомых коэффициентов, число независимых уравнений системы избыточно. Избыточность информации можно использовать по-разному. После определения численных значений k + 1 параметров проверяется качество аппроксимации путем сопоставления значений функции и экспериментальных данных в оставшихся, неиспользованных точках. Если обнаруженные между ними расхождения превышают допустимые по условию точности, то процедуру определения коэффициентов можно повторить, приняв в качестве опорных (основных) другие точки. Таким образом, из этих уравнений в разных комбинациях можно составить несколько систем уравнений, каждая из которых в отдельности даст свое решение. Но между собой они будут несовместимыми. Каждое решение будет соответствовать своим значениям коэффициентов. Если все их построить на графике, то получим целый пучок аппроксимирующих кривых. Это открывает при n > k + 1 совершенно новые возможности.
Во-первых, этот пучок кривых показывает форму и ширину области неопределенности проведенного эксперимента. Во-вторых, может быть произведено усреднение всех найденных кривых и полученная усредненная кривая будет гораздо точнее и достовернее описывать исследуемое явление, так как она в значительной степени освобождена от случайных погрешностей, приводивших к разбросу отдельных экспериментальных точек. Поясним суть этого подхода на примере двух методов.
1. Метод избранных точек (рис. 4.4). На основании анализа
Глава
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА
132
данных выдвигают гипотезу о виде (форме) зависимости f(X). Предположим, что она линейная, те. статистическая связь — это линейная одномерная регрессия x
1
b
0
b y



(4.5) Выбирают две наиболее характерные, по мнению исследователя, точки, через которые и проходит линия регрессии (рис. 4.4). Задача вычисления коэффициентов b
0
ив этом случае тривиальна. Если предполагается, что уравнение регрессии более высокого порядка, то соответственно увеличивают число избранных точек. Недостатки такого подхода очевидны, так как избранные точки выбираются субъективно, а подавляющая часть экспериментального материала не используется для определения параметров (коэффициентов) уравнения регрессии, хотя ее можно использовать в дальнейшем для оценки надежности полученного уравнения.
2. Метод медианных центров Сущность этого метода поясняет рис. 4.5. Обведенное контуром поле точек делят на несколько частей, число которых равно числу определяемых коэффициентов уравнения регрессии. В каждой из этих частей находят медианный центр, те. пересечение вертикали и горизонтали слева и справа, Рис. 4.4. Метод избранных точек


– избранные точки
Глава
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА
133
выше и ниже которых оказывается равное число точек. Затем через эти медианные центры проводят плавную кривую и из решения системы уравнений определяют коэффициенты регрессии b Так, в случае линейной зависимости (4.5) поле делится на две группы. Определяют средние значения
II
y
,
II
x
;
I
y
,
I
x для каждой из группа неизвестные коэффициенты b
0
, b
1
определяют из решения системы уравнений
;
1 0
1 0
II
II
I
I
x
b
b
y
x
b
b
y




(а) Если при выборе вида уравнения регрессии число его коэффициентов окажется больше числа уравнений (имеющихся результатов измерений) k + 1 > n, система (4.4) не будет иметь однозначного решения. В этом случае необходимо либо уменьшить число определяемых коэффициентов k + 1, либо увеличить число опытов n. Второй подход — метод наименьших квадратов. Усреднение несовместимых решений избыточной системы уравнений n > k + 1 может быть преодолено методом наименьших квадратов, который был разработан еще Лежандром и Гауссом. Таким образом, метод наименьших квадратов — это новинка почти летней x y Рис. 4.5. Метод медианных точек

I
x
II
x
I
y
II
y
Глава
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА
134
давности. Сегодня, благодаря возможностям компьютеров, этот метод вступил, по существу, в полосу своего ренессанса. Определение коэффициентов b j
методом наименьших квадратов основано на выполнении требования, чтобы сумма квадратов отклонений экспериментальных точек от соответствующих значений уравнения регрессии была минимальна. Заметим, что, в принципе, можно оперировать и суммой других четных степеней этих отклонений, но тогда вычисления будут сложнее. Однако руководствоваться суммой отклонений нельзя, так как она может оказаться малой при больших отклонениях отрицательного знака. Математическая запись приведенного выше требования имеет вид
,
b min
2
]
i y
)
k b
,...,
j b
,...,
1
b
,
0
b n
1
i
,
i x
(
f
[
)
k b
,...,
j b
,...,
1
b
,
0
b
(
Ф
j





(4.6)
где n — число экспериментальных точек в рассматриваемом интервале изменения аргумента x. Необходимым условием минимума функции Ф j
,...,b k
) является выполнение равенства k
j
0
,
0
j Фили x
(
f
[








(4.7а)
После преобразований получим
0
n
1
i j
b
)
i x
(
f i
y j
b
)
i x
(
f
)
k b
,...,
j b
,...,
1
b
,
0
b n
1
i
,
i Система уравнений (4.8) содержит столько же уравнений, сколько неизвестных коэффициентов b
0
, b
1
,..., b k
входит в уравнение регрессии, и называется в математической статистике системой нормальных уравнений.
Глава
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА
135
Поскольку Ф ≥ 0 при любых b
0
, ..., b k
, величина Ф обязательно должна иметь хотя бы один минимум. Поэтому если система нормальных уравнений имеет единственное решение, оно и является минимумом для этой величины. Расчет регрессионных коэффициентов методом наименьших квадратов можно применять при любых статистических данных, распределенных по любому закону.
4.3. Определение тесноты связи между случайными величинами Определив уравнение теоретической линии регрессии, необходимо дать количественную оценку тесноты связи между двумя рядами наблюдений. Линии регрессии, проведенные на рис. 4.1 б, води- наковы, однако на рис. 4.1 б точки значительно ближе (теснее) расположены к линии регрессии, чем на рис. 4.1 в. При корреляционном анализе предполагается, что факторы и отклики носят случайный характер и подчиняются нормальному закону распределения. Тесноту связи между случайными величинами характеризуют корреляционным отношением

xy
. Остановимся подробнее на физическом смысле данного показателя. Для этого введем новые понятия. Остаточная дисперсия ост характеризует разброс экспериментально наблюдаемых точек относительно линии регрессии и представляет собой показатель ошибки предсказания параметра y по уравнению регрессии (рис. 4.6):
,
)]
,...,
,
,
(
[
1 1
]
[
1 1
2 1
0 1
2 2
ост











n
i
k
i
i
n
i
i
i
y
b
b
b
x
f
y
k
n
y
y
l
n
S

(4.9)
где l=k+1 — число коэффициентов уравнения модели. Общая дисперсия (дисперсия выходного параметра характеризует разброс экспериментально наблюдаемых точек относительно среднего значения y
, те. линии С (см. рис. 4.6):
Глава
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА ,
]
y y
[
1
n
1
S
n
1
i
2
i
2
y





(4.10) где y
n
1
y n
1
i Средний квадрат отклонения линии регрессии от среднего значения линии
C
y

(см. рис. 4.6): n
1
i
2
]
y
)
k b
,...,
1
b
,
0
b
,
i x
(
f
[
1
n
1
n
1
i
2
]
y i
y
[
1
n
1 Рис. 4.6. К определению дисперсий Очевидно, что общая дисперсия S
2
y
(сумма квадратов относительно среднего значения y
) равна остаточной дисперсии ост y
S
(сумме квадратов относительно линии регрессии) плюс средний квадрат отклонения линии регрессии S
y
*
2
(сумма квадратов, обусловленная регрессией. оста) Разброс экспериментально наблюдаемых точек относительно линии регрессии характеризуется безразмерной величиной — выборочным корреляционным отношением, которое определяет долю,
Глава
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА
137
которую привносит величина Х в общую изменчивость случайной величины.
y
y
y
y
y
ост
y
y
ост
y
y
xy
S
S
S
S
S
S
S
S
S
*
2 2
*
2 2
2 2
2
*
1







(4.12) Проанализируем свойства этого показателя.
1. В том случае, когда связь является не стохастической, а функциональной, корреляционное отношение равно 1, так как все точки корреляционного поля оказываются на линии регрессии, остаточная дисперсия равна
0 оста риса. Равенство нулю корреляционного отношения указывает на отсутствие какой-либо тесноты связи между величинами x и y для данного уравнения регрессии, поскольку разброс экспериментальных точек относительно среднего значения и линии регрессии одинаков, те. ост y
S
2
y
S

(рис. 4.7 б. Рис. 4.7. Значения выборочного корреляционного отношения


xy
: а – функциональная связь б – отсутствие связи
3. Чем ближе расположены экспериментальные данные к линии регрессии, тем теснее связь, тем меньше остаточная дисперсия и тем больше корреляционное отношение. Следовательно, корреляционное отношение может изменяться в пределах от 0 до 1.
Глава
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА
138
Квадрат корреляционного отношения
2
*
xy

называется коэффициентом детерминации.
2 2
2
*
2 1
y
ост
y
xy
S
S
R




Коэффициент детерминации R
2 является безразмерной неотрицательной величиной, изменяющейся от 0 до 1 (его часто выражают в процентах. Он показывает долю общей вариации одной переменной, обусловленной изменчивостью другой переменной. Учитывая, что для компьютеров имеются пакеты программ для статистической обработки результатов исследований, рассмотрим методологию этого подхода на примере простейших линейных и одномерных задач (см. уравнение (4.5)). Идеология решения более сложных задач принципиально не отличается. Более того, как мы увидим в дальнейшем, многие нелинейные зависимости можно свести к линейным. Линейная регрессия от одного фактора Уравнение линии регрессии на плоскости в декартовых координатах имеет вид выражения (4.5). Задачу метода наименьших квадратов аналитически можно выразить следующим образом b
,
b min
2
)]
i x
1
b
0
b n
1
i
(
i Ф 0






(4.13) Для решения этой задачи, как известно из математического анализа, необходимо вычислить частные производные функции Ф по коэффициентами приравнять их нулю
0 Ф Ф (4.14)
Глава
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА
139
Система нормальных уравнений (4.8) в этом случае примет вид































b
;
0
)]
(
[
,
nb
;
0
)]
(
[
1 1
2 1
1 0
1 1
0 1
1 1
0 1
1 0
n
i
i
i
n
i
i
n
i
i
n
i
i
i
i
n
i
i
n
i
i
n
i
i
i
y
x
x
b
x
x
x
b
b
y
y
x
b
x
b
b
y
(4.15) Решение этой системы относительно b
0
и b
1 дает
 
 
;
n
1
i
2
n
1
i i
x
2
i x
n n
1
i i
x
)
i y
n
1
i i
x
(
n
1
i
2
i x
n
1
i i
y
0
b























(4.16)
 
,
n
1
i
2
)
x i
x
(
n
1
i
)
y i
y
)(
x i
x
(
n
1
i
2
n
1
i i
x
2
i x
n n
1
i i
y n
1
i i
x n
1
i i
y i
x а) те. для расчета и необходимо определить
 
2
i x
,
i y
i x
,
i y
,
i Коэффициент b
0
(свободный член уравнения регрессии) геометрически представляет собой расстояние от начала координат до точки пересечения линии регрессии с осью ордината коэффициент b
1
характеризует тангенс угла наклона линии регрессии коси. Если же определяют уравнение регрессии в виде
,
2
x
11
b x
1
b
0
b y




Глава
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА
140
то система уравнений для нахождения b
0
, b
1
, b
11
будет иметь следующий вид








































n
i
i
n
i
i
n
i
i
n
i
i
i
n
i
i
n
i
i
n
i
i
n
i
i
i
n
i
i
n
i
i
n
i
i
x
b
x
b
x
b
y
x
x
b
x
b
x
b
y
x
x
b
x
b
n
b
y
1 4
11 1
3 1
1 2
0 1
2 1
3 11 1
2 1
1 0
1 1
2 11 1
1 б) Из уравнений (4.15) и (б) вытекает правило записи любых систем нормальных уравнений необходимо записать столько уравнений в системе, сколько неизвестных коэффициентов содержится вис- комом уравнении, всякий раз суммируя произведения членов исходного уравнения на переменную при искомом коэффициенте. Оценку силы линейной связи осуществляют по выборочному эмпирическому) коэффициенту парной корреляции r xy
. Выборочный коэффициент корреляции может быть вычислен двумя способами.
1. Как частный случай корреляционного отношения для линейного уравнения регрессии.
С учетом того, что
x
b
b
y
1 0


,
,
2
x
S
2 1
b
2
]
x
1
b
0
b i
x n
1
i
1
b
0
b
[
1
n
1 2
*
y
S








(4.17) величина отношения y
S
*
y
S
будет равна
,
y
S
/
x
S
1
b xy r

(4.18) где S
x и S
y
— выборочные средние квадратичные отклонения.
2. Как среднее значение произведения центрированных случайных величин, отнесенное к произведению их среднеквадратичных отклонений Глава

4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА i
y
(
n
1
i
2
)
x i
x
(
n
1
i
)
y i
y
)(
x i
x
(
y
S
x
S
)
1
n
(
n
1
i
)
y i
y
)(
x i
x
(
xy r

















(4.19) Покажем, что две последние формулы эквивалентны. Для этого преобразуем выражение (4.19) к виду y
S
x
S
)
1
n
(
xy r
n
1
i
)
y i
y
)(
x Подставляя последнее выражение в формулу (а, имеем
,
S
/
S
r
)
x
x
(
S
S
)
n
(
r
b
x
y
xy
n
i
i
y
x
xy






1 2
1 1
откуда Как правило, по результатам экспериментов находят S
x
, S
y
, y
,
x и рассчитывают r xy по формуле (4.19), а затем, используя эти величины, определяют коэффициенты уравнения регрессии x
1
b y
=
0
b
;
x
S
/
y
S
xy r
1
b


(4.20) Коэффициент корреляции r xy изменяется в пределах -1

r xy

+1. Положительная корреляция между случайными величинами характеризует такую стохастическую зависимость между величинами, когда с возрастанием одной из них другая в среднем также будет возрастать. При отрицательной корреляции с возрастанием одной случайной величины другая в среднем будет уменьшаться. Чем ближе значение r xy к единице, тем теснее статистическая связь. Для оценки качества подбора линейной функции рассчитывается квадрат коэффициента r

xy
называемый коэффициентом детерминации (Коэффициент детерминации R
2 характеризует долю дисперсии результативного признака y, объясняемую регрессией. Соответству-
Глава
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА
142
ющая величина 1 – R
2
характеризует долю дисперсии у вызванную влиянием остальных неучтенных в модели факторов. Отметим еще раз область применимости выборочного коэффициента корреляции для оценки тесноты связи.
 Коэффициент парной корреляции значений y и x применительно к однофакторной зависимости характеризует тесноту группирования данных лишь относительно прямой (например, линия A на рис. 4.8 a). При более сложной зависимости (рис. 4.8 б) коэффициент корреляции r xy будет оценивать тесноту экспериментальных точек относительно некоторой прямой, обозначенной буквой А, что, естественно, несет мало сведений о тесноте их группирования относительно искомой кривой
).
(x
f
y


 Коэффициент парной выборочной корреляции имеет четкий физический смысл только в случае двумерного нормального распределения параметров, те. когда для каждого значения Х, например х, х, х, существует совокупность нормального распределения у и наоборот, а дисперсия зависимой переменной при изменении значения аргумента остается постоянной (рис. 4.9). Даже при выполнении этих, вообще говоря, достаточно жестких условий, не всякое значение выборочного коэффициента корреляции является достаточным для статистического обоснования выводов о наличии действительно надежной корреляционной связи между фактором и откликом. Рис. 4.8. К понятию коэффициента парной корреляции

Глава
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА
143
Надежность статистических характеристик ослабевает с уменьшением объема выборки (n). Так, при n = 2 через две экспериментальные точки можно провести только одну прямую и зависимость будет функциональной, при этом выборочный коэффициент корреляции равен единице (r xy
= 1). Однако это не означает надежность полученных статистических характеристик в силу весьма и весьма ограниченного объема выборки. Значит, вычислять коэффициент корреляции по результатам двух наблюдений бессмысленно, так как он заведомо будет равен единице, и это будет обусловлено не свойствами переменных и их взаимным отношением, а только числом наблюдений. В связи с этим требуется проверка того, насколько значимо отличается выборочный коэффициент корреляции r xy от его действительного значения r xy
*
. При достаточно большом объеме выборки n

r xy
*
= r xy
. Таким образом, требуется проверка значимости выборочного коэффициента парной корреляции и оценка его доверительного интервала. Для определения значимости r xy сформулируем нуль-гипотезу Н r xy
*
= 0, те. корреляция отсутствует. Для этого рассчитывается экспериментальное значение критерия Стьюдента
2
)
(
1 2
xy
xy
r
n
r
t



(4.21) x y Рис. 4.9. К понятию коэффициента парной корреляции в случае двумерного нормального распределения параметров

x b
b y
1 0


S
yi
=const x
1 x
2 x
3
А
В
С
Глава
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА
144
и сравнивается с теоретическим при числе степеней свободы n-2. Если t

t

;n-2 при заданном уровне значимости

, то нулевая гипотеза отклоняется, а альтернативная гипотеза Но том, что коэффициент корреляции существенен, принимается. Определение доверительного интервала коэффициента корреляции При малых объемах выборки (n < 20) можно рекомендовать построение доверительного интервала для r xy
*
, которое основано на преобразовании Р. Фишера. Он предложил такое нелинейное преобразование величины r xy
, при котором закон распределения этой оценки, вообще говоря, довольно сложный, практически приближается к нормальному. Это преобразование производится по формуле
xy
xy
r
r
Z



1 1
ln
2 1
*
(4.22) Среднеквадратичное отклонение случайной величины z* зависит от числа опытов

,
3 1
*


n
Z
(4.23) а математическое ожидание очень близко к числу, получающемуся после подстановки в формулу (4.22) вместо r xy истинного значения коэффициента корреляции r xy
*
. Эти свойства величины Z* позволяют просто оценить, в каких пределах может находиться истинное значение коэффициента корреляции, если по n опытам получены некоторые значения его выборочного значения (оценки) r xy
. Если граничное значение r xy имеет тот же знак, что и r xy
*, то можно считать в первом приближении, что корреляционная связь между переменными достоверна. Пример. При обработке n = 17 пар данных x и y выборочный коэффициент корреляции составил r xy
= – 0,94, те. величина y связана с x достаточно сильной причинной связью, близкой к функциональной зависимости. Требуется определить значимость и найти доверительный интервал выборочного коэффициента корреляции.
Глава
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА
145
Определение значимости коэффициента r
xy
6
,
10
)
94
,
0
(
1 2
17 94
,
0
)
(
1 2
2 Критерий Стьюдента t
0,05;15
= 2,13
(
1   ...   5   6   7   8   9   10   11   12   ...   20

СТЬЮДЕНТ.ОБР.2Х
(0,05;15) = 2,13145). Поскольку t>t

;n-2
, то коэффициент корреляции существенен. Определение доверительного интервала По формулами) определим величину Z*:
738
,
1 94
,
0 1
94
,
0 1
ln
2 и ее среднеквадратичное отклонение
267
,
0 3
17 Зададимся вероятностью того, что истинное значение Z отличается от вычисленного на основании оценки коэффициента корреляции не более чем на

Z
. Учитывая нормальный закон распределения, имеем при вероятности
90%:

Z
=1,64

S
Z
=1,67

0,267=0,438;
95%:

Z
=1,96

0,267=0,523;
99,7%:

Z
=3,00

0,267=0,801. Таким образом, истинное значение Z лежит в пределах
Z
1

Z

Z
2
, где с вероятностью, например, 90%:
Z
1
= -1,738-0,438= -2,176 и Z
2
= -1,738+0,438= -1,300. Для заданных значений вероятностей значения Z
1 и Z
2 составят
90%: Z
1
= – 2,176, Z
2
= –1,300;
95%: Z
1
= – 2,261, Z
2
= –1,215;
99,7%: Z
1
= – 2,539, Z
2
= –0,937. Этим значениями соответствуют коэффициенты корреляции, полученные из формулы (4.22). Чтобы определить численные
Глава
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА
146
значения коэффициентов корреляции из формулы (4.22), можно воспользоваться инструментом Подбор параметра из электронных таблиц Microsoft Excel (меню «Сервис/Подбор параметра. В результате получим следующее решение
90%: r
1
= -0,97, r
2
= -0,86, тете, те. -0,99

r xy

-0,73. Следовательно, доверительные интервалы подтверждают достаточно сильную причинную связь между анализируемыми параметрами. Таким образом, корреляционный анализ устанавливает связь между исследуемыми случайными переменными и оценивает тесноту этой связи.
4.5. Регрессионный анализ Ниже излагаются основные положения регрессионного анализа, применение которого для обработки результатов наблюдений связано с меньшим числом ограничений, чем при корреляционном анализе. Как и корреляционный анализ, регрессионный анализ включает в себя построение уравнения регрессии, например, методом наименьших квадратов и статистическую оценку результатов. Если в регрессионном анализе расчет коэффициентов ведется теми же методами, например наименьших квадратов, то его теоретические предпосылки требуют других способов статистической оценки результатов. При проведении регрессионного анализа примем следующие допущения
 входной параметр x измеряется с пренебрежимо малой ошибкой. Появление ошибки в определении y объясняется наличием в процессе не выявленных переменных и случайных воздействий, не вошедших в уравнение регрессии
 результаты наблюдений y
1
, y
2
,..., y i
,..., y n
над выходной величиной представляют собой независимые нормально распределенные случайные величины
 при проведении эксперимента с объемом выборки n при условии, что каждый опыт повторен m* раз, выборочные
Глава
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА
147
дисперсии S
1 2
,..., S
i
2
,..., S
n
2
должны быть однородны. При выполнении измерений в различных условиях возникает задача сравнения точности измерений. При этом следует подчеркнуть, что экспериментальные данные можно сравнивать только тогда, когда их дисперсии однородны. Это означает, как уже отмечалось (см. пи п. 3.5.2), принадлежность экспериментальных данных к одной и той же генеральной совокупности. Напомним однородность дисперсий свидетельствует о том, что среди сравниваемых дисперсий нет таких, которые с заданной надежностью превышали бы все остальные, те. была бы большая ошибка. При одинаковом числе параллельных опытов однородность дисперсии, как мы уже показали, можно оценить по критерию Кохрена, а для сравнения двух дисперсий целесообразно воспользоваться критерием Фишера (см. примеры 3.4–3.5). После того как уравнение регрессии найдено, необходимо провести статистический анализ результатов. Этот анализ состоит в следующем проверяется значимость всех коэффициентов и устанавливается адекватность уравнения.
4.5.1. Проверка адекватности модели При моделировании приходится формализовать связи исследуемого явления (процесса, из-за чего возможна потеря некоторой информации об объекте. Иногда некоторые связи не учитываются. В тоже время основное требование к математической модели заключается в ее пригодности для решения поставленной задачи и адекватности процессу. Регрессионную модель называют адекватной, если предсказанные по ней значения у согласуются с результатами наблюдений. Так, построив модель в виде линейного уравнения регрессии, мы хотим, в частности, убедиться, что никакие другие модели не дадут значительного улучшения в описании предсказания значений у. В основе процедуры проверки адекватности модели лежат предположения, что случайные ошибки наблюдений являются независимыми, нормально распределенными случайными величинами с нулевыми средними значениями и одинаковыми дисперсиями.
Глава
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА
148
Сформулируем нуль-гипотезу Н Уравнение регрессии адекватно. Альтернативная гипотеза Н Уравнение регрессии неадекватно. Для проверки этих гипотез принято использовать критерий
Фишера. При этом общую дисперсию (дисперсию выходного параметра)
S
y
2
сравнивают с остаточной дисперсией S
y ост
2
Напомним, что
,
]
[
;
1
]
[
1 ост 2
2
l
n
y
y
S
n
y
y
S
n
i
i
i
y
n
i
i
y











(4.24) где l = k + 1 — число членов аппроксимирующего полинома, а k — число факторов. Так, например, для линейной зависимости (4.5) k = 1, l = 2. В дальнейшем определяется экспериментальное значение критерия ост (4.25) который в данном случае показывает, во сколько раз уравнение регрессии предсказывает результаты опытов лучше, чем среднее
1 Если F > F

;m1;m2
, то уравнение регрессии адекватно. Чем больше значение F превышает F

;m1;m2 для выбранного

и числа степеней свободы m
1
= n – 1, m
2
= n – l, тем эффективнее уравнение регрессии. Рассмотрим также случай, когда в каждой й точке x i
для повышения надежности и достоверности осуществляется не одно, а m* параллельных измерений (примем для простоты, что m* одинаково для
Глава
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА
149
каждого фактора. Тогда число экспериментальных значений величины у составит n

= n

m*. В этом случае оценка адекватности модели производится следующим образом
1) определяется
*
*
1
m
y
y
m
j
ij
i



— среднее из серии параллельных опытов при x = x i
, где y ij
— значение параметра у при x = x i
в м случае
2) рассчитываются значения параметра i
y

по уравнению регрессии при x = x i
;
3) рассчитывается дисперсия адекватности
,
]
[
1 2
2
l
n
y
y
S
n
i
i
i
ад






где n — число значений x i
; l — число членов аппроксимирующего полинома (коэффициентов b i
), для линейной зависимости l = 2;
4) определяется выборочная дисперсия Y при x = x i
:
;
1
*
]
[
*
1 2
2





m
y
y
S
m
j
i
ij
i
5) определяется дисперсия воспроизводимости n
S
S
n
1
i
2
i
2
восп



Число степеней свободы этой дисперсии равно m = n(m*–1);
6) определяется экспериментальное значение критерия Фишера
Глава
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА
150
S
S
F
2
восп
2
ад

7) определяется теоретическое значение этого же критерия F

;m1;m2
, где m
1
= n – l; m
2
= n (m*–1);
8) если F

F

;m1;m2
, то уравнение регрессии адекватно, в противном случае — нет.
4.5.2. Проверка значимости коэффициентов уравнения регрессии Надежность оценок b i
уравнения регрессии можно охарактеризовать их доверительными интервалами

b i
, в которых с заданной вероятностью находится истинное значение этого параметра. Наиболее просто построить доверительные интервалы для параметров линейного уравнения регрессии, те. коэффициентов b
0
и При этом предполагается, что для каждого значения случайной величины имеется распределение со средним значением i
x
1
b
0
b i
y



и дисперсией
2
восп
S
2
y
S
i

Иными словами, делается допущение, что случайная величина Y распределена нормально при каждом значении x i
, а дисперсия
2
y
S
i во всем интервале изменения x постоянна const
2
y
S
i

(см. рис. 4.9). Для линейного уравнения среднеквадратичное отклонение го коэффициента уравнения регрессии i
b
S
можно определить по закону накопления ошибок n
1
j
2
j
S
2
i y
j b
b
S
i













(4.26) При условии, что
2
восп
S
2
yn
S
2
yi
S
2 2
y
S
2 1
y
S






, получим
Глава
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА i
x n
1
i
2
i x
n n
1
i
2
i x
2
восп
S
b
S
0
















(4.27)
2
n
1
i i
x n
1
i
2
i x
n n
2
восп
S
b
S
1















(4.27а)
0
b
S
и
1
b
S
называются соответственно стандартной ошибкой свободного члена и стандартной ошибкой коэффициента регрессии. Проверка значимости коэффициентов выполняется по критерию
Стьюдента. При этом проверяется нуль-гипотеза Н b i
= 0, те. й коэффициент генеральной совокупности при заданном уровне значимости отличен от нуля. Построим доверительный интервал для коэффициентов уравнения регрессии
,
S
t b
i b
l n
;
i





(4.28) где число степеней свободы в критерии Стьюдента определяется по соотношению n-l. Потеря l=k+1 степеней свободы обусловлена тем, что все коэффициенты b i
рассчитываются зависимо друг от друга, что следует из уравнений (4.16) и (4.16 а. Тогда доверительный интервал для

b i
коэффициента уравнения регрессии составит (b i
-

b i
; b i
+

b i
). Чем уже доверительный интервал, тем с большей уверенностью можно говорить о значимости этого коэффициента. Необходимо всегда помнить рабочее правило Если абсолютная величина коэффициента регрессии больше, чем его доверительный интервал, то этот коэффициент значим. Таким образом, если

b i

>

b i

, то b i
коэффициент значим, в противном случае — нет.
Глава
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА
152
Незначимые коэффициенты исключаются из уравнения регрессии, а оставшиеся коэффициенты пересчитываются заново, так как они зависимы ив формулы для их расчета (4.16) и (а) входят разноименные переменные Пример. Проведено измерение теплоемкости оксида углерода) от температуры (см. табл. 4.1). Таблица Экспериментальные данные зависимости теплоемкости от температуры

№ опыта Температура, С Теплоемкость, кДж/(м
3
*К)
1 0
1,298 2
100 1,302 3
200 1,306 4
300 1,315 5
400 1,327 6
500 1,344 7
600 1,357 8
700 1,373 9
800 1,384 10 900 1,398 11 1000 1,411 12 1100 1,424 13 1200 1,436 Получено n = 13 значений при разных температурах. Необходимо получить аналитическую зависимость теплоемкости газа от температуры, используя исходные табличные данные. Провести статистическую оценку полученного регрессионного уравнения получить коэффициент корреляции, определить адекватность модели, проверить значимость коэффициентов уравнения регрессии.
1. Для начала получим уравнение регрессии. Для этого построим в пакете Excel точечную диаграмму и добавим к ней линию тренда линейного вида (рис. 4.10). Пакет Excel строит линию регрессии с помощью метода наименьших квадратов. В результате построена линия тренда и получен коэффициент детерминации R
2
:
Глава
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА = 0,0001*x + 1,2854
R
2
= 0,9877 Рис. 4.10. Точечная диаграмма с линией тренда в пакете Excel

2. Далее построим статистику для линейного уравнения регрессии с помощью функции пакета Excel «ЛИНЕЙН». Необходимо отметить, что данная функция предоставляет коэффициенты уравнения регрессии со значительно большей точностью, чем уравнение, представленное на диаграмме. В результате получены следующие данные b
0
= 1,28543956 b
1
= 0,000123626
S
b0
= 0,00294447
S
b1
= 0,000004164
R
2
= 0,987673831
∆y = 0,00561769
F = 881,4102564 m = 11
S
2
y ост
= 0,000347143
S
2*
y
= 0,027815934 В правильности полученных данных легко убедиться, подсчитав значения дисперсий (остаточную и квадрат отклонения линии регрессии от среднего значения, используя полученные коэффи-
Глава
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА
154
циенты уравнения регрессии. Для расчета коэффициента корреляции используем следующую формулу
2 ост = S
2*
y
/ (S
2*
y
+ S
2
y ост)
R
2
= 0,027815934 / (0,027815934 + 0,000347143) = 0,987673831 3. Рассчитаем доверительный интервал для коэффициентов уравнения регрессии, для этого необходимо получить теоретическое значение Стьюдента (СТЬЮДЕНТ.ОБР.2Х(0,05;11)): t
0,005;11
= 2,20098516 Тогда
∆b
0
= 2,20098516 * 0,00294447 = 0,006480734
∆b
1
= 2,20098516* 0,000004164 = 0,000009165 Поскольку абсолютные значения коэффициентов уравнения регрессии и b
1
= 0,000123626) существенно превышают соответствующие им доверительные интервалы
(∆b
0
= 0,006480734 и ∆b
1
= 0,000009165), то можно сделать вывод, что коэффициенты уравнения регрессии значимы.
4. Для оценки адекватности модели воспользуемся критерием Фи- шера. Необходимо получить теоретическое значение
(F.ОБР.ПХ(0,05;12;11)):
F
0,05;12;11
= 2,787569326 Поскольку экспериментальное значение критерия Фишера значительно превышает теоретическое (881,4102564 > 2,787569326), то уравнение модели можно считать адекватным.
5. Построим уравнение регрессии, используя пакет Statistica: Красным выделены коэффициенты уравнения регрессии, для которых величина ошибки ∆b значительно меньше абсолютного значения, те. значимые коэффициенты, которые нельзя исключать. Получены следующие значения b
0
= 1,285440 b
1
= 0,000124
F = 881,41
Глава
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА = 0,98767383
S
b0
= 0,002944
S
b1
= 0,000004 Полученные результаты в большой степени совпадают с рассчитанными ранее, однако в пакете Excel значения коэффициентов уравнения регрессии получены с большей точностью. Рис. 4.11. Результаты расчета линии регрессии в пакете Statistica

4.6. Линейная множественная регрессия При изучении множественной регрессии не существует графической интерпретации многофакторного пространства. При проведении экспериментов в такой ситуации исследователь записывает показания приборов о состоянии функции отклика y и всех факторов x i
, от которых она зависит. Результат исследований — это матрица наблюдений Глава
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА
156
Здесь n — число опытов k — число факторов x ij
— значение го фактора в м опыте y i
— значение выходного параметра для го опыта. Задача линейной множественной регрессии состоит в построении гиперплоскости в (мерном пространстве, отклонения результатов наблюдений y i
от которой были бы минимальными при использовании метода наименьших квадратов. Или, другими словами, следует определить значения коэффициентов b
0
, ..., b j
, ..., b k
в линейном полиноме
,
k
1
j j
x j
b
0
b минимизирующие выражение Ф 1
1 Процедура определения коэффициентов b
0
, ..., b j
, ..., b k
в принципе не отличается от одномерного случая, рассмотренного ранее, и поэтому здесь не приводится. Для оценки тесноты связи между функцией отклика
y

и несколькими факторами x
1
, x
2
, ..., x j
, ..., x k используют коэффициент множественной корреляции R, который всегда положителен и изменяется в пределах от 0 до 1. Чем больше R, тем качественнее предсказания данной моделью опытных данных сточки зрения близости ее к функциональной. При функциональной линейной зависимости R = 1. Расчеты обычно начинают с вычисления парных коэффициентов корреляции, при этом вычисляются два типа парных коэффициентов корреляции
1) j
yx r
— коэффициенты, определяющие тесноту связи между функцией отклика y

и одним из факторов x j
;
2) u
j x
x r
— коэффициенты, показывающие тесноту связи между одним из факторов x j и фактором x u
(j, u =1

k). Если один из коэффициентов u
j x
x r
окажется равным 1, то это означает, что факторы x j и x u функционально связаны между собой.
Глава
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА
157
Тогда целесообразно один из них исключить из рассмотрения, причем оставляют тот фактору которого коэффициент j
yx больше. После вычисления всех парных коэффициентов корреляции можно построить матрицу коэффициентов корреляции следующего вида
1
r r
r r
r
1
r r
r r
r
1
r r
r r
r
1
r r
r r
r
1
j
2
k
1
k k
j
2
j
1
j j
2 2
1 2
2 1
1 2
1 1
k j
2 1
x x
x x
x x
x x
x x
x x
x x
x x
yx yx yx yx
k
k
k
k
x
x
x
y
x
x
x
y
x
xj
x
y
x
xj
x
y
(4.31) Однако парные коэффициенты корреляции не характеризуют тесноту связи, так как они вычисляются при случайно изменяющихся значениях других факторов. Действительно, при рассмотрении трех и более случайных величин коэффициенты корреляции любой пары из этих случайных величин могут не дать правильного представления о степени связи между всеми случайными величинами. Это объясняется тем, что на закон распределения вероятностей исследуемой пары случайных величин могут оказывать влияние и другие рассматриваемые случайные величины. Это обстоятельство делает необходимым введение показателей стохастической связи между парой случайных величин при условии, что значения других случайных величин зафиксированы. В этом случае говорят о статистическом анализе частных связей. Используя матрицу (4.31), можно вычислить частные коэффициенты корреляции, которые показывают степень влияния одного из факторов x j
на функцию отклика y

при условии, что остальные факторы остаются на постоянном уровне. Формула для вычисления частных коэффициентов корреляции имеет вид
,
jj
D
11
D
j
1
D
x
,...,
x
,...,
x
,
yx r
k j
2 1


(4.32) где D
1j
— определитель матрицы, образованной из матрицы (4.31)
Глава
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА
158
вычеркиванием й строки иго столбца. Определители D
11
и D
jj вычисляют аналогично. Как и парные коэффициенты, частные коэффициенты корреляции изменяются от -1 до +1. Значимость и доверительный интервал для коэффициентов частной корреляции определяются также, как для коэффициентов парной корреляции, только число степеней свободы вычисляют по формуле m = n -k*-2,
(4.33) где k* = k – 1 — порядок частного коэффициента парной корреляции. Для вычисления коэффициента множественной корреляции k
j
2 1
x
,...,
x
,...,
x
,
yx
R
используют матрицу (4.31):
,
11
D
/
D
1
x
,...,
x
,...,
x
,
yx
R
k j
2 1


(4.34) где D — определитель матрицы (4.31). Множественный коэффициент корреляции дает оценку тесноты связи между у и совокупностью всех переменных x
1
, x
2
, ..., x j
, ..., x k Если число опытов n сравнимо с числом коэффициентов l = k + 1, связи оказываются преувеличенными. Поэтому следует исключить систематическую погрешность, физический смысл которой состоит в следующем. Если разность n и l будет уменьшаться, то коэффициент множественной корреляции R будет возрастать и при n – l = 0 окажется равным R = +1, а уравнение регрессии превратится в функциональное уравнение гиперплоскости, которая пройдет через все n экспериментальных точек. Однако ясно, что случайный характер переменных процесса при этом не может измениться. В связи с этим требуется оценка значимости коэффициента множественной корреляции. Значимость коэффициента множественной корреляции проверяется по критерию Стьюдента:
1,
- k
- n
=
m
;
t
S
R
t где
R
S
— среднеквадратичная погрешность коэффициента множественной корреляции, рассчитываемая по выражению
Глава
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА 1
k n
)
2
R
1
(
R
S




(4.35) Значимость R можно проверить также по критерию Фишера k
)
R
1
(
)
1
k n
(
R
F
2 2




(4.36) Если расчетное значение F превышает теоретическое F

;m1;m2
, то гипотезу о равенстве коэффициента множественной корреляции нулю отвергают и связь считают статистически значимой. Теоретическое табличное) значение критерия Фишера определяется для выбранного уровня значимости

и числа степеней свободы m
1
= n-k-1 и m
2
= k . Если коэффициент множественной корреляции оказался неожиданно малым, хотя априорно известно, что между выходом y и входами должна существовать достаточно тесная корреляционная связь, то возможными причинами такого явления могут быть следующие а) ряд существенных факторов не учтен, и следует включить в рассмотрение дополнительно эти существенные входные параметры б) линейное уравнение плохо аппроксимирует в действительности нелинейную зависимость
)
,...,
(
1
k
x
x
f
y


, и следует определить коэффициенты уже нелинейного уравнения регрессии методами регрессионного анализа в) рабочий диапазон рассматриваемых факторов находится в районе экстремума функции отклика — в этом случае следует расширить диапазон изменения входных переменных, а также перейти к нелинейной математической модели объекта.
4.7. Нелинейная регрессия Используя подходы, изложенные ранее, можно построить практически любые формы нелинейной связи. С этой целью в инженерной практике очень часто используют линеаризующие преобразования. В табл. 4.2 приведены часто встречающиеся парные зависимости и линеаризующие преобразования переменных. Качество преобразования результатов проверяют с помощью уравнения '.
x
'
1
b
'
0
b y




Глава
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА
160
Т а блица Функции и линеаризующие преобразования

№ п/п Функция Линеаризующие преобразования Преобразование переменных Выражения для величин b
0
и b
1
y

x

b
0

b
1

1 x
/
1
b
0
b y


y
1/x b
0
b
1 2
)
x
1
b
0
b
/(
1
y


1/y x b
0
b
1 3
)
x
1
b
0
b
/(
x y


x/y x b
0
b
1 4 x
1
b
0
b y

lg(y) x lg(b
0
) lg(b
1
)
5 x
b e
0
b y
1


ln(y) x ln(b
0
) b
1 6
)
x e
1
b
0
b
/(
1
y



1/y e
-x b
0
b
1 7
1
b x
0
b y

lg(y) lg(x) lg(b
0
) b
1 8
)
x lg(
1
b
0
b y


y lg(x) b
0
b
1 9
)
x
1
b
/(
0
b y


1/y x b
1
/b
0 1/b
0 10
)
x
1
b
/(
x
0
b y


1/y
1/x b
1
/b
0 1/b
0 11 x
/
b e
0
b y
1

ln(y)
1/x ln(b
0
) b
1 12 n
x
1
b
0
b y


y x
n После вычисления коэффициентов b
0

итак же как в случае линейной зависимости от одного фактора, выполняют обратные преобразования, те. пои определяют b
0
и b
1
. Аналогичный подход обычно используют и при множественном нелинейном регрессионном анализе.
4.8. Контрольные вопросы
1. В чем заключаются сущность и основные задачи корреляционного, регрессионного и дисперсионного анализа
2. Какие подходы используют при нахождении коэффициентов уравнения регрессии
Глава
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА 3. Сформулируйте исходные положения метода наименьших квадратов.
4. С помощью какого параметра оценивается теснота связи между случайными величинами Поясните физическую суть этого параметра.
5. Как оценивается адекватность статистической модели
6. Что называется частным коэффициентом корреляции
7. Что называется множественным коэффициентом корреляции
8. Какими свойствами обладают коэффициенты корреляции
9. Каким образом производится проверка значимости коэффициентов уравнения регрессии
10. В чем заключается постановка задачи линейной множественной регрессии
Глава ОЦЕНКА ПОГРЕШНОСТЕЙ РЕЗУЛЬТАТОВ НАБЛЮДЕНИЙ
162
1   ...   6   7   8   9   10   11   12   13   ...   20