ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 02.06.2024
Просмотров: 48
Скачиваний: 0
МИНИСТЕРСТВО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ
ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ «КУЗБАССКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ»
Кафедра высшей математики
ИНДУКТИВНАЯ СТАТИСТИКА
Методические указания к изучению соответствующего раздела программы курса математики для студентов
всех направлений
Составитель А. В. Бирюков
Утверждены на заседании кафедры Протокол № 1 от 25.08.02
Рекомендованы к печати учебнометодической комиссией специальности 290300 Протокол № 25 от 3.04.03
Электронная копия хранится в библиотеке главного корпуса ГУ КузГТУ
КЕМЕРОВО 2003
1
ВВЕДЕНИЕ
По определению А. Вальда статистика есть совокупность методов, которые дают возможность принимать оптимальные решения в условиях неопределенности. Если дискриптивная статистика ограничивается описанием полных совокупностей, то современная индуктивная или аналитическая статистика исследует только репрезентативную часть совокупности, называемую выборкой. Результат исследования выборки по индукции распространяется на всю генеральную совокупность.
Основными числовыми характеристиками выборки, содержащей N элементов
X1 , X 2 ,..., X N ,
являются выборочное среднее
X = ( X1 +... + X N ) / N
и выборочная дисперсия |
|
|
|
|
||
S 2 = (X1 − |
|
)2 |
+... + (X N − |
|
)2 |
(N −1). |
X |
X |
|||||
|
|
|
|
|
||
|
|
|
|
|
Число N называется объемом выборки, а число (N −1) – числом степеней свободы выборочной дисперсии. Все выборочные характеристики называют статистиками.
Если неизвестный генеральный параметр оценивается соответствующей статистикой с указанием интервала, которому он принадлежит с заданной вероятностью, то этот интервал называется доверительным интервалом, а заданная вероятность – доверительной вероятностью или надежностью утверждения. Разность между единицей и доверительной вероятностью называется уровнем значимости.
При проверке статистических гипотез возможны два ошибочных решения – отклонить верную гипотезу и принять неверную гипотезу. Вероятность первой ошибки равна уровню значимости.
Критерии, которые служат для проверки гипотез и не предполагают известным закон распределения случайной величины, называются непараметрическими. Непараметрическая статистика обладает тем преимуществом, что требует сравнительно простых вычислений. Поэтому ее методы называют «быстрыми».
2
1. ПРОВЕРКА ГИПОТЕЗ
При проверке гипотез будем предполагать уровень значимости равным 0,05. В этом случае надежность выводов составляет 95%.
2.1. Однородность выборки
Выборка называется однородной, если она не содержит ошибочных элементов. Ошибочный элемент может быть либо самый большой,
либо самый малый. Обозначим сомнительный элемент через X 0 . Тогда вопрос об его ошибочности решает статистика
C = X 0 − X S ,
где X – выборочное среднее, S – стандарт (корень квадратный из выборочной дисперсии).
Сомнительный элемент отбрасывается как ошибочный, если вычисленное значение статистики превосходит критическое. В табл.1 приведены критические значения статистики в зависимости от объема выборки N .
N |
|
|
|
|
|
Таблица 1 |
4 |
6 |
8 |
10 |
12 |
14 |
|
C |
1,7 |
2,0 |
2,2 |
2,3 |
2,4 |
2,5 |
N |
16 |
18 |
20 |
22 |
24 |
26 |
C |
2,5 |
2,6 |
2,6 |
2,7 |
2,7 |
2,7 |
2.2. Нормальность выборки
Выборка называется нормальной, если она извлечена из нормально распределенной генеральной совокупности. Проверка выборки на нормальность состоит в вычислении статистики
C = R S ,
где R – размах выборки, равный разности между наибольшим и наименьшим элементами.
Если вычисленное значение статистики принадлежит критическому интервалу
A < C < B ,
3
то выборку можно считать нормальной.
В табл. 2 приведены границы критического интервала в зависимости от объема выборки N .
N |
A |
|
N |
A |
Таблица 2 |
B |
B |
||||
7 |
2,4 |
3,2 |
40 |
3,7 |
5,2 |
8 |
2,5 |
3,4 |
50 |
3,8 |
5,4 |
9 |
2,6 |
3,6 |
60 |
4,0 |
5,5 |
10 |
2,7 |
3,7 |
80 |
4,2 |
5,7 |
16 |
3,0 |
4,2 |
100 |
4,3 |
5,9 |
20 |
3,2 |
4,5 |
200 |
4,8 |
6,4 |
30 |
3,5 |
4,9 |
500 |
5,4 |
6,9 |
2.3. Сравнение дисперсий
Для двух произвольных выборок с одинаковыми объемами N и
размахами R1 , R2 ( R1 > R2 ) статистика, принадлежащая Пиллаи, имеет вид
C = R1 R 2 .
Если значение статистики не превосходит критическое (табл. 3), то дисперсии выборок отличаются друг от друга незначимо (т.е. случайно).
N |
|
|
|
|
Таблица 3 |
6 |
7 |
8 |
9 |
10 |
|
C |
2,3 |
2,1 |
2,0 |
1,9 |
1,8 |
Для двух нормальных выборок с дисперсиями S12 , S22 (S12 > S22 ) можно применить более мощный критерий Фишера со статистикой
C = S 12 S 22 .
Если это отношение дисперсий больше критического, то различие между дисперсиями значимо (неслучайно). В табл. 4 приведены критические значения для случая, когда выборки имеют одинаковый объем
N .
Таблица 4
N −1 |
10 |
15 |
20 |
30 |
40 |
C |
3,0 |
2,4 |
2,1 |
1,8 |
1,7 |
4
Если имеется M нормальных выборок одинакового объема N , то сравнение их дисперсий можно провести по критерию Хартли со статистикой
C = max S 2 min S 2 , |
равной отношению наибольшей дисперсии к наименьшей. Если это отношение превосходит критическое значение (табл. 5), то дисперсии от-
личаются значимо. |
|
|
|
|
Таблица 5 |
M , N |
|
|
|
|
|
10 |
15 |
20 |
30 |
60 |
|
3 |
4,8 |
3,5 |
3,0 |
2,4 |
1,8 |
4 |
5,7 |
4,0 |
3,3 |
2,6 |
2,0 |
5 |
6,3 |
4,4 |
3,5 |
2,8 |
2,0 |
6 |
6,9 |
4,7 |
3,8 |
2,9 |
2,1 |
7 |
7,4 |
5,0 |
3,9 |
3,0 |
2,2 |
8 |
7,9 |
5,2 |
4,1 |
3,1 |
2,2 |
9 |
8,3 |
5,4 |
4,2 |
3,2 |
2,3 |
10 |
8,7 |
5,6 |
4,4 |
3,3 |
2,3 |
2.4. Сравнение средних
Для двух произвольных выборок с одинаковыми объемами N ,
выборочными средними X1 , X 2 и размахами R1 , R2 вопрос о сравнении средних решает статистика Лорда
C = 2 X1 − X 2 (R1 + R2 ).
Если найденное значение статистики превосходит критическое (табл. 6), то различие между средним значимо.
N |
|
|
|
|
|
Таблица 6 |
3 |
4 |
5 |
6 |
7 |
8 |
|
C |
1,27 |
0,83 |
0,61 |
0,50 |
0,43 |
0,37 |
N |
9 |
10 |
11 |
12 |
13 |
14 |
C |
0,33 |
0,30 |
0,28 |
0,26 |
0,24 |
0,23 |
N |
15 |
16 |
17 |
18 |
19 |
20 |
C |
0,22 |
0,21 |
0,20 |
0,19 |
0,18 |
0,17 |
Для M выборок одинакового объема со средними
X1 > X 2 > ... > X M
5
имеет статистику Диксона
C = X1 − X 2 X1 − X M .
Если значение статистики превосходит критическое (табл. 7), то наибольшее среднее значимо отличается от остальных. Аналогичным образом решается вопрос относительно наименьшего среднего, когда
X1 < X 2 <... < X M
|
|
|
|
|
Таблица 7 |
M |
3 |
4 |
5 |
6 |
7 |
C |
0,94 |
0,76 |
0,64 |
0,56 |
0,51 |
2.5. Сравнение выборок
Для двух выборок одинакового объема N проверяется гипотеза: обе выборки извлечены из одной и той же генеральной совокупности. Вопрос решает критерий Вилкоксона.
Обе выборки объединяем в одну совокупность и располагаем элементы по возрастанию, помечая (например, штрихом) элементы одной из выборок. В объединенной совокупности элементы нумеруем в порядке возрастания. Номер элемента называется его рангом. Одинаковым по величине элементам присваиваем средний в их группе ранг.
Далее подсчитываем суммы рангов элементов каждой выборки и находим величины
|
|
C |
1 |
= N 2 |
+ 0,5N(N +1)− D |
, |
|
||
|
|
|
|
|
|
1 |
|
||
|
|
C2 |
= N 2 +0,5N(N +1)− D2 . |
|
|||||
Искомая статистика равна наименьшему из чисел C1 ,C2 |
т.е. |
||||||||
|
|
|
|
C = min |
(C 1 , C 2 |
). |
|
|
|
Если найденное значение статистики больше критического (табл. |
|||||||||
8), то сформулированная гипотеза верна. |
|
|
Таблица 8 |
||||||
N |
|
|
|
|
|
|
|
|
|
5 |
6 |
|
7 |
8 |
9 |
10 |
11 |
12 |
|
C |
4 |
7 |
|
11 |
15 |
21 |
27 |
34 |
42 |
N |
13 |
14 |
|
15 |
16 |
17 |
18 |
19 |
20 |
C |
51 |
61 |
|
72 |
83 |
96 |
109 |
123 |
138 |