ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 07.04.2021
Просмотров: 1676
Скачиваний: 36
81
отобрать признаки:
list 1:
P,
list 2:
S.
Нажать ОК в форме
Specify Table
и в форме
Crosstabulation tables.
Шаг 3.
В следующем окне (
Crosstabulation Tables
Results
) необходимо перейти на вкладку OPTIONS и отметить
следующее:
Highlight counts > = 10;
Expected frequencies (ожидаемые или теоретические
частоты);
Pearson & M-L Chi-square.
После выполнения вышеописанных действий нажать на
кнопку Summary (см. рисунок ).
Наблюдаем две таблицы: таблицу частот
Summary
Frequency Table
и
Expected Frequencies
; в верхней части
последней указано значение статистики (8.12) (
Chi-square
),
число степеней свободы
df
и уровень значимости
р
(вероятность в (8.13)). Поскольку значение
р
мало, гипотеза о
независимости речевых и физических дефектов отклоняется.
Установки в форме Crosstabulation Tables
Results
Замечание.
Если бы исходные признаки
Х
,
Y
,... были не
символьными, а числовыми, нужно было бы сначала их
классифицировать: разбить диапазон значений на части, и для
82
каждой ввести свой символ (например,
х
1,
х
2, ...,
y
1,
y
2, ...)
введением дополнительных столбцов и использованием
операции
Recode...
(кнопка
Vars
или
Edit - Variables
).
4. Необходимо проверить гипотезу об однородности
выборок.
Имеются данные о наличии примесей серы в
углеродистой стали, выплавляемой двумя заводами (см. табл.
8.4). Проверим гипотезу о том, что распределения содержания
серы (нежелательный фактор) одинаковы на этих заводах.
Таблица 8.4
Число плавок
Содержание серы, 10
-2
%
0
2
2
4
4
6
6
8
Сумма
Завод 1
Завод 2
82
63
535
429
1173
995
1714
1307
3504
2794
Сумма
145
964
2168
3021
По (8.12) находим:
~
X
2
= 3.39. Число степеней свободы f
= (2-1)
(4-1) = 3; квантиль уровня 0.95
h = Q(
0.95, 3
) =
7.8.
Полученное нами из опыта значение 3.39 лежит в области
допустимых значений, и потому у нас нет оснований считать,
что содержание серы в стали этих заводов имеют различные
распределения.
Шаг 1.
Образуем таблицу
4v
2c
, в которую занесем
данные; столбцы назовем, например, S1
S4 (сера), а строки -
Z1, Z2 (заводы).
Шаг 2
. Теперь необходимо в Меню выбора основных
модулей обработки информации в программном обеспечении
STATISTICA6.0
выбрать Статистика(Statistics)►
Advanced
linear / Nonlinear Models
►
Log - Linear Analysis of frequency
Tables
.
83
Шаг 3.
В появившемся окне необходимо установить
следующие значения:
Input file:
Frequencies w/out coding
variables
(частоты без кодирующих
переменных);
Variables: Select All.
Далее нажать ОК. В следующем открывшемся окне
необходимо установить:
Factor Name: S;
No. of levels:
4;
Factor Name:
Z;
No. of level
s: 2
Далее нажать ОК.
Шаг 4.
В открывшемся окне (
Log - Linear Model
Specification
) перейти на вкладку Advanced и нажать Test all
marginal & partial association models. В полученной таблице
Results of Fitting,
в последней строке столбца
Person Chi-Squ
получаем
Х
2
= 3.59, число степеней свободы
Degrs of Freedom f
= 3, и уровень значимости
Probab. p
= 0.31. Поскольку эта
вероятность не мала, гипотезу об одинаковом распределении
содержания серы в металле на двух заводах можно принять
(вернее, наблюдения этому не противоречат).
5. Проверить 3 гипотезы: о нормальном, равномерном и
показательном распределении выборки из прил. 1 в
соответствии с вашим вариантом.
6. Проверить генератор случайных чисел на основе
сгенерированной выборки по закону, заданному в табл. 8.1.
Сравнить гипотетические и вычисленные характеристики.
Замечание.
Выполнение этого задания отличается от предыдущего
следующим:
84
в окне Fitting Continuous Distribution нужно ввести
значения параметров распределения, а не их оценки и,
возможно, поправить параметры группировки;
приводимый результат для уровня значимости
p
не
соответствует рассматриваемому случаю, так как число
степеней свободы
df
должно быть равным
m-1
; пакет же
указывает с учетом числа оцениваемых параметров.
Нужное значение для
p
можно вычислить в Probability
Calculator.
7. Генерировать три выборки (варианты
n, n+1, n+2
, где
n
– ваш вариант) из табл. 8.1. Провести их группирование на 8-
10 интервалах. Проверить гипотезу об однородности трех
выборок.
Составить отчет по выполненной работе
Отчет
по выполненной работе
должен содержать:
Постановку задачи.
Сохраненные на переносном носителе
информации, созданные в процессе
выполнения лабораторной работы файлы.
Краткое описание критерия
хи-квадрат.
Двумерные гистограммы, диаграммы
рассеивания и таблицы частот.
Для наглядности в процессе выполнения
работы необходимо сделать несколько
Screen Capture, которые в дальнейшем
будут размещены в отчете.
Значения опорных статистик, уровней
значимости и статистические выводы.
Вывод о проделанной работе.
85
9. ЭЛЕМЕНТЫ РЕГРЕССИОННОГО
И ДИСПЕРСИОННОГО АНАЛИЗА
Регрессионный анализ является основным методом
современной
математической
статистики.
Идея
регрессионного анализа заключается в том, что все доступные
нам ресурсы необходимо использовать полно и эффективно,
особенно если это требуется для анализа и обработки
экспериментальных данных.
Родоначальником регрессионного анализа принято
считать К. Гаусса. К. Гаусс (и независимо от него А. Лежандр)
на рубеже XVIII - XIX столетий заложили основы метода
наименьших
квадратов.
Этот
метод
составляет
математическую основу регрессионного анализа. Поводом для
создания
метода
наименьших
квадратов
послужили
потребности астрономии и геодезии. Усилиями ученых многих
стран была развита и теория, которая стала теперь
классической. Примерно 150 лет, до середины XX века, длился
период классического регрессионного анализа. За это время к
алгебраической процедуре метода наименьших квадратов
прибавилось система статистических положений, задающих
математическую модель. Были отработаны методы проверки
статистических гипотез о значимости коэффициентов
уравнения, полученного методом наименьших квадратов.
Сочетание метода наименьших квадратов с указанными
статистическими процедурами и привело к созданию того, что
стало называться регрессионным анализом. Постепенно
расширялись и области приложений. Так, например, Д. И.
Менделеев начал применять регрессию для описания
температурных и иных зависимостей свойств химических
веществ. Однако до конца первой мировой войны метод не
нашел широкого применения. Появлялись лишь отдельные
работы. Следует отметить, что после классических работ К.
Пирсона в самом начале XX века теория была хорошо и
подробно изложена, а практическое приложение не
наблюдалось и резко отставало от теории.