ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 07.04.2021

Просмотров: 1676

Скачиваний: 36

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
background image

 

81 

отобрать  признаки:

 

list  1:

  P, 

list  2: 

S. 

Нажать  ОК  в  форме

 

Specify Table 

и в форме

 Crosstabulation tables.

 

Шаг  3. 

В  следующем  окне  (

Crosstabulation  Tables 

Results

) необходимо перейти на вкладку OPTIONS и отметить 

следующее: 

 

Highlight counts > = 10; 

 

Expected  frequencies  (ожидаемые  или  теоретические 
частоты); 

 

Pearson & M-L Chi-square.

 

После выполнения вышеописанных действий нажать на 

кнопку Summary (см. рисунок ).  

Наблюдаем  две  таблицы:  таблицу  частот 

Summary 

Frequency  Table 

и

  Expected  Frequencies

;  в  верхней  части 

последней  указано  значение  статистики  (8.12)  (

Chi-square

), 

число  степеней  свободы 

df

  и  уровень  значимости 

р

 

(вероятность в (8.13)). Поскольку значение 

р

  мало,  гипотеза о 

независимости речевых и физических дефектов отклоняется.  

 

Установки в форме Crosstabulation Tables

 

Results 

Замечание.

  

Если  бы  исходные  признаки 

Х

Y

,...  были  не 

символьными,  а  числовыми,  нужно  было  бы  сначала  их 
классифицировать: разбить диапазон значений на части, и для 


background image

 

82 

каждой  ввести  свой  символ  (например, 

х

1, 

х

2,  ..., 

y

1, 

y

2,  ...) 

введением  дополнительных  столбцов  и  использованием 
операции 

Recode...

 (кнопка 

Vars

 или 

Edit - Variables

). 

 

4.  Необходимо  проверить  гипотезу  об  однородности 

выборок. 

Имеются  данные  о  наличии  примесей  серы  в 

углеродистой  стали,  выплавляемой  двумя  заводами  (см.  табл. 
8.4). Проверим гипотезу о том, что распределения содержания 
серы (нежелательный фактор) одинаковы на этих заводах. 

Таблица 8.4 

Число плавок 

 

Содержание серы, 10

-2

 % 

 

0

2

4

6

Сумма 

Завод 1 
Завод 2 

82 

63 

535 

429 

1173 

995 

1714 

1307 

3504 

2794 

Сумма 

145 

964 

2168 

3021 

 

По (8.12) находим: 

~

X

2

 = 3.39. Число степеней свободы f 

=  (2-1)

(4-1)  =  3;  квантиль  уровня  0.95 

h  =  Q(

0.95,  3

)  = 

7.8. 

Полученное  нами  из  опыта  значение  3.39  лежит  в  области 
допустимых значений, и потому у нас нет оснований считать, 
что  содержание  серы  в  стали  этих  заводов  имеют  различные 
распределения. 

Шаг  1.

  Образуем  таблицу 

4v 

  2c

,  в  которую  занесем 

данные; столбцы назовем, например, S1 

 S4 (сера), а строки - 

Z1, Z2 (заводы).  

Шаг  2

.  Теперь  необходимо  в  Меню  выбора  основных 

модулей  обработки  информации  в  программном  обеспечении 

STATISTICA6.0 

выбрать  Статистика(Statistics)►

Advanced 

linear  /  Nonlinear  Models

Log  -  Linear  Analysis  of  frequency 

Tables

 


background image

 

83 

Шаг  3.

  В  появившемся  окне  необходимо  установить 

следующие значения: 

 

Input  file:

 

Frequencies  w/out  coding 

variables

 

(частоты  без  кодирующих 

переменных); 

 

Variables: Select All.

 

Далее  нажать  ОК.  В  следующем  открывшемся  окне 
необходимо установить: 

 

Factor Name: S;

 

 

No. of levels:

 4; 

 

Factor Name:

 Z; 

 

No. of level

s: 2  

Далее нажать ОК. 

Шаг  4.

  В  открывшемся  окне  (

Log  -  Linear  Model

 

Specification

)  перейти  на  вкладку  Advanced  и  нажать  Test  all 

marginal  &  partial  association  models.  В  полученной  таблице 

Results  of  Fitting,

  в  последней  строке  столбца 

Person  Chi-Squ

 

получаем 

Х

2

 = 3.59, число степеней свободы 

Degrs of Freedom f

 

=  3,  и  уровень  значимости 

Probab.  p

  =  0.31.  Поскольку  эта 

вероятность  не  мала,  гипотезу  об  одинаковом  распределении 
содержания  серы  в  металле  на  двух  заводах  можно  принять 
(вернее, наблюдения этому не противоречат). 

 
5.  Проверить  3  гипотезы:  о  нормальном,  равномерном  и  

показательном  распределении  выборки  из  прил.  1  в 
соответствии с вашим вариантом. 

6.  Проверить  генератор  случайных  чисел  на  основе 

сгенерированной  выборки  по  закону,  заданному  в  табл.  8.1. 
Сравнить гипотетические и вычисленные характеристики. 

Замечание.

  

Выполнение  этого  задания  отличается  от  предыдущего 

следующим: 


background image

 

84 

 

в  окне  Fitting  Continuous  Distribution  нужно  ввести 
значения  параметров  распределения,  а  не  их оценки и, 
возможно, поправить параметры группировки;  

 

приводимый  результат  для  уровня  значимости 

p

  не 

соответствует рассматриваемому  случаю, так как число 
степеней свободы 

df

 должно быть равным 

m-1

; пакет же 

указывает  с  учетом  числа  оцениваемых  параметров. 
Нужное  значение  для 

p

  можно  вычислить  в  Probability 

Calculator. 

 

7. Генерировать три выборки (варианты 

n,  n+1, n+2

, где 

n

 – ваш вариант) из табл. 8.1. Провести их группирование на 8-

10  интервалах.  Проверить  гипотезу  об  однородности  трех 
выборок. 

Составить отчет по выполненной работе 

 

Отчет 

по выполненной работе

 должен содержать: 

 

Постановку задачи. 

 

Сохраненные на переносном носителе 
информации, созданные в процессе 
выполнения лабораторной работы файлы. 

 

Краткое описание критерия 

хи-квадрат.

 

 

Двумерные гистограммы, диаграммы 
рассеивания и таблицы частот. 

 

Для наглядности в процессе выполнения 
работы необходимо сделать несколько 
Screen Capture, которые в дальнейшем 
будут размещены в отчете. 

 

Значения  опорных  статистик,  уровней 
значимости и статистические выводы. 

 

Вывод о проделанной  работе. 

 


background image

 

85 

9. ЭЛЕМЕНТЫ РЕГРЕССИОННОГО  

И ДИСПЕРСИОННОГО АНАЛИЗА 

 

Регрессионный  анализ  является  основным  методом 

современной 

математической 

статистики. 

Идея 

регрессионного анализа заключается в том, что все доступные 
нам  ресурсы  необходимо  использовать  полно  и  эффективно, 
особенно  если  это  требуется  для  анализа  и  обработки 
экспериментальных данных. 

Родоначальником  регрессионного  анализа  принято 

считать К. Гаусса. К. Гаусс (и независимо от него А. Лежандр) 
на  рубеже  XVIII  -  XIX  столетий  заложили  основы  метода 
наименьших 

квадратов. 

Этот 

метод 

составляет 

математическую основу регрессионного анализа. Поводом для 
создания 

метода 

наименьших 

квадратов 

послужили 

потребности астрономии и геодезии. Усилиями ученых многих 
стран  была  развита  и  теория,  которая  стала  теперь 
классической. Примерно 150 лет, до середины XX века, длился 
период классического регрессионного анализа. За это время к 
алгебраической  процедуре  метода  наименьших  квадратов 
прибавилось  система  статистических  положений,  задающих 
математическую  модель.  Были  отработаны  методы  проверки 
статистических  гипотез  о  значимости  коэффициентов 
уравнения,  полученного  методом  наименьших  квадратов. 
Сочетание  метода  наименьших  квадратов  с  указанными 
статистическими процедурами и привело к созданию того, что 
стало  называться  регрессионным  анализом.  Постепенно 
расширялись  и  области  приложений.  Так,  например,  Д.  И. 
Менделеев  начал  применять  регрессию  для  описания 
температурных  и  иных  зависимостей  свойств  химических 
веществ.  Однако  до  конца  первой  мировой  войны  метод  не 
нашел  широкого  применения.  Появлялись  лишь  отдельные 
работы.  Следует  отметить,  что  после  классических  работ  К. 
Пирсона  в  самом  начале  XX  века  теория  была  хорошо  и 
подробно  изложена,  а  практическое  приложение  не 
наблюдалось и резко отставало от теории.