ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 07.04.2021

Просмотров: 1602

Скачиваний: 34

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
background image

 

136 

степеней свободы. Две из них идут на оценки параметров 

0

b

 и 

1

b

.  Остается  12  степеней  свободы,  которые  надо  разделить 

между неадекватностью и «чистой» ошибкой. 

Рассмотрим  таблицу.  Строки  (1)  и  (2)  в  таблице 

показывают, как эти остаточные степени свободы разбиваются 
в  различных  планах.  В  строке  (3)  приведены  значения 

2

)

(

X

X

i

,  которые  пропорциональны  стандартному 

отклонению  коэффициента 

1

b

  подобранной  прямой.  В  строке 

(4)  показано  число  параметров,  которые  можно  найти  по 
данным соответствующего плана. Заметим, что число степеней 
свободы для  неадекватности равно числу различных мест для 

X

  в  данных  минус  число  параметров  в  постулированной 

модели.  Так  как  в  нашем  примере  есть  два  параметра, 
подлежащих  оценке  (

0

  и 

1

),  то  разность  между  числами, 

стоящими в строках (4) и (1) таблицы всюду равна 2.  

Поскольку в примере требуется, чтобы 

2

 оценивалась 

через  «чистую»  ошибку,  стратегия  (а)  оказывается  в  данном 
случае  плохой.  Поскольку  мы  не  в  состоянии  проверить 
адекватность,  то  вариант  (ж)  автоматически  исключается. 
Случай  (б)  исключается,  т.к.  этот  план  из  оставшихся  имеет 
наибольшее  стандартное  отклонение 

1

b

,  а  также  в  нем 

предлагается  использовать  7  разных  уровней,  когда  главной 
альтернативой  служит  квадратичная  модель.  Семь  уровней 
слишком  много!  Ясно,  что  наилучший  выбор  заключается  в 
вариантах (в), (г), (д) или (е). Какой из них выбрать – зависит 
от  предпочтений  экспериментатора.  С  точки  зрения 
стандартного  отклонения 

1

b

  лучше  взять  вариант  (е). 

Варианты  (в)  и  (г)  отклоняются,  т.к.  3-х  и  2-х  степеней 
свободы  для  неадекватности  много,  особенно  когда 
альтернатива всего лишь квадратичная зависимость. 

 

 
 
 


background image

 

137 

                                                                               Таблица 9.7 

Характеристики различных стратегий 

 

 

 

(а) 

(б)  (в) 

(г) 

(д)  (е) 

(ж) 

1  число 

степеней  
свободы  
для  
неадекватно-
сти 

12 

2  число 

степеней 
свободы  
для  
чистой 
ошибки 

10 

11 

11 

12 

3  Стандартное 

 отклонение 

1

b

 

0,43  0,4

0,33  0,31  0,3

0,2

0,2

4  число мест 

14 

 
Использование 

табл. 

9.7, 

в 

которой 

представлены 

характеристики 

различных 

стратегий, 

позволит 

экспериментатору  принять  правильное решение о проведении   
экспериментов по оценке моделей регрессии. 
 
 
 
 
 
 
 
 
 
 
 


background image

 

138 

10. КЛАСТЕРНЫЙ АНАЛИЗ 

 

10.1. Основные понятия кластерного анализа 

 

В  задачах  обработки  результатов  экспериментов 

группировка  первичных  данных  является  основным  приемом 
решения  задачи  классификации.  При  наличии  нескольких 
признаков (исходных или обобщенных) задача классификации 
может  быть  решена  методами  кластерного  анализа.  Основное 
отличие  этих  методов  заключается  в  том,  что  отсутствуют 
обучающие  выборки,  т.е.  априорная  информация  о 
распределении 

генеральной 

совокупности, 

которая 

представляет собой вектор Х. 

Рассмотрим  следующую  задачу.  Пусть  исследуется 

совокупность n объектов, каждый из которых характеризуется 
Х    признаками,  измеренными  k  раз.  Требуется  разбить  эту 
совокупность  на  однородные  группы  (классы).  При  этом 
отсутствует априорная информация о характере распределения 
измерений  Х внутри классов. 

Полученные  в  результате  разбиения  группы  называют 

кластерами 

(от 

англ. 

cluster 

– 

группа 

элементов, 

характеризуемых  каким-либо  общим  свойством).  Методы 
нахождения  кластеров  называются  кластер  –  анализом  или 
распознаванием образов с самообучением.  

Рассмотрим  три  различных  подхода  к  проблеме 

кластерного  анализа:  эвристический,  экстремальный  и 
статистический. 

Эвристический  подход  характеризуется  отсутствием 

формальной  модели  изучаемого  явления  и  критерия  для 
сравнения  различных  решений.  Основой  подхода  является 
алгоритм, построенный исходя из интуитивных соображений.  

При  экстремальном  подходе  также  не  формулируется 

исходная модель, а задается критерий, определяющий качество 
разбиения  на  кластеры.  Этот  подход  полезен,  когда  цель 
исследования  четко  определена.  Качество  разбиения  в  этом 
случае может измеряться эффективностью выполнения цели.  


background image

 

139 

Основой  статистического  подхода  решения  задач 

кластерного 

анализа 

является 

вероятностная 

модель 

исследуемого  процесса.  Данный  подход  дает  возможность 
решать  задачи,  связанные  с  воспроизводимостью  результатов 
кластерного анализа. 

Рассмотрим  формы  представления  исходных  данных  и 

определение  мер  близости.  В  кластерном  анализе  формой 
представления  исходных  данных  служит  прямоугольная 
матрица,  каждая  строка  которой  представляет  результат 
измерения k признаков на одном из обследованных объектов.  





nk

n

n

k

k

x

x

x

x

x

x

x

x

x

Х

2

1

2

22

21

1

12

11

 

В  конкретных  ситуациях  может  представлять  интерес, 

как группировка объектов, так и группировка признаков. 

Числовые  значения,  входящие  в  матрицу  Х,  могут 

соответствовать  трем  типам  переменных  –  количественным, 
ранговым  и  качественным.  Количественные  переменные 
обладают  свойством  упорядоченности  и  над  ними  можно 
производить  арифметические  операции.  Значения  ранговых 
переменных  тоже  упорядочены,  и  их  можно  пронумеровать 
натуральными  числами.  Однако  использование  этих  чисел  в 
арифметических 

операциях 

будет 

некорректным. 

Качественными  называются  переменные,  принимающие  два 
(дихотомные)  или  более  значений.  Этим  значениям  также 
можно  поставить  в  соответствие  некоторые  числа,  но  они  не 
будут  отражать  упорядоченности  значений  качественной 
переменной.  Упорядоченности  подвергаются  дихотомные 
переменные,  два  значения  которых  (как  правило,  они 
обозначаются числами 0 и 1) можно считать упорядоченными. 
Желательно, чтобы таблица исходных данных содержала один 


background image

 

140 

тип  переменных.  В  противном  случае  разные  типы 
переменных стараются свести к одному типу.  

Матрица  Х  не  является  единственным  способом 

представления  исходных  данных.  Исходная  информация 
может быть задана в виде квадратной матрицы  

ij

a

A

i,j=1,2,…,k,

 

где  элемент 

ij

a

  который  определяет  степень  близости  i  –  го 

объекта к j – му, т.е. сходство этих объектов.  

Большинство алгоритмов кластерного анализа исходят из 

матрицы расстояний (или сходства), либо требуют вычисления 
отдельных  ее  элементов.  Если  данные  представлены  в  форме 
Х,  то  первым  этапом  решения  задачи  поиска  кластеров  будет 
выбор  способа  вычисления  расстояний  или  близости 
(сходства) между объектами или признаками.  

Достаточно  просто  определяется  близость  между 

признаками.  Чаще  всего  мерами  близости  служат  различные 
статистические 

коэффициенты 

связи. 

Если 

признаки 

количественные,  то  можно  использовать  оценки  обычных 
парных выборочных коэффициентов корреляции 

ij

R

k

j

i

,...,

2

,

1

,

. Однако коэффициент корреляции измеряет 

только  линейную  связь.  Если  связь  нелинейная,  то  следует 
произвести подходящее преобразование шкалы признаков.  

Рассмотрим 

наиболее 

распространенные 

типы 

нормировок, переводящих признаки в безразмерные величины. 
Пусть  имеются  одномерные  наблюдения 

.

,...,

2

,

1

n

x

x

x

  

Нормировки:  

   

 

min

max

min

'

/

x

x

x

x

x

i

i

   

S

x

x

x

i

i

/

'

где    

i

x

n

x

1

 - среднее арифметическое,