ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 07.04.2021

Просмотров: 1659

Скачиваний: 36

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
background image

 

146 

 

- расстояние, измеряемое по принципу «средней связи».  

Это расстояние определяется как среднее арифметическое всех 
попарных 

расстояний 

между 

представителями 

рассматриваемых групп.  

m

S

j

x

j

x

i

x

l

S

i

x

m

n

l

n

m

S

l

S

ср

,

1

,

 (10.8) 

Здесь 

l

n

 и 

m

n

 - количество объектов в классах 

l

S

 и 

m

S

Колмогоров  А.Н.  предложил  обобщенное  расстояние 

между  классами.  Оно  в  качестве  частных  случаев  включает  в 
себя  все  расстояния,  рассмотренные  ранее.  Обобщенное 
расстояние  –  это  степенное  среднее,  которое  определяется 
формулой  

r

m

S

j

x

j

x

i

x

r

l

S

i

x

m

n

l

n

m

S

l

S

об

/

1

,

1

,

 

(10.9) 

Можно показать, что  
при 

r

    

m

S

l

S

m

S

l

S

об

,

max

,

при 



r

  

m

S

l

S

m

S

l

S

об

,

min

,

при 

1

r

      

 

m

S

l

S

m

S

l

S

об

,

,

Из формулы (10.9) следует, что если 

q

S

m

S

q

m

S

,

 – группа 

элементов,  полученная  путем  объединения  кластеров 

m

S

  и 

q

S

, то обобщенное расстояние между кластерами 

l

S

 и 

mq

S

 

определяется по формуле  

r

q

n

m

n

r

q

S

l

S

об

q

n

r

m

S

l

S

об

m

n

mq

S

l

S

об

/

1

,

,

,













   (10.10) 

Расстояние  между  группами  элементов  важно  в 

агломеративных  иерархических  кластер  -  процедурах. 
Принцип 

работы 

таких 

алгоритмов 

состоит 

в 

последовательном  объединении  сначала  самых  близких 


background image

 

147 

элементов,  а  затем  и  целых  групп  все  более  и  более 
отдаленных  друг  от  друга  элементов.  При  этом  расстояние 
между  классами 

l

S

  и 

mq

S

,  являющимися  объединением 

двух других классов 

m

S

 и 

q

S

, можно определить по формуле: 

 

lq

lm

mq

lq

lm

mq

S

l

S

mq

l







,

,

,  

(10.11) 

 
где 

m

S

l

S

lm

,

q

S

l

S

lq

,

q

S

m

S

mq

,

 - 

расстояния между классами 

l

S

m

S

 и 

q

S

;  

,

,

  и  δ  –  числовые  коэффициенты,  значение  которых 

определяет специфику процедуры, ее алгоритм.  

Например,  при 

2

/

1

  и 

0

  приходим  к 

расстоянию,  построенному  по  принципу  «ближайшего 
соседа».  При 

2

/

1

  и 

0

  расстояние  между 

классами  определяется  по  принципу  «дальнего  соседа»,  как 
расстояние  между  двумя  самыми  дальними  элементами  этих 
классов.  

При 

q

n

m

n

m

n

q

n

m

n

q

n

0

 соотношение (10.11) 

приводит  к  расстоянию  между  классами,  вычисленному  как 
среднее из расстояний между всеми парами элементов, один из 
которых  берется  из  одного  класса,  а  другой  –  из  другого 
класса. 

 

10.4. Функционалы качества разбиения 

 

Существует  много  способов  разбиения  на  классы 

заданной 

совокупности 

элементов. 

Возникает 

задача 

сравнительного  анализа  качества  этих  способов  разбиения.  С 
этой целью вводится понятие функционала качества разбиения 

 

S

Q

,  определенного  на  множестве  всех  возможных 


background image

 

148 

разбиений.  Наилучшее  разбиение  представляет  собой  такое 
разбиение,  при  котором  достигается  экстремум  выбранного 
функционала  качества.  Выбор  того  или  иного  функционала 
качества  разбиения,  как  правило,  опирается  на  эмпирические 
соображения.  

Рассмотрим  некоторые  наиболее  распространенные 

функционалы  качества  разбиения.  Пусть  при  исследовании 
выбрана  метрика  ρ  в  пространстве  Х  и 

S

S

S

S

,...,

,

2

1

  

некоторое 

фиксированное 

разбиение 

наблюдений 

n

X

X

X

,...,

,

2

1

 на заданное число ρ классов 

S

S

S

,...,

,

2

1

.  

Существуют 

следующие 

характеристики 

функционала 

качества 

 

 сумма внутриклассовых дисперсий 

 

l

i

S

x

l

i

р

l

x

x

S

Q

,

2

1

1

 

сумма  попарных  внутриклассовых  расстояний  между 
элементами  

 

l

j

S

x

j

i

р

l

x

x

S

Q

,

2

1

2

 

S

Q

1

 и 

 

S

Q

2

 широко используются в задачах кластерного 

анализа для сравнения качества процедур разбиения; 

 

обобщенная внутриклассовая дисперсия  

 





р

l

l

l

C

n

S

Q

1

3

det

где detA – определитель матрицы А; 

C

l

 

–  выборочная  ковариационная  матрица  класса 

S

l

,

 

элементы которой определяется по формуле  

 

l

S

i

x

m

x

im

x

q

x

iq

x

l

n

l

qm

c

1

k

m

q

,

1

,

где 

iq

x

 - 

– я компонента многомерного наблюдения 

i

x


background image

 

149 

q

x

  -  среднее  значение 

q

  –  й  компоненты,  вычисленное  по 

наблюдениям 

– го класса. 

Качество  разбиения  характеризуют  и  другим  видом 

обобщенной дисперсии, в которой операция суммирования 

C

l

 

заменена операцией умножения 

 

р

l

n

l

l

C

S

Q

1

4

det

Функционалы 

 

S

Q

3

  и 

 

S

Q

4

  обычно  используют  при 

решении вопроса: не сосредоточены ли наблюдения, разбитые 
на классы, в пространстве размерности, меньшей, чем 

k.

 

 

10.5. Иерархические процедуры 

 

Иерархические  (деревообразные)  процедуры  бывают 

двух типов: агломеративные и дивизимные. В агломеративных 
процедурах  начальным  является  разбиение,  состоящее  из 

одноэлементных  классов,  а  конечным  –  из  одного  класса,  в 
дивизимных  наоборот.  Принцип  работы  иерархических 
агломеративных 

(дивизимных) 

процедур 

состоит 

в 

последовательном объединении (разделении) групп элементов 
сначала  самых  близких  (далеких),  а  затем  все  более 
отдаленных  (близких)  друг  от  друга.  Большинство  этих 
алгоритмов исходит из матрицы расстояний (сходства). 
Громоздкость 

вычислительной 

реализации 

является 

недостатком иерархических процедур. 

Рассмотрим  пример  агломеративного  иерархического 

алгоритма. 

На 

первом 

шаге 

каждое 

наблюдение 

n

i

X

i

,...,

2

,

1

  рассматривается  как  отдельный  кластер.  В 

дальнейшем  на  каждом  шаге  работы  алгоритма  происходит 
объединение  двух  самых  близких  кластеров,  и,  с  учетом 
принятого  расстояния,  по  формуле  пересчитывается  матрица 
расстояний.  Размерность  матрицы,  очевидно,  снижается  на 
единицу.  Работа  алгоритма  заканчивается,  когда  все 
наблюдения  объединены  в  один  класс.  Иерархическую 


background image

 

150 

классификацию  представляют  в  виде  дендрограммы  (dendron 
(греч.)  –  дерево).  Дивизимные  иерархические  процедуры 
используются для распознавания образов. 

Пример. 

Провести  классификацию  n=6  объектов, 

каждый из которых характеризуются двумя признаками: 

 

№ 

объекта 

x

i1

 

10 

11 

10 

x

i2

 

10 

12 

13 

 

Расположение объектов в виде точек на плоскости показано на 
рис. 10.1. 
 

Рис. 10.1. Классификация объектов 

 

Решение  

Воспользуемся 

агломеративным 

иерархическим 

алгоритмом  классификации.  В  качестве  расстояния  между 
объектами  возьмем  обычное  евклидово  расстояние.  Тогда 
согласно  формуле  (10.2)  расстояние  между  первым  и  вторым 
объектами 

10 

12 

x

i1

 

x

i2