ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 07.04.2021

Просмотров: 1661

Скачиваний: 36

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
background image

 

141 

n

i

i

x

x

n

S

1

2

2

1

 - выборочная дисперсия  

позволяют  изменять  масштабы  шкал  признаков  для 
использования  корреляционных  статистических  связей. 
Существуют  различные  коэффициенты  связи,  определенные 
для ранговых, качественных и дихотомных переменных.  

 

10.2. Расстояние между объектами и мера близости 

 

Наиболее  трудным  и  наименее  формализованным  в 

задаче  классификации  является  определение  понятия 
однородности объектов. 

В общем случае понятие однородности объектов задается 

либо  введением  правила  вычисления  расстояния 

j

Х

i

X

,

 

между  любой  парой  исследуемых  объектов 

n

X

X

X

,...,

2

,

1

либо 

заданием 

некоторой 

функции 

j

X

i

X

L

,

характеризующей  степень  близости  (сходства) 

–  го  и 

–  го 

объектов. Если задана функция 

j

X

i

X

,

, то близкие с точки 

зрения  этой  метрики  объекты  считаются  однородными, 
принадлежащими  одному  классу.  При  этом  необходимо 
сопоставлять 

j

X

i

X

,

 с некоторым пороговым значением, в 

каждом конкретном случае определяемом по-своему. 
Аналогично  используется  и  мера  близости   

j

X

i

X

L

,

.  При 

классификации изображений эту меру рассматривают как меру 
сходства  изображений.  Общие  требования  к  мере  близости 
сводятся к следующему: 

1)

 

мера  близости  должна  быть  всегда  положительной 
величиной, т.е.  

,

0

,

j

X

i

X

L

 


background image

 

142 

2)

 

должна обладать свойством симметрии  

i

X

j

X

L

j

X

i

X

L

,

,

3)

 

мера близости объекта с самими собой должна быть 
максимальной 

j

X

i

X

L

j

j

X

i

X

L

,

max

,

4)

 

мера  близости  должна  обладать  свойством 
монотонности  убывания 

j

X

i

X

L

,

  по 

j

X

i

X

,

т.е.  из 

j

X

i

X

e

X

k

X

,

,

  должно  следовать 

неравенство 

j

X

i

X

L

e

X

k

X

L

,

,

Выбор  метрики  или  меры  близости  является  узловым 

моментом  исследования,  от  которого  зависит  окончательный 
вариант  разбиения  объектов  на  классы  при  заданном 
алгоритме разбиения. В каждом конкретном случае это выбор 
должен  производиться  по-своему  в  зависимости  от  целей 
исследования,  физической  и  статистической  природы  вектора 
наблюдений 

Х, 

априорных 

сведений 

о 

характере 

вероятностного распределения Х.  

Рассмотрим  наиболее  часто  используемые  расстояния  и 

меры  близости  в  задачах  кластерного  анализа.  В  случае 
зависимых  компонент вектора  наблюдений  Х  и  их  различной 
значимости  при  решении  задач  классификации  используют 
обобщенное расстояние Махаланобиса, задаваемое формулой 

 

,

1

,

0

j

X

i

X

T

T

j

X

i

X

j

X

i

X

  (10.1) 

где 

– ковариационная матрица генеральной совокупности, 

из  которой  извлекаются  наблюдения; 

  –  некоторая 

симметрическая  неотрицательно  –  определенная  матрица 
весовых 

коэффициентов. 

Обычно 

она 

выбирается 

диагональной.  


background image

 

143 

Обычное евклидово расстояние 

 

2

1

,

k

l

jl

x

il

x

j

X

i

X

E

,   

 

(10.2) 

где x

il

,  x

jl

  –  величина  l  –  й  компоненты 

i

  –  го 

(j

  –  го)  объекта 

(

;

,...,

2

,

1

k

l

 

n

j

i

,...,

2

,

1

,

).  

Использование  этого  расстояния  оправдано  в  следующих 
случаях, если:  

а)  наблюдения  берутся  из  генеральных  совокупностей, 

имеющих  многомерное  нормальное  распределение,  причем 
наблюдения независимы и имеют одну и ту дисперсию; 

б)  компоненты  вектора  наблюдений  Х  однородны  по 

физическому смыслу и одинаково важны для классификации; 

в) 

признаковое 

пространство 

совпадает 

с 

геометрическим пространством.  

С  геометрической  точки  зрения  евклидово  расстояние 

может оказаться бессмысленным, если признаки имеют разные 
единицы измерения. Для приведения признаков к одинаковым 
единицам  используют  нормировку  каждого  признака  путем 
деления центрированной величины на среднее квадратическое 
отклонение  и  переходят  от  матрицы 

Х

  к  нормированной 

матрице с элементами 

l

S

l

x

il

x

H

il

x

где 

il

x

 - значение 

l

 – го признака у 

i

 – го объекта; 

l

x

 - среднее арифметическое значение 

l

 – го признака; 

2

1

1

l

x

il

x

n

l

S

 

–  среднее  квадратическое 

отклонение 

l

 – го признака. 

В  результате  этой  операции  могут  быть  нежелательные 
последствия.  Если  кластеры,  например,  хорошо  разделены  по 
одному  признаку  и  не  разделены  по  другому,  то  после 


background image

 

144 

нормировки разделительные свойства первого признака будут 
уменьшены с увеличением «шумового» эффекта второго.   

«Взвешанное» евклидово расстояние 

 

k

l

jl

x

il

x

l

j

X

i

X

ВЕ

1

2

,

                 (10.3) 

применяется  в  случаях,  когда  каждой компоненте 

l

x

  вектора 

наблюдений  Х  удается  приписать  некоторый  «вес» 

l

пропорциональный  степени  важности  признака  в  задаче 
классификации. Обычно принимают 

1

0

l

, где 

.

,...,

2

,

1

k

l

  

Хеммингово расстояние 

 

k

l

jl

x

il

x

j

X

i

X

н

1

,

 

                     (10.4) 

используется  как  мера  различия  объектов,  задаваемых 
дихотомическими признаками. 

Решение  задачи  классификации  многомерных  объектов 

предусматривает 

в 

качестве 

предварительного 

этапа 

исследования  реализацию  методов  выделения  наиболее 
существенных  информативных  признаков,  т.е.  уменьшения 
размерности  наблюдаемого  пространства.  С  этой  целью 
каждую из компонент 

k

x

x

x

,...,

,

2

1

 рассматривают как объект, 

подлежащий  классификации.  После  разбиения  на  небольшое 
число  однородных  групп,  для  дальнейшего  исследования 
оставляют  по  одному  представителю  от  каждой  группы. 
Предполагается,  что  признаки,  попавшие  в  группу,  связаны 
друг с другом и несут информацию о каком-то одном свойстве 
объекта.  

В  качестве  близости  между  отдельными  признаками 

обычно  используют  различные  характеристики  степени  их 
коррелированности,  в  первую  очередь  коэффициенты 
корреляции. 

Другие 

расстояния 

(метрики) 

также 


background image

 

145 

используются.  Выбор  метрики  определяется  структурой 
признакового 

пространства 

и 

целью 

классификации. 

Формализовать  этот  этап  задачи  классификации  пока  не 
представляется возможным.  

 

10.3. Расстояние между кластерами 

 

В  ряде  процедур  классификации  (кластер  –  процедур) 

используют  понятия  расстояния  между  группами  объектов  и 
меры близости двух групп объектов.  

Пусть 

i

S

 - i – я группа (класс, кластер), состоящая из 

i

n

 

объектов;  

i

x

  -  среднее  арифметическое  векторных  наблюдений 

i

S

 

группы, т.е. «центр тяжести» i – й группы; 

m

S

l

S

,

 - расстояние между группами 

l

S

 и 

m

S

.  

Наиболее употребительными расстояниями и мерами близости 
между классами объектов является:  

 

-  расстояние,  измеряемое  по  принципу  «ближайшего 
соседа» 

j

x

i

x

m

S

l

S

,

min

,

min

;                10.5) 

m

S

j

x

l

S

i

x

 

 

-  расстояние,  измеряемое  по  принципу  «дальнего 
соседа» 

j

x

i

x

m

S

l

S

,

max

,

max

;                     (10.6) 

m

S

j

x

l

S

i

x

 

 

- расстояние, измеряемое по «центрам тяжести» групп 

 

m

x

l

x

m

S

l

S

,

,

 

 

 

 

(10.7)