ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 07.04.2021
Просмотров: 1661
Скачиваний: 36
141
n
i
i
x
x
n
S
1
2
2
1
- выборочная дисперсия
позволяют изменять масштабы шкал признаков для
использования корреляционных статистических связей.
Существуют различные коэффициенты связи, определенные
для ранговых, качественных и дихотомных переменных.
10.2. Расстояние между объектами и мера близости
Наиболее трудным и наименее формализованным в
задаче классификации является определение понятия
однородности объектов.
В общем случае понятие однородности объектов задается
либо введением правила вычисления расстояния
j
Х
i
X
,
между любой парой исследуемых объектов
n
X
X
X
,...,
2
,
1
,
либо
заданием
некоторой
функции
j
X
i
X
L
,
,
характеризующей степень близости (сходства)
i
– го и
j
– го
объектов. Если задана функция
j
X
i
X
,
, то близкие с точки
зрения этой метрики объекты считаются однородными,
принадлежащими одному классу. При этом необходимо
сопоставлять
j
X
i
X
,
с некоторым пороговым значением, в
каждом конкретном случае определяемом по-своему.
Аналогично используется и мера близости
j
X
i
X
L
,
. При
классификации изображений эту меру рассматривают как меру
сходства изображений. Общие требования к мере близости
сводятся к следующему:
1)
мера близости должна быть всегда положительной
величиной, т.е.
,
0
,
j
X
i
X
L
142
2)
должна обладать свойством симметрии
i
X
j
X
L
j
X
i
X
L
,
,
,
3)
мера близости объекта с самими собой должна быть
максимальной
j
X
i
X
L
j
j
X
i
X
L
,
max
,
,
4)
мера близости должна обладать свойством
монотонности убывания
j
X
i
X
L
,
по
j
X
i
X
,
,
т.е. из
j
X
i
X
e
X
k
X
,
,
должно следовать
неравенство
j
X
i
X
L
e
X
k
X
L
,
,
.
Выбор метрики или меры близости является узловым
моментом исследования, от которого зависит окончательный
вариант разбиения объектов на классы при заданном
алгоритме разбиения. В каждом конкретном случае это выбор
должен производиться по-своему в зависимости от целей
исследования, физической и статистической природы вектора
наблюдений
Х,
априорных
сведений
о
характере
вероятностного распределения Х.
Рассмотрим наиболее часто используемые расстояния и
меры близости в задачах кластерного анализа. В случае
зависимых компонент вектора наблюдений Х и их различной
значимости при решении задач классификации используют
обобщенное расстояние Махаланобиса, задаваемое формулой
,
1
,
0
j
X
i
X
T
T
j
X
i
X
j
X
i
X
(10.1)
где
– ковариационная матрица генеральной совокупности,
из которой извлекаются наблюдения;
– некоторая
симметрическая неотрицательно – определенная матрица
весовых
коэффициентов.
Обычно
она
выбирается
диагональной.
143
Обычное евклидово расстояние
2
1
,
k
l
jl
x
il
x
j
X
i
X
E
,
(10.2)
где x
il
, x
jl
– величина l – й компоненты
i
– го
(j
– го) объекта
(
;
,...,
2
,
1
k
l
n
j
i
,...,
2
,
1
,
).
Использование этого расстояния оправдано в следующих
случаях, если:
а) наблюдения берутся из генеральных совокупностей,
имеющих многомерное нормальное распределение, причем
наблюдения независимы и имеют одну и ту дисперсию;
б) компоненты вектора наблюдений Х однородны по
физическому смыслу и одинаково важны для классификации;
в)
признаковое
пространство
совпадает
с
геометрическим пространством.
С геометрической точки зрения евклидово расстояние
может оказаться бессмысленным, если признаки имеют разные
единицы измерения. Для приведения признаков к одинаковым
единицам используют нормировку каждого признака путем
деления центрированной величины на среднее квадратическое
отклонение и переходят от матрицы
Х
к нормированной
матрице с элементами
l
S
l
x
il
x
H
il
x
,
где
il
x
- значение
l
– го признака у
i
– го объекта;
l
x
- среднее арифметическое значение
l
– го признака;
2
1
1
l
x
il
x
n
l
S
– среднее квадратическое
отклонение
l
– го признака.
В результате этой операции могут быть нежелательные
последствия. Если кластеры, например, хорошо разделены по
одному признаку и не разделены по другому, то после
144
нормировки разделительные свойства первого признака будут
уменьшены с увеличением «шумового» эффекта второго.
«Взвешанное» евклидово расстояние
k
l
jl
x
il
x
l
j
X
i
X
ВЕ
1
2
,
(10.3)
применяется в случаях, когда каждой компоненте
l
x
вектора
наблюдений Х удается приписать некоторый «вес»
l
,
пропорциональный степени важности признака в задаче
классификации. Обычно принимают
1
0
l
, где
.
,...,
2
,
1
k
l
Хеммингово расстояние
k
l
jl
x
il
x
j
X
i
X
н
1
,
(10.4)
используется как мера различия объектов, задаваемых
дихотомическими признаками.
Решение задачи классификации многомерных объектов
предусматривает
в
качестве
предварительного
этапа
исследования реализацию методов выделения наиболее
существенных информативных признаков, т.е. уменьшения
размерности наблюдаемого пространства. С этой целью
каждую из компонент
k
x
x
x
,...,
,
2
1
рассматривают как объект,
подлежащий классификации. После разбиения на небольшое
число однородных групп, для дальнейшего исследования
оставляют по одному представителю от каждой группы.
Предполагается, что признаки, попавшие в группу, связаны
друг с другом и несут информацию о каком-то одном свойстве
объекта.
В качестве близости между отдельными признаками
обычно используют различные характеристики степени их
коррелированности, в первую очередь коэффициенты
корреляции.
Другие
расстояния
(метрики)
также
145
используются. Выбор метрики определяется структурой
признакового
пространства
и
целью
классификации.
Формализовать этот этап задачи классификации пока не
представляется возможным.
10.3. Расстояние между кластерами
В ряде процедур классификации (кластер – процедур)
используют понятия расстояния между группами объектов и
меры близости двух групп объектов.
Пусть
i
S
- i – я группа (класс, кластер), состоящая из
i
n
объектов;
i
x
- среднее арифметическое векторных наблюдений
i
S
группы, т.е. «центр тяжести» i – й группы;
m
S
l
S
,
- расстояние между группами
l
S
и
m
S
.
Наиболее употребительными расстояниями и мерами близости
между классами объектов является:
- расстояние, измеряемое по принципу «ближайшего
соседа»
j
x
i
x
m
S
l
S
,
min
,
min
; 10.5)
m
S
j
x
l
S
i
x
- расстояние, измеряемое по принципу «дальнего
соседа»
j
x
i
x
m
S
l
S
,
max
,
max
; (10.6)
m
S
j
x
l
S
i
x
- расстояние, измеряемое по «центрам тяжести» групп
m
x
l
x
m
S
l
S
,
,
(10.7)