Файл: Нов.ПМС-2.pdf

Скачать файл (2,70Мб)

Заказать решение

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 07.04.2021

Просмотров: 1661

Скачиваний: 36

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

141













- выборочная дисперсия

позволяют  изменять  масштабы  шкал  признаков  для
использования  корреляционных  статистических  связей.
Существуют  различные  коэффициенты  связи,  определенные
для ранговых, качественных и дихотомных переменных.

10.2. Расстояние между объектами и мера близости

Наиболее трудным и наименее формализованным в

задаче классификации является определение понятия
однородности объектов.

В общем случае понятие однородности объектов задается

либо введением правила вычисления расстояния















между любой парой исследуемых объектов





,...,

либо

заданием

некоторой

функции













характеризующей степень близости (сходства)

– го и

– го

объектов. Если задана функция















, то близкие с точки

зрения этой метрики объекты считаются однородными,
принадлежащими одному классу. При этом необходимо
сопоставлять















с некоторым пороговым значением, в

каждом конкретном случае определяемом по-своему.
Аналогично используется и мера близости













. При

классификации изображений эту меру рассматривают как меру
сходства изображений. Общие требования к мере близости
сводятся к следующему:

мера близости должна быть всегда положительной
величиной, т.е.















142

должна обладать свойством симметрии



























мера близости объекта с самими собой должна быть
максимальной



























max

мера близости должна обладать свойством
монотонности убывания













по















т.е. из





















должно следовать

неравенство



















Выбор метрики или меры близости является узловым

моментом  исследования,  от  которого  зависит  окончательный
вариант  разбиения  объектов  на  классы  при  заданном
алгоритме разбиения. В каждом конкретном случае это выбор
должен  производиться  по-своему  в  зависимости  от  целей
исследования,  физической  и  статистической  природы  вектора
наблюдений

Х,

априорных

сведений

характере

вероятностного распределения Х.

Рассмотрим наиболее часто используемые расстояния и

меры  близости  в  задачах  кластерного  анализа.  В  случае
зависимых  компонент вектора  наблюдений  Х  и  их  различной
значимости  при  решении  задач  классификации  используют
обобщенное расстояние Махаланобиса, задаваемое формулой





















































(10.1)

где



– ковариационная матрица генеральной совокупности,

из которой извлекаются наблюдения;



– некоторая

симметрическая неотрицательно – определенная матрица
весовых

коэффициентов.

Обычно

она

выбирается

диагональной.

143

Обычное евклидово расстояние



































(10.2)

где x

, x

– величина l – й компоненты

– го

– го) объекта

(

;

,...,



,...,



Использование этого расстояния оправдано в следующих
случаях, если:

а) наблюдения берутся из генеральных совокупностей,

имеющих многомерное нормальное распределение, причем
наблюдения независимы и имеют одну и ту дисперсию;

б) компоненты вектора наблюдений Х однородны по

физическому смыслу и одинаково важны для классификации;

в)

признаковое

пространство

совпадает

геометрическим пространством.

С геометрической точки зрения евклидово расстояние

может оказаться бессмысленным, если признаки имеют разные
единицы измерения. Для приведения признаков к одинаковым
единицам используют нормировку каждого признака путем
деления центрированной величины на среднее квадратическое
отклонение и переходят от матрицы



к нормированной

матрице с элементами





где

- значение

– го признака у

– го объекта;

- среднее арифметическое значение

– го признака;











– среднее квадратическое

отклонение

– го признака.

В  результате  этой  операции  могут  быть  нежелательные
последствия.  Если  кластеры,  например,  хорошо  разделены  по
одному  признаку  и  не  разделены  по  другому,  то  после

144

нормировки разделительные свойства первого признака будут
уменьшены с увеличением «шумового» эффекта второго.

«Взвешанное» евклидово расстояние

































ВЕ





(10.3)

применяется в случаях, когда каждой компоненте

вектора

наблюдений Х удается приписать некоторый «вес»



пропорциональный степени важности признака в задаче
классификации. Обычно принимают





, где

,...,



Хеммингово расстояние























(10.4)

используется как мера различия объектов, задаваемых
дихотомическими признаками.

Решение задачи классификации многомерных объектов

предусматривает

качестве

предварительного

этапа

исследования  реализацию  методов  выделения  наиболее
существенных  информативных  признаков,  т.е.  уменьшения
размерности  наблюдаемого  пространства.  С  этой  целью
каждую из компонент

,...,

рассматривают как объект,

подлежащий  классификации.  После  разбиения  на  небольшое
число  однородных  групп,  для  дальнейшего  исследования
оставляют  по  одному  представителю  от  каждой  группы.
Предполагается,  что  признаки,  попавшие  в  группу,  связаны
друг с другом и несут информацию о каком-то одном свойстве
объекта.

В качестве близости между отдельными признаками

обычно используют различные характеристики степени их
коррелированности, в первую очередь коэффициенты
корреляции.

Другие

расстояния

(метрики)

также

145

используются. Выбор метрики определяется структурой
признакового

пространства

целью

классификации.

Формализовать этот этап задачи классификации пока не
представляется возможным.

10.3. Расстояние между кластерами

В ряде процедур классификации (кластер – процедур)

используют понятия расстояния между группами объектов и
меры близости двух групп объектов.

Пусть

- i – я группа (класс, кластер), состоящая из

объектов;

- среднее арифметическое векторных наблюдений

группы, т.е. «центр тяжести» i – й группы;







- расстояние между группами

Наиболее употребительными расстояниями и мерами близости
между классами объектов является:



- расстояние, измеряемое по принципу «ближайшего
соседа»



















min



; 10.5)





- расстояние, измеряемое по принципу «дальнего
соседа»



















max



; (10.6)





- расстояние, измеряемое по «центрам тяжести» групп



 







(10.7)

Смотрите также файлы

Методичка - Диплом 2012.pdf

Probability2.pdf

2seti.pdf

Мет выч методичка.pdf

Первая помощь.pdf

Файл: Нов.ПМС-2.pdf

Смотрите также файлы

Информация

Списки файлов

Дополнительно