Файл: Нов.ПМС-2.pdf

Скачать файл (2,70Мб)

Заказать решение

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 07.04.2021

Просмотров: 1668

Скачиваний: 36

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

136

степеней свободы. Две из них идут на оценки параметров

. Остается 12 степеней свободы, которые надо разделить

между неадекватностью и «чистой» ошибкой.

Рассмотрим таблицу. Строки (1) и (2) в таблице

показывают, как эти остаточные степени свободы разбиваются
в различных планах. В строке (3) приведены значения





)

(

, которые пропорциональны стандартному

отклонению коэффициента

подобранной прямой. В строке

(4) показано число параметров, которые можно найти по
данным соответствующего плана. Заметим, что число степеней
свободы для неадекватности равно числу различных мест для

в данных минус число параметров в постулированной

модели. Так как в нашем примере есть два параметра,
подлежащих оценке (



), то разность между числами,

стоящими в строках (4) и (1) таблицы всюду равна 2.

Поскольку в примере требуется, чтобы



оценивалась

через  «чистую»  ошибку,  стратегия  (а)  оказывается  в  данном
случае  плохой.  Поскольку  мы  не  в  состоянии  проверить
адекватность,  то  вариант  (ж)  автоматически  исключается.
Случай  (б)  исключается,  т.к.  этот  план  из  оставшихся  имеет
наибольшее  стандартное  отклонение



, а также в нем

предлагается  использовать  7  разных  уровней,  когда  главной
альтернативой  служит  квадратичная  модель.  Семь  уровней
слишком  много!  Ясно,  что  наилучший  выбор  заключается  в
вариантах (в), (г), (д) или (е). Какой из них выбрать – зависит
от  предпочтений  экспериментатора.  С  точки  зрения
стандартного  отклонения



лучше взять вариант (е).

Варианты (в) и (г) отклоняются, т.к. 3-х и 2-х степеней
свободы для неадекватности много, особенно когда
альтернатива всего лишь квадратичная зависимость.

137

Таблица 9.7

Характеристики различных стратегий

(а)

(б) (в)

(г)

(д) (е)

(ж)

1 число

степеней
свободы
для
неадекватно-
сти

2 число

степеней
свободы
для
чистой
ошибки

3 Стандартное

отклонение



0,43 0,4

0,33 0,31 0,3

0,2
9

0,2
7

4 число мест

Использование

табл.

9.7,

которой

представлены

характеристики

различных

стратегий,

позволит

экспериментатору принять правильное решение о проведении
экспериментов по оценке моделей регрессии.

138

10. КЛАСТЕРНЫЙ АНАЛИЗ

10.1. Основные понятия кластерного анализа

В задачах обработки результатов экспериментов

группировка  первичных  данных  является  основным  приемом
решения  задачи  классификации.  При  наличии  нескольких
признаков (исходных или обобщенных) задача классификации
может  быть  решена  методами  кластерного  анализа.  Основное
отличие  этих  методов  заключается  в  том,  что  отсутствуют
обучающие  выборки,  т.е.  априорная  информация  о
распределении

генеральной

совокупности,

которая

представляет собой вектор Х.

Рассмотрим следующую задачу. Пусть исследуется

совокупность n объектов, каждый из которых характеризуется
Х признаками, измеренными k раз. Требуется разбить эту
совокупность на однородные группы (классы). При этом
отсутствует априорная информация о характере распределения
измерений Х внутри классов.

Полученные в результате разбиения группы называют

кластерами

(от

англ.

cluster

–

группа

элементов,

характеризуемых  каким-либо  общим  свойством).  Методы
нахождения  кластеров  называются  кластер  –  анализом  или
распознаванием образов с самообучением.

Рассмотрим три различных подхода к проблеме

кластерного анализа: эвристический, экстремальный и
статистический.

Эвристический подход характеризуется отсутствием

формальной  модели  изучаемого  явления  и  критерия  для
сравнения  различных  решений.  Основой  подхода  является
алгоритм, построенный исходя из интуитивных соображений.

При экстремальном подходе также не формулируется

исходная модель, а задается критерий, определяющий качество
разбиения  на  кластеры.  Этот  подход  полезен,  когда  цель
исследования  четко  определена.  Качество  разбиения  в  этом
случае может измеряться эффективностью выполнения цели.

139

Основой статистического подхода решения задач

кластерного

анализа

является

вероятностная

модель

исследуемого процесса. Данный подход дает возможность
решать задачи, связанные с воспроизводимостью результатов
кластерного анализа.

Рассмотрим формы представления исходных данных и

определение  мер  близости.  В  кластерном  анализе  формой
представления  исходных  данных  служит  прямоугольная
матрица,  каждая  строка  которой  представляет  результат
измерения k признаков на одном из обследованных объектов.































В конкретных ситуациях может представлять интерес,

как группировка объектов, так и группировка признаков.

Числовые значения, входящие в матрицу Х, могут

соответствовать  трем  типам  переменных  –  количественным,
ранговым  и  качественным.  Количественные  переменные
обладают  свойством  упорядоченности  и  над  ними  можно
производить  арифметические  операции.  Значения  ранговых
переменных  тоже  упорядочены,  и  их  можно  пронумеровать
натуральными  числами.  Однако  использование  этих  чисел  в
арифметических

операциях

будет

некорректным.

Качественными  называются  переменные,  принимающие  два
(дихотомные)  или  более  значений.  Этим  значениям  также
можно  поставить  в  соответствие  некоторые  числа,  но  они  не
будут  отражать  упорядоченности  значений  качественной
переменной.  Упорядоченности  подвергаются  дихотомные
переменные,  два  значения  которых  (как  правило,  они
обозначаются числами 0 и 1) можно считать упорядоченными.
Желательно, чтобы таблица исходных данных содержала один

140

тип переменных. В противном случае разные типы
переменных стараются свести к одному типу.

Матрица Х не является единственным способом

представления исходных данных. Исходная информация
может быть задана в виде квадратной матрицы















i,j=1,2,…,k,

где элемент

который определяет степень близости i – го

объекта к j – му, т.е. сходство этих объектов.

Большинство алгоритмов кластерного анализа исходят из

матрицы расстояний (или сходства), либо требуют вычисления
отдельных  ее  элементов.  Если  данные  представлены  в  форме
Х,  то  первым  этапом  решения  задачи  поиска  кластеров  будет
выбор  способа  вычисления  расстояний  или  близости
(сходства) между объектами или признаками.

Достаточно просто определяется близость между

признаками. Чаще всего мерами близости служат различные
статистические

коэффициенты

связи.

Если

признаки

количественные, то можно использовать оценки обычных
парных выборочных коэффициентов корреляции

,...,



. Однако коэффициент корреляции измеряет

только линейную связь. Если связь нелинейная, то следует
произвести подходящее преобразование шкалы признаков.

Рассмотрим

наиболее

распространенные

типы

нормировок, переводящих признаки в безразмерные величины.
Пусть имеются одномерные наблюдения

,...,

Нормировки:



 



min

max

min













где





- среднее арифметическое,

Смотрите также файлы

Методичка - Диплом 2012.pdf

Probability2.pdf

2seti.pdf

Мет выч методичка.pdf

Первая помощь.pdf

Файл: Нов.ПМС-2.pdf

Смотрите также файлы

Информация

Списки файлов

Дополнительно