Файл: Контрольная работа по теме Базы данных в Excel 72 IV. Макросы в ms excel 78 Макросы для автоматизации работ 78.doc
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 08.11.2023
Просмотров: 779
Скачиваний: 3
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
Таким образом, прогнозируемое значение равно: 1,97± 4,97.
7.4. Кластерный анализ
7.4.1. Общие положения.
Применяется в задачах классификации.
Имеется два варианта задач классификации:
а) Имеется набор групп объектов (классов или кластеров) и известны параметры групп. Необходимо вновь появившийся объект отнести к одной из групп.
б) Не известно ни количество групп, ни их характеристики. Имеется набор объектов, которые необходимо расклассифицировать по группам. Т.е. классификация производится с нуля.
Основные идеи классификации можно пояснить на следующих примерах.
7.4.2. Примеры
Пример 1.
Пусть в качестве объектов классификации выступают регионы РФ. И пусть каждый из них характеризуется одним параметром – численностью населения. Если этот показатель нанести на числовую ось, то получится примерно следующее:
Р
ис.7.2. Распределение регионов РФ по численности населения.
Из рис.7.2 следует, что среди регионов Росси имеются объекты с низкой численностью населения (Чукотка, Магаданская и Еврейская области). Они группируются в отдельную группу.
Во вторую и самую многочисленную группу группируются регионы типа республик поволжского региона. Эту группу можно назвать регионами со средней численностью.
В третью группу входят области Черноземья (Краснодарский и Ставропольский край) и промышленные регионы (Свердловская область, Нижегородская область и т.д.). Эту группу можно назвать регионами с высокой численностью населения.
Особняком стоят регионы со сверхвысокой численностью населения Ленинградская и Московская области.
Приведенная классификация основана на чисто визуальном восприятии данных рисунка. Т.е. мы по плотности расположения данных на числовой оси уверенно провели классификацию и выделили четыре группы или кластера. При этом интуитивно возникают такие понятия как плотность кластеров.
Регионы со средней численностью представляют собой кластер с высокой плотностью объектов. Регионы с высокой численностью представляют собой более разреженный кластер. В отношении Московской и Ленинградской области трудно сказать, что это такое – или это один очень сильно разреженный кластер, состоящий из двух объектов, или это два разных кластера, состоящих из одного объекта.
Пример 2.
Пусть в качестве объектов классификации выступают те же регионы РФ. И пусть каждый из них характеризуется двумя параметрами – объемом сельскохозяйственного производства и объемом промышленного производства. Если эти объекты нанести на график, у которого в качестве осей служат указанные параметры, то получится примерно следующее (рис. 7.3).
Рис. 7.3. Графическое представление регионов РФ в зависимости
от объемов промышленного и с/хозяйственного производства
Здесь также видны ясно различимые кластеры. Их можно охарактеризовать следующим образом.
Регионы с высоким уровнем сельскохозяйственного производства – это в основном регионы Черноземья.
Регионы с высоким уровнем промышленного производства – это в основном Уральские регионы и некоторые области Сибири
Регионы со средним уровнем развития как промышленного, так и сельскохозяйственного производства – сюда относятся большинство регионов России.
Регионы соотносительно высоким уровнем как промышленного, так и сельскохозяйственного производства – Московская и Ленинградская области.
Особняком стоит кластер с низким уровнем как промышленного, так и сельскохозяйственного производства – состоит из одного объекта (Чукотка).
И снова мы уверенно провели классификацию на основе визуального восприятия.
Аналогично можно произвести классификацию объектов, характеризующихся тремя показателями. Для этого правда придется строить трехмерные графики
Однако здесь следует иметь в виду, что форма кластеров может быть очень далека от шарообразной. Они могут иметь весьма причудливую форму, взаимно переплетаться в пространстве, проникать друг в друга и т.д. Пример показан на рисунке 7.4.
Рис.7.4. Пример объемного кластера
К сожалению возможности визуальной классификации исчерпываются когда размерность кластера больше трех. Кроме того, приведенные примеры носят модельный характер. При работе же с реальными данными (даже если их можно представить графически) чаще всего невозможно четко разделить объекты на отдельные группы.
7.4.3. Формализация процесса кластеризации
Для того чтобы произвести кластеризацию, основываясь не на визуальных впечатлениях, а более объективно, необходимо формализовать задачу.
Если проанализировать все то, что было описано выше, то можно сформулировать следующие признаки, на которых основана визуальная кластеризация:
- к одному кластеру относятся те объекты, которые расположены достаточно близко друг к другу,
- или объекты в одном кластере расположены примерно на одинаковых расстояниях друг от друга,
- при этом один кластер отделен от другого расстоянием значительно большим, чем типичное расстояние между объектами внутри кластера.
Приведенные признаки, по-прежнему, еще слишком общие. Обратите внимание на слова «типичное расстояние», «достаточно близки» и т.д. Но уже становится ясным, какой параметр, характерный для набора объектов, должен подвергнуться формализации – это расстояния между объектами.
Этот параметр служит основой практически для всех методов кластеризации. Одним из них является метод цепочечной кластеризации. Его достоинством является то, что к полученным с его помощью результатам легко применить статистические методы проверки гипотез.
Суть метода заключается в следующем.
Пусть имеется N объектов, которые необходимо подвергнуть разделению на группы.
-
Для всех возможных пар объектов вычисляются расстояния между всеми возможными парами объектов и среди них такая пара, расстояние между которыми минимально. Эта пара может служить ядром будущего кластера (или стать отдельным кластером). Кроме того, данная пара помечается как уже сгруппированная. -
Среди оставшихся объектов находится такой, расстояние, от которого до любого из уже сгруппированных объектов минимально. Этот объект также помечается как сгруппированный. -
Операция 2 выполняется до тех пор, пока все объекты не станут сгруппированными. -
В результате выполнения п.п. 2, 3 получается последовательность (цепочка) расстояний с указанием объектов, для которых эти расстояния вычислены. -
К полученной последовательности применяется технология выявления промахов в ряду наблюдений (см. работу «Случайные величины»). -
Если в ряду расстояний обнаружено расстояние, резко отличающееся от других (что подтверждается статистической проверкой), то это расстояние признается как граница между кластерами и соответствующие объекты до этого значения относятся к одному кластеру, а оставшиеся к другому (другим).
7.4.4. Порядок выполнения работы
Для выполнения работы используется файл Кластерный анализ.xls.
На Лист2 этой книги находятся данными о 78 объектах РФ (6 показателей).
На Лист1 реализован метод цепочечной кластеризации и производятся сами расчеты. Здесь же указан список объектов, которые необходимо разбить на группы.
Таблица 7.4
N п/п | N по списку | Объект | X1 | X2 |
1 | 20 | Кировская обл. | 1560 | 1451 |
2 | 31 | Нижегородская обл. | 3598 | 2045,3 |
3 | 35 | Оренбургская обл. | 2199 | 1774,4 |
4 | 37 | Пензенская обл. | 1504 | 1440,5 |
5 | 43 | Республика Башкортостан | 4091 | 2339,7 |
6 | 44 | Республика Бурятия | 1019 | 1765,2 |
7 | 45 | Республика Дагестан | 2179 | 1197 |
8 | 46 | Республика Ингушетия | 466 | 1008,2 |
9 | 50 | Республика Марий Эл | 750 | 1052,3 |
10 | 51 | Республика Мордовия | 910 | 1497,7 |
11 | 54 | Республика Татарстан | 3768 | 2362,4 |
12 | 70 | Удмуртская Республика | 1616 | 1833 |
13 | 71 | Ульяновская обл. | 1440 | 1558,9 |
14 | 75 | Чувашская Республика | 1346 | 1326,2 |