Файл: Допущен к защите Заведующий кафедрой коихи н. А. Сеилова дипломная работа на тему Применение методов кластеризации для анализа данных Специальность 5В070300 Информационные системы.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 09.12.2023
Просмотров: 89
Скачиваний: 2
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
Алматы 2021
МИНИСТЕРСТВО ОБРАЗОВАНИЯ РЕСПУБЛИКИ КАЗАХСТАН
Satbayev University
Институт кибернетики и информационных технологий
Кафедра кибербезопасность, обработка и хранение информации
Досман Әлижан Махамедқалиұлы
Применение методов кластеризации для анализа данных
ДИПЛОМНАЯ РАБОТА
Специальность 5B070300 – Информационные системы
МИНИСТЕРСТВО ОБРАЗОВАНИЯ РЕСПУБЛИКИ КАЗАХСТАН
Казахский национальный исследовательский
технический университет имени К.И. Сатпаева
Институт кибернетики и информационных
технологий
Кафедра кибербезопасность, обработка и
хранение информации
«Допущен к защите»
Заведующий кафедрой КОиХИ
________________Н.А.Сеилова
ДИПЛОМНАЯ РАБОТА
На тему: Применение методов кластеризации для анализа данных
Специальность 5В070300 – Информационные системы
Выполнил: Досман Ә. М.
Научный руководитель к.т.н, доцент
Сейлова Н. А.
«
»
20 г.
27 05 21
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РЕСПУБЛИКИ
КАЗАХСТАН
Satbayev University
Институт кибернетики и информационных технологий
Кафедра кибербезопасность, обработка и хранение информации
5B070300 – Информационные системы
УТВЕРЖДАЮ
Заведующий кафедрой КБОиХО канд. техн. наук, ассистент- профессор
Н. А. Сейлова
«
»
20 г.
ЗАДАНИЕ
на выполнение дипломной работы
Обучающемуся: Досман Әлижан Махамедқалиұлы
Тема: Применение методов кластеризации для анализа данных
Утверждена приказом Ректора Университета № 762-б от 24.11.2020г.
Срок сдачи законченной работы 27.05.2021г.
Исходные данные к дипломному проекту: результаты преддипломной практики, результат обзора современного состояния по данной теме, сбор теоретического материала.
Краткое содержание дипломной работы: а) Обзор методов кластерного анализа; б) Описание методики кластерного анализа; в) Применение метода кластерного анализа при обработке данных;
Рекомендуемая основная литература: из 16 наименований
31 05 21
ГРАФИК
подготовки дипломной работы (проекта)
Наименование разделов,
перечень разрабатываемых
вопросов
Сроки представления
научному руководителю
Примечание
Обзор методов кластерного анализа
02.04.2021г.
Описание методики кластерного анализа
16.05.2021г.
Применение метода кластерного анализа при обработке данных
26.05.2021г.
Подписи
консультантов и нормоконтролера на законченную дипломную работу
(проект) с указанием относящихся к ним разделов работы (проекта)
Наименование
разделов
Консультанты, Ф.И.О.
(уч.степень, звание)
Дата подписания
Подпись
Применение методов кластеризации для анализа данных
Сейлова Н. А., кандидат технических наук
Нормоконтролер
Кабдуллин М.А., ассистент
Программная часть
Научный руководитель:
Сейлова Н. А.
Задание принял к исполнению обучающийся:
Досман Ә. М.
Дата "24" ноября 2020 27.05.2021
АННОТАЦИЯ
Данная работа посвящена вопросам исследования методик кластерного анализа. В ходе выполнения работы был проведен обзор методов кластеризации; исследованы методы кластерного анализа для сегментации клиентов банка; проведена интерпертация результатов с использованием метода кластеризации.
Анализ проведен на примере набора данных о клиентах банка, которые являются держателями кредитных карт. Проведена классификация групп клиентов, являющихся держателями кредитных карт. В ходе проведения работы были использованы методы многомерного статистического анализа и математической статистики.
Для выполнения данной работы используется язык программирования
Python с использованием библиотек pandas, numpy, matplotlib и sklearn.
6
АҢДАТПА
Бұл жұмыс кластерлік талдау әдістемелерін зерттеу мәселелеріне арналған.
Жұмысты орындау барысында кластерлеу әдістеріне шолу жүргізілді; банк клиенттерін сегменттеу үшін кластерлік талдау әдістері зерттелді; кластерлеу
әдісін пайдалана отырып нәтижелерге интерпертация жүргізілді. Талдау несие карталарын ұстаушылар болып табылатын банк клиенттері туралы мәліметтер жиынтығы мысалында жүргізілді. Несие карталарын ұстаушылар болып табылатын клиенттер топтарының жіктелуі жүргізілді. Жұмыс барысында көп
өлшемді статистикалық талдау және математикалық статистика әдістері
қолданылды.
Бұл жұмысты орындау үшін pandas, numpy, matplotlib және sklearn кітапханаларын қолдана отырып, Python бағдарламалау тілі қолданылады.
THE SUMMARY
This paper is devoted to the study of cluster analysis methods. In the course of the work, a review of clustering methods was carried out; cluster analysis methods for bank customers segmentation were investigated; results were interperted using the clustering method. The analysis is carried out on the example of a set of data on bank customers who are credit card holders. The classification of groups of customers who are credit card holders is carried out. In the course of the work, the methods of multivariate statistical analysis and mathematical statistics were used.
To perform this work, the Python programming language is used using the pandas, numpy, matplotlib, and sklearn libraries.
СОДЕРЖАНИЕ
ВВЕДЕНИЕ .................................................................................................................. 9 1 Обзор методов кластерного анализа ................................................................. 11 1.1 Назначение кластерного анализа ...................................................................... 11 1.2 Обзор методов кластеризации ........................................................................... 11 1.3 Постановка задачи .............................................................................................. 13 2 Описание методики кластерного анализа ........................................................ 15 2.1 Используемые средства ...................................................................................... 15 2.2 Описание алгоритмов кластеризации ............................................................... 15 3 Применение метода кластерного анализа при обработке данных ................. 19 3.1 Входные данные .................................................................................................. 19 3.2 Исследовательский анализ данных ................................................................... 19 3.3 Подготовка данных ............................................................................................. 21 3.4 Определение оптимального числа кластеров .................................................. 22 3.5 Обучение модели ................................................................................................ 23 3.6 Построение графиков ......................................... Error! Bookmark not defined.
ЗАКЛЮЧЕНИЕ ......................................................................................................... 32
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ ................................................. 33
ПРИЛОЖЕНИЕ ......................................................................................................... 34
9
ВВЕДЕНИЕ
Кластерный анализ одни из статистических методов, используемый для группировки похожих объектов в соответствующие категории. Его также можно назвать анализом сегментации, анализом таксономии или кластеризацией.
Цель кластерного анализа – сортировка различных объектов или точек данных в различные группы кластеров таким образом, чтобы степень связи между двумя объектами была высокой, если они принадлежат к одной группе, и низкой, если они принадлежат к разным группам.
Кластерный анализ отличается от многих других статистических методов тем, что он в основном используется, когда исследователи не имеют предполагаемого принципа или факта, который они используют в качестве основы своих исследований.
Этот метод анализа, как правило, выполняется во время экспериментальной фазы исследования, так как в отличие от таких методов, как факторный анализ, он не различает зависимые и независимые переменные.
Вместо этого кластерный анализ применяется в основном для обнаружения структур в данных без объяснения или интерпретации.
Проще говоря, кластерный анализ обнаруживает структуры в данных, не объясняя, почему эти структуры существуют.
Например, когда кластерный анализ применяется в рамках исследования рынка, можно выделить определенные группы внутри клиентов. Анализ этих групп может затем определить, насколько вероятно, что кластер клиентов будет приобретать товары или услуги. Если эти группы четко определены, маркетинговая команда может затем ориентироваться на различные кластеры с помощью специально разработанной целевой коммуникации.
Цель дипломной работы – использование методов кластерного анализа, их сравнение и примерное определение к какой группе клиентов относится тот или иной кластер данных и выдача рекомендации для каждого кластера клиентов с помощью визуализации результатов кластеризации на различных графиках.
Набор данных для исследования содержит в себе данные о клиенте кредитной карточки, в котором содержатся информация о кредитном лимите клиента, и поведенческие переменные, описывающие способ их обращения в банк.
Основные задачи для выполнения дипломной работы:
- обработка данных;
- обучение модели;
- анализ данных;
- интерпретация результатов.
Задачи подробно разобраны в последующих главах
В первой главе рассмотрены возможности кластерного анализа, его значение и суть в машинном обучении, далее идет разбор применяемых в этой работе методов кластеризации. Сформированы основные задачи, которые необходимо выполнить в этой работе.
10
Во второй главе описаны используемые программные средства и описан алгоритм решения.
В третьей главе начинается техническая часть дипломной работы, которая включает в себя основную часть работы, обработку набора данных, обучение и построение модели, и выдача рекомендации.
11
1
Обзор методов кластерного анализа
1.1
Назначение кластерного анализа
Кластерный анализ может быть мощным инструментом сбора данных для различной организации, которые нуждаются в идентификации отдельных групп клиентов, сделки купли-продажи, или других типов поведении и вещей. Для примера можно взять страховую компанию, которая использует кластерный анализ чтобы определять требования мошенников, и банки, которые определяют кредитный рейтинг.
Определение кластерного анализа.
Кластерный анализ — это статистический метод анализа данных. Он выполняет работу путем организации элементов в группы или кластеры, на основе того, насколько они тесно связаны.
Кластерный анализ, как и факторный тип анализа связан матрицами данных в которых переменные не были заранее разделены на подмножество критериев и предикторов. Цель кластерного анализа найти похожие группы субъектов, где «сходство» между каждой парой субъектов может означать некоторую глобальную меру по всему набору характеристик.
Кластерный анализ — это алгоритм обучения без учителя, что означает что изначально неизвестно сколько кластеров существует в наборе данных до запуска модели. В отличии от многих статистических методов, кластерный анализ обычно используется, когда нет никаких предположений о вероятных отношениях в данных. Он предоставляет информацию о том где существуют ассоциации и закономерности в наборе данных, но не о том, что они могут означать, это уже работа аналитика.
Как используется кластерный анализ?
Во многом кластерный анализ применяется для классификации. Субъекты разделены на группы, так что каждый субъект больше похож на другие субъекты в своей группе, чем на субъекты вне группы.
В маркетинге кластерный анализ может использоваться для сегментации аудитории, так что различные группы клиентов могут быть нацелены на наиболее релевантные сообщения.
Каким бы ни было приложение, очистка данных – важный подготовительный шаг для успешного кластерного анализа. Кластеризация работает на уровне набора данных, где каждая точка оценивается относительно других, поэтому данные должны быть как можно более полными.
1.2
Обзор методов кластеризации
Кластеризация k-средних. На рисунке 1.1 можно увидеть визуализацию алгоритма кластеризации k-средних:
12
Рисунок 1.1 – Визуализация алгоритма кластеризации k-средних
Алгоритм k-средних присваивает каждую точку ближайшим к нему кластеру, центр которого также называется центроидом. Центр – это среднее значение всех точек в кластере, то есть его координаты являются средним арифметическим для каждого измерения отдельно по всем точкам в кластере.
Иерархическая кластеризация. На рисунке 1.2 приведен визуализация иерархической кластеризации:
Рисунок 1.2 – Визуализация алгоритма иерархической кластеризации
Иерархическая кластеризация делится на два типа:
- agglomerative (агломеративный);
- divisive (разделительный).
Для обработки данных я использовал метод агломеративной иерархической кластеризации. В этом методе изначально все точки данных рассматриваются как отдельные кластеры. На каждой итерации аналогичные кластеры объединяются с другими кластерами, пока не будет сформирован один единственный кластер или K кластеров.
Кластеризацию так же можно разделить на две подгруппы:
- жесткая кластеризация;
- мягкая кластеризация.
13
До этого мы рассматривали кластеризации соответствующие к жесткому типу кластеризации, как k-средних и иерархическая.
В жесткой кластеризации каждая точка данных кластеризуются или группируются в любой один кластер. Каждая точка данных может либо полностью принадлежать кластеру, либо нет.
В мягкой кластеризации, вместо размещения каждой точки в отдельный кластер, назначается вероятность того, что эта точка будет находится в этом кластере. В мягкой кластеризации, так же называемой в нечеткой кластеризации, точка данных может принадлежать сразу нескольким кластерам со своей оценкой вероятности принадлежности.
Нечеткая кластеризация с-средних. На рисунке 1.3 приведен визуализация нечеткой кластеризации:
Рисунок 1.3 – Визуализация работы нечеткой кластеризации
Нечеткая кластеризация с-средних – это метод мягкой кластеризации, который каждой точке данных присваивает оценку вероятности принадлежности к тому или иному кластеру.
1.3
Постановка задачи
Цель дипломной работы – исследование методов кластеризации на примере набора данных клиентов банка, которые являются держателями кредитных карт.
Поставленная цель требует решения следующих задач:
- обзор методов кластеризации;
- выбор средств разработки;
- разведочный анализ данных;
- выбор модели;
- проведение кластерного анализа;
- интерпретация результатов.
В процессе выполнения анализа проводится стандартизация данных, определяется оптимальное количество кластеров с использованием выбранного