Файл: Технологии интеллектуального анализа данных или Data mining технологии.docx
Добавлен: 07.12.2023
Просмотров: 71
Скачиваний: 3
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
Путем выявления сочетаний факторов, связанных с оплаченными заявлениями, страховщики могут уменьшить свои потери по обязательствам. Известен случай, когда в США крупная страховая компания обнаружила, что суммы, выплаченные по заявлениям людей, состоящих в браке, вдвое превышают суммы по заявлениям одиноких людей. Компания отреагировала на это новое знание пересмотром своей общей политики предоставления скидок семейным клиентам.
Другие приложения в бизнесе
Data Mining может применяться во множестве других областей:
-
Развитие автомобильной промышленности.
При сборке автомобилей производители должны учитывать требования каждого отдельного клиента, поэтому им нужны возможность прогнозирования популярности определенных характеристик и знание того, какие характеристики обычно заказываются вместе.
-
Политика гарантий.
Производителям нужно предсказывать число клиентов, которые подадут гарантийные заявки, и среднюю стоимость заявок.
-
Поощрение часто летающих клиентов.
Авиакомпании могут обнаружить группу клиентов, которые данными поощрительными мерами можно побудить летать больше. Например, одна авиакомпания обнаружила категорию клиентов, которые совершали много полетов на короткие расстояния, не накапливая достаточно миль для вступления в их клубы, поэтому она таким образом изменила правила приема в клуб, чтобы поощрять число полетов так же, как и мили.
-
Прогноз популярности определенных характеристик товаров и услуг. -
Рыночная сегментация, идентификация целевых групп, построение профиля клиента (Database marketers) -
Детекция подлогов, формирование "типичного поведения" обладателя кредитки, анализ достоверности клиентских счетов, cross-selling программы (кредитные компании). -
Выработка оптимальной торговой стратегии, контроль рисков (биржевые трейдеры). -
Детекция подлогов, прогнозирование поступлений в бюджет (налоговые службы и аудиторы).
Медицина
Диагностика, выбор лечебных воздействий, прогнозирование исхода хирургического вмешательства.
Известно много экспертных систем для постановки медицинских диагнозов. Они построены на основе правил, описывающих сочетания различных симптомов различных заболеваний. С помощью таких правил узнают не только, чем болен пациент, но и как нужно его лечить. Правила помогают
выбирать средства медикаментозного воздействия, определять показания (противопоказания), ориентироваться в лечебных процедурах, создавать условия наиболее эффективного лечения, предсказывать исходы назначенного курса лечения и т.п. Технологии Data Mining позволяют обнаруживать в медицинских данных шаблоны, составляющие основу указанных правил.
Фармацевтика
Предсказание результатов будущего тестирования препаратов, программы испытания.
Молекулярная генетика и генная инженерия
Пожалуй, наиболее остро и вместе с тем четко задача обнаружения закономерностей в экспериментальных данных стоит в молекулярной генетике и генной инженерии. Здесь она формулируется как определение так называемых маркеров, под которыми понимаются генетические коды, контролирующие те или иные фенотипические признаки живого организма. Такие коды могут содержать сотни, тысячи и более связанных элементов.
На развитие генетических исследований выделяются большие средства. В последнее время в данной области возник особый интерес к применению методов Data Mining. Известно несколько крупных фирм, специализирующихся на применении Data Mining для расшифровки генома человека и растений.
Прикладная химия
Методы Data Mining находя широкое применение в прикладной химии (органической и неорганической). Здесь нередко возникает вопрос о выяснении особенностей химического строения тех или иных соединений, определяющих их основные свойства. Особенно актуальна такая задачи при анализе сложных химических соединений, описание которых включает сотни и тысячи структурных элементов и их связей.
Управление производством
Контроль качества, материально-техническое обеспечение, оптимизация технологического процесса.
Наука и техника
Построение эмпирических моделей, основанных на анализе данных, решение научно-технических задач.
4. Типы закономерностей
Выделяют пять стандартных типов закономерностей, которые позволяют выявлять методы Data Mining:
-
ассоциация; -
последовательность; -
классификация; -
кластеризация; -
прогнозирование.
Ассоциация – имеет место в том случае, если несколько событий связаны друг с другом. Например, исследование, проведенное в супермаркете, может показать, что 65% купивших кукурузные чипсы берут также и кока-колу, а при наличии скидки за такой комплект колу приобретают в 85% случаев. Располагая сведениями о такой ассоциации,
менеджерам легко оценить, насколько действенна предлагаемая скидка.
Последовательность – имеет место в том случае, если существует цепочка связанных во времени событий. Так, например, после покупки дома в 45% случаев в течение месяца приобретается кухонная плита, а в пределах двух недель 60% новоселов обзаводятся холодильником.
Классификация – выявление признаков, характеризующих группу, к которой принадлежит тот или иной объект, посредством обучения на уже классифицированных объектах, формулирование набора правил для каждой группы;
Кластеризация – отличается от классификации тем, что сами группы заранее не заданы. Средства Data Mining самостоятельно выявляют различные однородные группы данных.
Прогнозирование - создание (нахождение) шаблонов, адекватно отражающих динамику поведения целевых показателей по временным рядам базы данных. С их помощью можно предсказать поведение системы в будущем.
5. Классы систем Data Mining
Data Mining является мультидисциплинарной областью, возникшей и развивающейся на базе достижений прикладной статистики, распознавания образов, методов искусственного интеллекта, теории баз данных и др. Отсюда обилие методов и алгоритмов, реализованных в различных действующих системах Data Mining. Многие их таких систем интегрируют в себе сразу несколько подходов.
Ниже приводится классификация указанных ключевых компонентов.
Статистические пакеты. Предметно-ориентированные аналитические системы. Нейронные сети. Системы рассуждений на основе аналогичных случаев. Деревья решений. Эволюционное программирование. Генетические алгоритмы. Алгоритмы ограниченного перебора. Системы для визуализации многомерных данных.
Предметно-ориентированные аналитические системы. Наиболее развиты системы в области исследования финансового рынка, так называемый "технический анализ": прогноз динамики цен, выбор оптимальной структуры инвестиционного портфеля, основанный на различных эмпирических моделях динамики рынка. Эти методы максимально учитывают специфику приложения (профессиональный язык, индексы и пр.).
Статистические пакеты. Оказались полезными главным образом для проверки заранее сформулированных гипотез (verification-driven data mining) и для "грубого" разведочного анализа, составляющего основу оперативной аналитической обработки данных (online analytical, OLAP). Большинство методов опираются на усредненные характеристики выборки, которые при исследовании реальных сложных жизненных феноменов часто являются фиктивными величинами. Хорошо описаны пакеты STATGRAPHICS, STATISTICA, STADIA.
Искусственные нейронные сети. Здесь для предсказания значения целевого показателя используются наборы входных переменных, математических функций активации и весовых коэффициентов входных параметров. Выполняется итеративный обучающий цикл, нейронная сеть модифицирует весовые коэффициенты до тех пор, пока предсказываемый выходной параметр соответствует действительному значению. После обучения нейронная сеть становится моделью, которую можно применить к новым данным с целью прогнозирования. Основным недостатком в этом случае является необходимость иметь очень большой объем обучающей выборки. Кроме того, любая нейронная сеть представляет собой "черный ящик" и знания в виде нескольких сотен весовых коэффициентов, полученных с ее помощью, не поддаются анализу и интерпретации. Примеры - BrainMaker, NeuroShell, OWL.
Системы рассуждений на основе аналогичных случаев. Вывод путем сопоставления (Memory-based Reasoning, MBR) или вывод, основанный на прецедентах (Case-based Reasoning, CBR). Эти алгоритмы основаны на обнаружении некоторых аналогий в прошлом, наиболее близких к текущей ситуации, с тем чтобы оценить неизвестное значение или предсказать возможные результаты (последствия). Эти методы называют еще методом "ближайшего соседа". В выборе решения они основываются на всем массиве доступных исторических данных, поэтому невозможно сказать, на основе каких конкретно факторов строятся ответы. Примеры: KATE tools (Франция), Pattern Recognition Workbench (США), КОРА (Россия).
Деревья решений и Алгоритмы классификации. Создается иерархическая структура классифицирующих правил типа "ЕСЛИ..., ТО...", имеющая вид дерева. Для принятия решения, к какому классу отнести некоторый объект или ситуацию, требуется ответить на вопросы, стоящие в узлах этого дерева, начиная с его корня. Определяют естественные “разбивки” в данных, основанные на целевых переменных. Сначала выполняется разбивка по наиболее важным переменным. Ветвь дерева можно представить как условную часть правила. Наиболее часто встречающимися примерами являются алгоритмы классификационных и регрессионных деревьев (Classification and regression trees, CART) либо хи-квадрат индукция (Chi-squared Automatic Induction, CHAID). Недостаток: деревья решений принципиально не способны находить "лучшие" (наиболее полные и точные) правила в данных. (IDIS, KnowledgeSEEKER, See5/C5.0).
Эволюционное программирование. Искомая зависимость целевой переменной от других переменных моделируется несколькими вариантами алгоритмов, из которых отбирается тот, который воспроизводит зависимость более точно. Программы, совершенствуясь, конкурируют друг с другом как живые организмы при естественном отборе в борьбе за выживаемость. Примером такой системы является PolyAnalyst. Найденные зависимости представляются пользователю в виде математической формулы или таблицы. Иногда зависимость ищется в виде функции какого-то определенного вида, например в виде полинома. Так работает метод группового учета аргументов (МГУА).
Генетические алгоритмы. Исходно это было мощное средство решения разнообразных комбинаторных задач и задач оптимизации. Построение алгоритма начинается с кодировки логических закономерностей в базе данных (в виде так называемых, хромосом). Популяция таких хромосом обрабатывается при последовательных итерациях с проведением отбора, операции изменчивости (мутации), скрещивания, генетической композиции, как это происходит в природе с настоящими генами. Для отбора определенных особей и отклонения других используется “функция приспособленности” (fitness function). Генетические алгоритмы в первую очередь применяются для оптимизации топологии нейронных сетей и весов. Однако, их можно использовать и самостоятельно, для моделирования. Пример: GeneHunter.
Алгоритмы ограниченного перебора. Ассоциативные правила. Предложены М.М. Бонгардом для поиска логических закономерностей в данных. Выявляют причинно-следственные связи и определяют вероятности или коэффициенты достоверности, позволяя делать соответствующие выводы. Правила представлены в форме “если <условия>, то <вывод>”. Их можно использовать для прогнозирования или оценки неизвестных параметров (значений). На основе частоты встречаемости логических закономерностей делается вывод о полезности какой-либо их комбинации (конъюнкции) для установления ассоциации в данных, для классификации, прогнозирования и т.д. (Пример, WizWhy). Недостатки: максимальная длина комбинации в if-then-правиле равна 6; поиск простых логических событий в начале работы производится эвристически. Тем не менее данная система постоянно демонстрирует более высокие показатели при решении практических задач, чем все остальные алгоритмы.
Системы для визуализации многомерных данных. Средства графического отображения данных поддерживаются всеми системами Data Mining. Но некоторые предназначены исключительно для этой цели (например, Data Miner 3D). Их главной характеристикой является дружелюбный пользовательский интерфейс с удобными средствами масштабирования и вращения изображений.
Кластерный анализ. Подразделяет гетерогенные данные на гомогенные или полугомогенные группы. Метод позволяет классифицировать наблюдения по ряду общих признаков. Кластеризация расширяет возможности прогнозирования.
Конечно, для того, чтобы разобраться в достоинствах и недостатках приведенных здесь методов Data Mining, не достаточно столь краткого описания. Требуется гораздо больше информации и времени, чтобы сориентироваться в столь разнообразных и не всегда простых методах. Необходимы консультации профессионалов в области Data Mining, рекомендующих наилучший подход в той или иной ситуации. Но затраченные усилия не пропадут даром, т.к. методы Data Mining значительно расширяют возможности специалистов любой области знаний для выявления наиболее информативных показателей при обработке обширных баз данных и решении конкретных задач; позволяют обнаруживать порой принципиально новые факты, радикально меняющие известные взгляды. Благодаря быстрому прогрессу вычислительной техники и появлению программ с дружественным интерфейсом они становятся все более доступными для пользователя. Нужно грамотно использовать разные методы Data Mining при решении разных задач.