Файл: Интеллектуальные системы.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 30.11.2023

Просмотров: 203

Скачиваний: 8

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

49
Контрольные вопросы

1. Что такое кластеризация?
2. Что такое карта Кохонена?

3. Для решения каких задач применяется карта Кохонена?
4. Кратко опишите процесс кластеризации (Кохонен).
5. Опишите процесс кластеризации (Кохонен) в Deductor.
Список литературы
1. Пальмов С.В. Конспект лекций по дисциплине «Интеллекту- альные системы и технологии».
2. Сайт basegroup.ru.
3. Руководство пользователя ПО Deductor Academic.

50
Лабораторная работа №6. Нейронные сети
Цель работы: Научиться использовать нейронные сети для анализа данных
Введение
Нейронные сети (НС) представляют собой вычислительные структуры, моделирующие простые биологические процессы, анало- гичные процессам, происходящим в человеческом мозге.
НС – это распределённые и параллельные системы, способные к адаптивному обучению путём реакции на положительные и отрица- тельные воздействия. В основе построения сети лежит элементарный преобразователь, называемый искусственным нейроном или просто нейроном по аналогии с его биологическим прототипом.
Структуру НС можно описать следующим образом. НС состоит из нескольких слоёв: входной, внутренние (скрытые) и выходной слои.
Входной слой реализует связь с входными данными, выходной – с вы- ходными. Внутренних слоёв может быть от одного и больше.
В каждом слое содержится несколько нейронов.
Между нейронами есть связи, называемые весами.
В Deductor в основе обработчика «Нейросеть» лежит многослой- ный персептрон с двумя алгоритмами обучения.
Рис. 21. Структура нейрона

51
Рис. 22. Пример нейросети
НС способна имитировать какой-либо процесс. Любое изменение входов НС ведёт к изменению её выходов. Причём выходы НС однозначно зависят от её входов.
Перед тем как использовать НС, её необходимо обучить. Задача обучения здесь равносильна задаче аппроксимации функции, то есть восстановление функции по отдельно взятым её точкам – таблично заданной функции. Таким образом, для обучения нужно подготовить таблицу с входными значениями и соответствующими им выходными значениями.
По такой таблице НС сама находит зависимости выходных полей от входных. Далее эти зависимости можно использовать, подавая на вход НС некоторые значения. На выходе будут восстановлены зависи- мые от них значения. Причём на вход можно подавать значения, на которых НС не обучалась.
Важно следующее. Обучающая выборка не должна содержать противоречий, так как НС однозначно сопоставляет выходные значе- ния входным. После обучения на вход НС необходимо подавать значе- ния из диапазона, на котором она обучалась. Например, если при обу- чении НС на один из её входов подавались значения от 0 до100, то в дальнейшем следует на этот вход подавать значения из диапазона от 0 до100.
НС работают по принципу «чёрного ящика», однако, в отличие от статистических регрессионных моделей (используются для исследова- ния влияния одной или нескольких независимых переменных на зави- симую переменную), менее чувствительны к выбросам, шумам, муль-


52 тиколлинеарности (наличие линейной зависимости между независи- мыми переменными регрессионной модели) во входных признаках.
Описание программного обеспечения
Данная лабораторная работа должна выполняться при помощи
ПО Deductor Academic 5.3.
Домашнее задание студентам для подготовки к выполнения лабо- раторной работы
Изучить по лекциям и учебной литературе особенности нейрон- ных сетей и работы в ПО Deductor Academic 5.3.
Порядок выполнения лабораторной работы
Задание №1. Оценка стоимости недвижимости
Особенностью процесса оценки стоимости объекта имущества является его рыночный характер. Это означает, что процесс оценки объекта не ограничивается учётом одних только затрат на создание или приобретение оцениваемого объекта собственности - необходим учёт совокупности рыночных факторов, экономических особенностей оцениваемого объекта, а также макроэкономического и микроэконо- мического окружения. Кроме того, рынок недвижимости очень дина- мичный, поэтому требуется периодическая переоценка объектов соб- ственности.
НС как универсальные аппроксиматоры позволяют строить слож- ные нелинейные регрессионные модели типа "чёрный ящик". Создание моделей для оценки стоимости недвижимости могут существенно по- высить эффективность работы организаций, занимающихся риэлтер- ской деятельностью.
Целевой признак – стоимость квартиры.
1. Запустите Deductor.
2. Импортируйте набор данных из файла «Недвижимость.ddf».
3. Щёлкните левой кнопкой мыши по появившемуся пункту сце- нария.
4. Нажмите F7.

53 5. Выберите пункт «Качество данных». Все настройки мастера обработки оставьте по умолчанию. В результате откроется ви- зуализатор «Оценка качества данных».
Аудит данных обнаружил несколько выбросов (выходящих за границы 3-сигма) и экстремальных значений (выходящих за границы
5-сигма). В частности, детализация показывает, что для поля «Общая площадь» есть три экстремальных значения 133 и 134 м
2
. Можно так- же предположить наличие линейной корреляции между общей и жи- лой площадью.
Вообще, нейросетевые модели достаточно устойчивы к шумам, выбросам и мультиколлинеарности, поэтому предпринимать особых усилий по подготовке выборки для них обычно не требуется. Тем не менее, экстремальные значения лучше всё-таки удалить. Они точно не улучшат качество модели.
3-сигма - вероятность того, что случайная величина отклонит-
ся от своего математического ожидания на большую величину, чем
утроенное среднее квадратичное отклонение, практически равна ну-
лю. Правило справедливо только для случайных величин, распределён-
ных по нормальному закону.
Например, пусть имеется выборка наблюдений за ежедневными
продажами в магазине. Значения их распределены по нормальному
закону с математическим ожиданием 150000 руб. и среднеквадрати-
ческим отклонением 20000 руб. Тогда в соответствии с правилом 3-х
сигм продажи ниже, чем 150 000 - 20 000 x 3 = 90 000, и выше, чем
150 000 + 20 000 х 3 = 210 000, являются практически невозможными
событиями. Фактически это означает, что рассматривать данные
объёмы продаж как потенциально возможные не имеет смысла.
6. По умолчанию предлагается ограничить найденные выбросы и экстремальные значения. Переопределите это действие: для выбросов выберете пункт «Оставить без изменения»; для экстремальных значений – «Удалять».
7. Для того чтобы эти действия были произведены, после узла
«Качество данных» добавьте узел «Редактирование выбро- сов», оставив включённым флаг «Использовать информацию узла оценки качества данных».


54 8. Откройте мастер обработки и запустите нейросеть. Убедитесь, что «Стоимость» - выходное поле. Остальные настройки – без изменений. На последнем шаге («Определение способов отоб- ражения») должны быть отмечены первые три пункта.
9. При помощи построенной нейросети (визуализатора «Что-
Если») выполните прогнозирование стоимости квартиры со следующими характеристиками: количество комнат – 3; район – Орджоникидзевский; планировка – Свердловский вариант; этаж – 7; площадь – 63; жилая – 41; кухня – 8; состояние – 4; наличие агентства – нет.
Задание №2 1. Импортируйте набор данных из текстового файла, который вы создали в лабораторной работе №2. Убедитесь, что в файле содержится не менее 300 записей. Если записей меньше, то сдублируйте имеющиеся столько раз, сколько нужно для вы- полнения вышеуказанного требования.
2. Запустите Deductor.
3. Постройте нейросеть и, при помощи опции «Что-если», попы- тайтесь выявить скрытые закономерности в Вашей БД (15 штук). Результаты поместите в отчёт. Сделайте выводы.
Содержание отчёта
1. Титульный лист.
2. Цель лабораторной работы.
3. Предметная область Вашей базы данных.
4. Скриншоты графа нейросети, диаграммы рассеяния (п.8) и что-если (п.9).
5. 15 уникальных записей из Вашей базы данных.
6. Скриншоты результатов поиска скрытых закономерностей и выводы (задание №2).
Контрольные вопросы


55 1. Что такое нейронная сеть?
2. Какова структура нейросети?

3. Что такое 3-сигма?
4. Какова структура искусственного нейрона?
5. Опишите процесс построения нейросети в Deductor.
Список литературы
1. Пальмов С.В. Конспект лекций по дисциплине «Интеллекту- альные системы и технологии».
2. Сайт basegroup.ru.
3. Руководство пользователя ПО Deductor Academic.

56
Лабораторная работа №7. Автокорреляция. Корреляция. Фактор- ный анализ
Цель работы: Научиться использовать автокорреляцию, корреляцию и факторный анализ для исследования данных
Введение
Целью автокорреляционного анализа является выяснение степени статистической зависимости между различными значениями (отсчёта- ми) случайной последовательности, которую образует поле выборки данных. В процессе автокорреляционного анализа рассчитываются коэффициенты корреляции (мера взаимной зависимости) для двух зна- чений выборки, отстоящих друг от друга на определённое количество отсчётов, называемые также лагом. Совокупность коэффициентов кор- реляции по всем лагам представляет собой автокорреляционную функцию ряда (АКФ):
R(k) = corr(X(t), X(t+k)), где k > 0 – целое число (лаг)
По поведению АКФ можно судить о характере анализируемой последовательности и наличии периодичности (например, сезонной).
Очевидно, что при k = 0, автокорреляционная функция будет мак- симальной и равной 1, т.е. значение последовательности полностью коррелировано само с собой, степень статистической взаимозависимо- сти максимальна. Действительно, если факт появления данного значе- ния имел место, то и соответствующая вероятность равна 1. По мере увеличения числа лагов, т.е. увеличения расстояния между двумя зна- чениями, для которых вычисляется коэффициент корреляции, значе- ния АКФ будут убывать из-за уменьшения статистической взаимоза- висимости между этими значениями (вероятность появления одного из них все меньше влияет на вероятность появления другого). При этом чем быстрее убывает АКФ, тем быстрее изменяется анализируемая последовательность. И наоборот, если АКФ убывает медленно, то и соответствующий процесс является относительно гладким. Если в ис- ходной выборке имеет место тренд (плавное увеличение или уменьше- ние значений ряда), то плавное изменение АКФ также будет иметь место. При наличии сезонных колебаний в исходном наборе данных,
АКФ также будет иметь периодические всплески.
Для применения алгоритма автокорреляции в Deductor необходи- мо выбрать поле, для которого вычисляется АКФ. В поле «Количество


57 отсчётов» требуется указать количество отсчётов, для которых будут рассчитаны значения АКФ.
Корреляционный анализ применяется для оценки зависимости выходных полей, данных от входных факторов и устранения незнача- щих факторов. Принцип корреляционного анализа состоит в поиске таких значений, которые в наименьшей степени коррелированны (вза- имосвязаны) с выходным результатом. Такие факторы могут быть ис- ключены из результирующего набора данных практически без потери полезной информации. Критерием принятия решения об исключении является порог значимости. Если модуль корреляции (степень взаимо- зависимости) между входным и выходным факторами меньше порога значимости, то соответствующий фактор отбрасывается как незнача- щий.
Факторный анализ – это математический инструмент для пони- жения размерности пространства признаков, широко применяется в экономике, социологии, психологии.
Информативность многомерного описания объекта возрастает с увеличением количества используемых признаков. Однако очень трудно сразу выбрать и существенные, и независимые друг от друга характеристики. Как правило, аналитик начинает с заведомо избыточ- ного количества признаков, и в процессе работы сталкивается с необ- ходимостью адекватной интерпретации большого объёма полученных данных и их компактной визуализации. Возникает вопрос в том, что многие признаки, вероятно, в некоторой степени дублируют друг дру- га, а вся полученная информация в целом избыточна. За связанными друг с другом (коррелирующими) переменными, по-видимому, стоит влияние некоторой скрытой переменной (фактора), с помощью кото- рой можно объяснить наблюдаемое сходство полученных оценок. Вы- деление факторов, как переменных более общего, более высокого по- рядка, позволяет по-новому взглянуть на полученные данные, заме- тить те связи между переменными, которые ранее небыли очевидны.
В узле «Факторный анализ» для факторизации корреляционной матрицы используется метод главных компонент. Он сводится к выбо- ру новой ортогональной системы координат в пространстве наблюде- ний. В качестве первой главной компоненты избирают направление, вдоль которого массив данных имеет наибольший разброс. Выбор каждой главной последующей компоненты происходит так, чтобы раз- брос данных вдоль неё был максимальным, и чтобы эта главная ком- понента была ортогональна другим главным компонентам, выбранным прежде. В результате получаем несколько главных компонент, каждая следующая из которых несёт все меньше информации из исходного


58 набора. Следующим шагом является выбор наиболее информативных главных компонент, которые будут использоваться в дальнейшем ана- лизе.
Посмотрим на следующий рисунок. На нём изображено дву- мерное пространство наблюдений в осях Х и Y, соответствующих двум измеряемым параметрам.
Рис. 23
Как видно, разброс данных велик по обоим направлениям. Теперь повернём систему координат так, чтобы направление наибольшего разброса массива данных, то есть перейдём в систему координат оси Y соответствовало X’ – Y’. Теперь по оси X‘ дисперсия данных невели- ка, и появляется возможность отбросить это направление, перейдя к одномерному пространству.
Рис. 24
В этом случае потери некоторой части информации могут ком- пенсироваться удобством работы с данными меньшей размерности.
Аналогичные действия выполняются в многомерном случае: система координат последовательно вращается таким образом, чтобы каждый следующий поворот минимизировал остаточный разброс массива дан- ных.
Таким образом, факторный анализ решает две главные задачи:
1. Понижение размерности числа используемых переменных за счёт их объяснения меньшим числом факторов.
2. Группировка и структурирование полученных данных.

59
Математическая модель факторного анализа имеет вид: где p – количество переменных, v
i
– значение i-й переменной. Коэффи- циенты w
j,i называются нагрузкой i-й переменной на j-й фактор или нагрузкой j-го фактора на i-ю переменную. Таким образом, нагрузка – это корреляция между исходной переменной и фактором.
Аналогичным образом: где x
i
– значение i-й переменной, которое выражено в виде линейной комбинации m главных факторов, количество которых меньше числа исходных признаков, и остаточным членом u
i
, характерным только для переменной x
i
; a
i,j
– регрессионные коэффициенты, показывающие вклад каждого из k факторов в данную переменную.
Факторы имеют две характеристики: долю объясняемой диспер- сии и нагрузки. Результат процедуры факторизации заключается в формировании матрицы факторных нагрузок.
Табл.7 x
i f
1
… f
m x
1 w
11 w
1m x
2 w
21 w
2m x
3 w
31 w
3m



… x
p w
p1 w
pm
На практике аналитикам чаще всего интересен факторный анализ с ортогональным вращением осей, когда при повороте осей координат угол между факторами остаётся прямым. Цель исследователя заключа- ется в поиске простой структуры или попытке объяснить большее чис- ло переменных меньшим числом факторов. «Простота» хорошего фак- торного решения заключается в том, что каждая переменная имеет