Добавлен: 03.07.2023
Просмотров: 179
Скачиваний: 6
СОДЕРЖАНИЕ
ПОНЯТИЕ "СИСТЕМА ИСКУССТВЕННОГО ИНТЕЛЛЕКТА"
1.1. Понятие и классификация систем искусственного интеллекта
2. Использование нейронных сетей в финансах и бизнесе
2.1. Применение нейронных сетей при распознавании объектов
2.2. Прогнозирование на основе нейросетей
2.3. Преимущества и недостатки прогнозирования на нейросетях
2.4. Обзор программных продуктов
Рисунок 1.4 – Нейронная сеть Мак-Каллока – Питтса
Элемент Σ умножает каждый вход х на вес w и суммирует взвешенные входы. Если эта сумма больше заданного порогового значения, выход равен единице, в противном случае – нулю. Эти системы (и множество им подобных) получили название персептронов. Они состоят из одного слоя искусственных нейронов, соединенных с помощью весовых коэффициентов с множеством входов, хотя в принципе описываются и более сложные системы.
В 1957 году Фрэнк Розенблатт предложил и реализовал принцип персептрона – однослойной искусственной нейронной сети (Рисунок 1.5). Персептрон Розенблатта моделировал процессы распознавания геометрических образов и состоял из рецепторного слоя (S), слоя преобразующих нейронов (А) и слоя реагирующих нейронов (R). В модели Розенблатта нейрон имеет несколько входов (дендритов) и один выход (аксон). Нейрон возбуждается и посылает импульс на свой выход, если число сигналов на возбуждающих входах превосходит число сигналов на тормозных входах на некоторую величину, называемую порогом срабатывания нейрона. В зависимости от характера внешнего раздражения, в S-слое образуется некая совокупность импульсов, поступающих на А-слой, где в соответствии с совокупностью пришедших импульсов образуются новые импульсы, поступающие на входы нейронов R-слоя.[15]
Рисунок 1.5 – Логическая схема элементарного перцептрона
S-элементы (сенсоры) - это чувствительные элементы, которые от воздействия какого-либо из видов энергии (например, света, звука, давления, тепла и т. п.) вырабатывает сигнал. Если входной сигнал превышает некоторый порог θ, на выходе элемента получаем +1, в противном случае 0.
Рисунок 1.6 – Функция активации S-элемента
A-элементы (ассоциативные) называются логическими решающими элементами, которые дают выходной сигнал +1, когда алгебраическая сумма их входных сигналов равна или превышает некоторую пороговую величину θ (говорят, что элемент активный), в противном случае выход равен -1.
R-элементы (реагирующие, то есть действующие) называются элементы, которые выдают сигнал +1, если сумма их входных сигналов является строго положительной, и сигнал -1, если сумма их входных сигналов является строго отрицательной. Если сумма входных сигналов равна нулю, выход считается либо равным нулю, либо неопределённым.[16]
Рисунок 1.7 – Функция активации R-элемента
23 июня 1960 года электронная машина «Марк-1», построенная в Корнелльском университете (штат Нью-Йорк) Фрэнком Розенблаттом, проявила способности к самообучению: она безошибочно узнавала, квадрат или круг ей показывают. Таким образом, она усвоила представление об основных геометрических фигурах и определяла квадрат, например, какого бы цвета или размера он ни был. Чтобы «научить» персептрон классифицировать образы, был разработан специальный итерационный метод обучения проб и ошибок, напоминающий процесс обучения человека — метод коррекции ошибки. Кроме того, при распознании той или иной буквы персептрон мог выделять характерные особенности буквы, статистически чаще встречающиеся, чем малозначимые отличия в индивидуальных случаях. Тем самым персептрон был способен обобщать буквы, написанные различным образом (почерком), в один обобщённый образ.
Различают однослойный персептрон, в котором входные элементы напрямую соединены с выходными с помощью системы весов и многослойный персептрон, в котром присутствуют дополнительные слои A-элементов.
Обучение персептрона
Функцией активации F для классического однослойного персептрона является ступенька:[17]
Рисунок 2.5 Функция активации элементарного персептрона
Обучение однослойного персептрона подразумевает наличие обучающей выборки - множества пар векторов (Хs, Ds), где вектор Х данной пары – это входной вектор персептрона, а D – это выходной вектор персептрона, который считается правильным при данном входном. Подадим на вход перcептрона вектор Хs из обучающего множества и рассчитаем выход сети Ys. Сравним выход сети с эталоном Ds. Зная разницу между ними, можно ввести коррекции для весовых коэффициентов и пороговых уровней:
Если ответ сети правильный (ds – ys = 0), то веса нейрона не изменяются.
Если ответ больше правильного (ds – ys < 0), то веса нейрона должны уменьшаться.
Если ответ меньше правильного (ds – ys > 0), то веса нейрона должны увеличиваться.
Перейти на шаг 1.
Для j-го нейрона в слое данное правило можно записать в виде системы дельта-правило:
Где ε - небольшое положительное число, характеризующиее скорость обучения; Δwij – коррекция, связанная с i-м входом нейрона; ΔΘj - коррекция порогового уровня j-го нейрона; wij(n+1) – значение веса после коррекции; wij(n) - значение веса до коррекции; Θj(n+1) - значение порогового уровня после коррекции; Θj(n) - значение порогового уровня до коррекции.
За конечное число шагов сеть научиться давать правильные ответы. При старте обучения веса и пороговые уровни инициализируются случайными значениями. Созданная таким образом сеть абсолютно неадекватна решаемой задаче и может генерировать на выходе только шум. Поэтому ошибка в начале обучения очень велика, и есть смысл вводить большие коррекции параметров. Ближе к концу обучения ошибка значительно снижается, и коррекции должны быть малыми. Чтобы менять длину шагов по параметрам, используют расписание обучения (learning schedule). Скорость обучения, зависит от времени обучения: ε(t). Обычно скорость монотонно убывает с ростом времени. Для сходимости алгоритма необходимо:
Часто выбирают ε(t) = 1/at, а > 0 или аналогичные функции. Алгоритмы с расписанием обучения сходятся быстрее, так как в начале используются большие коррекции, и дают более точные результаты за счет точной настройки параметров в конце обучения.
2. Использование нейронных сетей в финансах и бизнесе
Нейронные сети появились в 40-х годах, однако в финансах и экономике использовать их начали лишь в конце 80-х, когда была доказана сходимость основных классов нейронных сетей и существенно улучшена точность распознавания.
Основные задачи применения нейронных сетей в финансовом мире — прогнозирование котировок основных инструментов (курсов валют, ценных бумаг, ГКО и др.) и распознавания определенных ситуаций (например, подозрительных операций с кредитной картой).[18]
Получение решения с помощью сети можно разделить на следующие этапы: создание сети, ее обучение и собственно решение задачи.
Сначала сеть строится, т. е. выбирается архитектура сети, количество слоев, передаточные функции, начальные веса. Следующим этапом является обучение, при котором сети подаются на вход значения, с известными ответами, сеть принимает решение, и происходит корректировка весов в соответствии с правильностью принятого решения. Обучение продолжается до тех пор, пока результаты принятия решения сетью не станут удовлетворительными. После того, как сеть обучена, ее можно применять для решения практических задач. Важнейшая особенность человеческого мозга состоит в том, что, однажды обучившись определенному процессу, он может верно действовать и в тех ситуациях, в которых он не бывал в процессе обучения. Например, мы можем читать почти любой почерк, даже если видим его первый раз в жизни. Так же и нейросеть, грамотным образом обученная, может с большой вероятностью правильно реагировать на новые, не предъявленные ей ранее данные. Нейросетевой подход особенно эффективен в задачах экспертной оценки по той причине, что он сочетает в себе способность компьютера к обработке чисел и способность мозга к обобщению и распознаванию.
Примером сети, ориентированной на поиск зависимостей, можно привести нейросеть на основе методики МГУА (метод группового учета аргументов), которая позволяет на основе обучающей выборки построить зависимость одного параметра от других в виде полинома. Такая сеть может не только мгновенно выучить таблицу умножения, но и найти сложные скрытые зависимости в данных (например, финансовых), которые не обнаруживаются стандартными статистическими методами.[19]
Кластеризация - это разбиение разнородного набора примеров на несколько областей (кластеров), по каким-то общим признакам, причем число кластеров заранее неизвестно. Кластеризация позволяет представить неоднородные данные в более наглядном виде и использовать далее для исследования каждого кластера различные методы. Например, таким образом можно быстро выявить фальсифицированные страховые случаи или недобросовестные предприятия.
2.1. Применение нейронных сетей при распознавании объектов
В целом проблема распознавания образов (ПРО) состоит из двух частей: обучения и распознавания. Обучение осуществляется путем показа отдельных объектов с указанием их принадлежности тому или другому образу. В результате обучения распознающая система должна приобрести способность реагировать одинаковыми реакциями на все объекты одного образа и другими реакциями - на все объекты отличимых образов. Очень важно, что процесс обучения должен завершиться только путем показов конечного числа объектов. В качестве объектов обучения могут быть использованы изображения архитектурных объектов. Важно, что в процессе обучения указываются только сами объекты и их принадлежность образу. За обучением следует процесс распознавания новых объектов, который характеризует действия уже обученной системы. Автоматизация этих процедур и составляет проблему обучения распознаванию образов.
Для решения задачи распознавания лиц используются различные методики, среди которых можно выделить подходы, основанные на нейронных сетях, алгебраических моментах, линиях одинаковой интенсивности, эластичных (деформируемых) эталонах сравнения.
Анализ методов выделения сюжетной части изображения показал, что для решения данной задачи эффективным является использование искусственных нейронных сетей, поскольку они обеспечивают возможность получения классификатора, хорошо моделирующего сложную функцию распределения изображений строений, тем самым увеличивая точность решения по сравнению с решениями, получаемыми другими методами.
Наиболее часто в задачах распознавания и идентификации изображений используются классические нейросетевые архитектуры (многослойный персептрон, сети с радиально-базисной функцией и др.), но применение классических нейросетевых архитектур в задачах распознавания имеет ряд недостатков, поэтому для решения данной задачи целесообразно использовать рекурсивные нейронные сети (например Хопфилда), обеспечивающие частичную устойчивость к изменениям масштаба, смещениям, поворотам, смене ракурса и прочим искажениям.
Архитектура нейронной сети включает большое количество чередующихся слоев двух типов: ассоциативные слои и подвыборочных (рисунок 2.1).[20]
Рисунок 2.1 – Принцип использования нейронной сети для распознавания образов:
1 — вход; 2, 4, 6 — ассоциативные слои; 3, 5 — подвыборочные слои;
7 — слой из обычных нейронов; 8 — выход
Нейроны в пределах слоя организованы в плоскости. В каждом слое имеется набор из нескольких плоскостей, причем нейроны одной плоскости имеют одинаковые синаптические коэффициенты, ведущие ко всем локальным участкам предыдущего слоя. Каждый нейрон слоя получает входы от некоторой области предыдущего слоя, т. е. входное изображение предыдущего слоя как бы сканируется небольшим окном и пропускается сквозь набор синаптических коэффициентов, а результат отображается на соответствующий нейрон текущего слоя. Набор плоскостей представляет собой карты характеристик, и каждая плоскость находит “свои” участки изображения в любом месте предыдущего слоя. Размер локального рецептивного поля выбирается самостоятельно в процессе разработки нейронной сети.(Рисунок 2.2)[21]
Вход Карта признаков
Рисунок 2.2 – Результат сканирования изображения
Подвыборочный слой уменьшает масштаб плоскостей путем локального усреднения значений выходов нейронов. Таким образом достигается иерархическая организация. Последующие слои извлекают более общие характеристики, слабее зависящие от искажений изображения.
Постепенно нейронная сеть обучается выделять ключевые характеристики лиц в поступающих на вход изображениях; отклики нейронной сети образуют максимумы в местоположениях объектов. [22]
Последовательность действий при распознавании в этом случае будет следующей: