Файл: Персептроны. Назначение, обобщенная схема, виды персептронов, принципы работы. Достоинства и недостатки персептронных систем.pdf
Добавлен: 26.06.2023
Просмотров: 449
Скачиваний: 11
σ(bm (x - hm )) =0.5 [σ(bm (x - hm )) + σ(bm (x - hm )) ] (1.30)
Обучение многослойного персептрона происходит по алгоритму градиентного спуска, аналогичному однослойному. Один из знаменитых вариантов этого алгоритма получил название метод обратного распространения ошибки.
1.4. Алгоритмы обучения
Способность к обучению является важным свойством нейронной сети любого вида. Процесс обучения – это важная процедура для настройки весов и порогов, целью которой служит уменьшение разности между целевыми и получаемыми векторами на выходе. Розенблатт принимал попытки к классификации алгоритмов обучений персептрона, называя их системами подкрепления, что означает любой набор правил, основывая на которые матрицу взаимодействия персептрона (состояние памяти) можно изменять с течением времени. [7]
При описании этих системподкрепления и уточнения возможных их видов, Розенблатт брал за основу идеи Д. Хебба, предложенных в 1949 году, из которых можно вывести правило, состоящее из этих частей:
- Если два нейрона по обе стороны синапса (соединения) активизируются одновременно (то есть синхронно), то прочность этого соединения возрастает.
- Если два нейрона по обе стороны синапса активизируются асинхронно, то такой синапс ослабляется или вообще отмирает
Метод коррекции ошибки является классическим методом обучения персептрона и представляет собой вид обучения с учителем, в котором все связи остаются неизменными, пока персептрон дает правильную реакцию. Появление неправильной реакции приведет к изменению веса на единицу, а знак (+/-) определится противоположным от знака ошибки.
Допустим, нужно обучить персептрон как разделять два класса объектов, чтобы в результате при предъявлении объектов первого класса, выход персептроне был положительным (+1), а при предъявлении объектов второго класса — отрицательным (−1). Для этого нужен следующий алгоритм:
- Случайным образом выбираются пороги для A-элементов и устанавливаются связи S-A.
- Начальные коэффициенты wiравны нулю.
- Предъявляется обучающая выборка: объекты с указанием класса, к которым они принадлежат.
- Персептронупоказывается объект первого класса. При этом некоторые A-элементы возбудятся. Коэффициенты wi, соответствующие этим возбуждённым элементам, увеличиваются на 1.
3.2. Предъявляется объект второго класса и коэффициентыwi тех A-элементов, которые возбудятся при этом показе, уменьшаются на 1.
- Обе части шага 3 выполняются для всей обучающей выборки. В результате обучения сформируются значения весов связейwi.
С помощью теоремы сходимости персептрона, описанной и доказанной Ф. Розенблаттом, можно увидеть, что обучение элементарного персептрона по такому алгоритму, вне зависимости от начального состояния весовых коэффициентов и последовательности появления стимулов, приведёт к достижению решения за конечный промежуток времени.
Существует так же понятие «обучение без учителя», введенное Розенблаттом.
Альфа-система подкрепления — это система подкрепления, при которой веса всех активных связей cij, которые ведут к элементу uj, изменяются на одинаковую величину r, а веса неактивных связей за это время не изменяются.
После, с созданием понятия «многослойныйперсептрон», альфа-система была модифицирована, и получила название - дельта-правило. Модификация была проведена, чтобы сделать функцию обучения дифференцируемой, что в свою очередь нужно для применения метода градиентного спуска, благодаря которому возможно обучение более одного слоя.
Для обучения многослойных сетей, ряд учёных, в том числе Д. Румельхарт, предложил градиентный алгоритм обучения с учителем, позволяющий проводить сигнал ошибки к входам персептрона, слой за слоем, но вычисленный выходами персептрона.Преимущество его заключается в способности обучать все слои сети, и его легко просчитать локально. В списке недостатков этого метода – длительность, для его применения нужно, чтобы передаточная функция нейронов была дифференцируемой. При этом в персептронах пришлось отказаться от бинарного сигнала, и пользоваться на входе непрерывными значениями. [3]
2. Принципы работы, применение
2.1 Принципы работы персептронов
Первый принцип, который используют нейронные модели это использовать аналогии с мозгом и реальными нейронами. В связи с этим формулируются основные факты о мозге и нейронах:
- Мозг состоит из нейронов
- Нейроны связаны друг с другом
- Нейроны обмениваются сигналами
- Сигналы имеют булевскую природу
- Система связанных нейронов - это стохастическая динамическая система
Упрощенно, нейрон - это пороговая система, которая получает входные сигналы от других нейронов, суммирует их и если эта сумма превышает некий порог, генерирует выходной сигнал.
Идеализированная модель такой пороговой системы может быть построена при помощи сигмоидальных функций. Типичный график такой функции имеет следующий вид:
Рисунок 2.1. Пример сигмоидальной функции
Приведем в качестве примера несколько функций подобного рода:
(2.1)
где x — амплитуда входного сигнала, который получает нейрон от других нейронов; σ — выходной сигнал нейрона (рис. 2.1.);
(2.2)
функция скачка или функция Хевисайда (рис. 2.2);
Рисунок 2.2 Функция Хевисайда
- Кусочно-линейная (функция )
- Кусочно-полиномиальная
При распознавании образов в мозге происходят сложные процессы. Упрощенно систему распознавания образов можно представить как многослойный персептрон.
Сигналы из многослойного персептрона обрабатываются кортекс - это рекуррентная нейросеть.
Силу связи между нейронами описывает матрица синаптических связей W. Известно, что вся долговременная фундаментальная информация хранится в этой матрице. Матрица синаптических связей W медленно меняется со временем. Итак, в сети две динамики — быстрая динамика нейронов, описываемая динамической системой, и медленная, связанная с изменением силы связи между нейронами. Медленная динамика упрощенно описывается так называемым правилом Хебба. Хебб — канадский физиолог, который экспериментально показал, что если дванейрона оба часто одновременно активны, то сила связи между ними растет. Возможны разные варианты математической записи такого правила. [9]
Если воспользоваться простейшим вариантом правила Хебба, предложенным С. Фузи, Н. Брюнелем и др., то можно показать, что это правило в совокупности с шестислойным персептроном реализует все важнейшие алгоритмы (преобразование Фурье и т.д.).
Рассмотрим общие принципы функционирования нейронных сетей на примере задачи классификации.
Предположим, мы хотим создать автоматическую систему, которая различает два типа объектов, А и B. Системы технического зрения позволяют записать данные об объектах (признаки объекта) в цифровом виде.
Предположим, что мы характеризуем объект с помощью набора признаков . Признаки могут быть выражены с помощью целых чисел или даже булевских переменных, то есть «есть признак» — «нет признака».
Совокупность признаков можно рассматривать как вектор с k компонентами, или точку k-мерного Эвклидова пространства
. (2.3)
Тогда задача классификации сводится к следующей математической задаче: разделить два множества точек А и Bk-мерного Эвклидова пространства некоторой гиперповерхностью размерности k-1.
Сделаем некоторые важные комментарии. Выбор признаков для классификации является исключительно сложной задачей, которую мы пока не рассматриваем. Ранее это задача решалась вручную, в последнее время появились эффективные методы автоматического нахождения наиболее эффективных признаков. Отметим, что выбор правильных признаков важен для успешности последующей обработки системы признаков методами, которые мы описываем ниже.
Обучение нейронной сети в задачах классификации происходит на наборе обучающих примеров , для которых принадлежность объекта к классу А или классу B известна. Кроме того, определим индикатор:
.(2.4)
По накопленному в результате обучения «опыту» строим сеть, которая проводит разделяющую поверхность.
Математически этот процесс может быть описан как поиск некоторой функции
(2.5)
где W - набор параметров нейронной сети. Эти параметры, в частности, задают силу связи между нейронами и подбираются так, чтобы ошибка обучения
(2.6)
где берутся из обучающего множества, была бы минимальной (как можно ближе к нулю).
Для проверки эффективности обучения нейронной сети берут тестовое множество объектов и вычисляют
(2.7)
где взяты из тестового множества.
После того, как система обучена (что иногда требует большого процессорного времени), она решает автоматически для любого поданного на вход системы объекта , к какому классу он относится.
2.2 Применение персептронов
Разберем практическое применение персептронов на двух различных задачах. Задача прогнозирования (эквивалент задачи распознавания образов) требует высокой точности, а задача управления агентами требует высокой скорости обучения. Однако варианты использования персептронов на этом не исчерпываются. [8]
В практических задачах от персептронанужен выбор более чем из двух вариантов, следовательно,на выходе у него должно находиться более одного R-элемента. При взаимодействииобучающегося агента со средой, важной частью являются обратные связи.
В этих задачах от персептрона требуется установить принадлежность объекта к какому-либо классу. Точность распознавания будет во многом зависеть от представления выходных реакций персептрона. В этой случае возможны три типа кодирования: конфигурационное, позиционное, и гибридное. Позиционное кодирование, когда каждому классу соответствует свой R-элемент, даёт более точные результаты, чем другие виды. Однако оно неприменимо, когда число классов, например, несколько сотен.
В искусственном интеллекте часто рассматриваются обучающиеся (адаптирующиеся к окружающей среде) агенты. При этом в условиях неопределённости становится важным анализировать не только текущую информацию, но и общий контекст ситуации, в которую попал агент, поэтому здесь применяются персептроны с обратной связью. Кроме того, в некоторых задачах становится важным повышение скорости обучения персептрона. [2]
2.3. Достоинства и недостатки
Розенблатт предложил ряд психологических тестов для определения возможностей нейросетей: эксперименты по различению, обобщению, по распознаванию последовательностей, образованию абстрактных понятий, формированию и свойствам «самосознания», творческого воображения и другие. Некоторые из этих экспериментов далеки от современных возможностей персептронов, поэтому их развитие происходит больше философски в пределах направления коннективизма. Тем не менее, для персептронов установлены два важных факта, находящие применение в практических задачах: возможность классификации (объектов) и возможность аппроксимации (границ классов и функций).
Важным свойством персептронов является их способность к обучению, причём по довольно простому и эффективному алгоритму
Сам Розенблатт выделил два фундаментальных ограничения для трёхслойных персептронов (состоящих из одного S-слоя, одного A-слоя и R-слоя):
- Отсутствие у них способности к обобщению своих характеристик на новые стимулы или новые ситуации;
- Неспособность анализировать сложные ситуации во внешней среде путём расчленения их на более простые.
В 1969 году Марвин Минский и Сеймур Паперт опубликовали книгу «Перцептроны», где математически показали, что персептроны, подобные розенблаттовским, принципиально не в состоянии выполнять многие из тех функций, которые хотели получить от персептронов. Его критику можно разделить на три темы: