Файл: !07ianote.pdf

Скачать файл (0,27Мб)

Заказать решение

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 30.03.2021

Просмотров: 114

Скачиваний: 1

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Эта новая целевая функция называется

Лагранжианом

. Необходимым условием метода Лагранжа являет-

ся равенство нулю производных Лагранжиана по переменным

. Взяв производную целевой функции

по

, выражаем вектор

через множители Лагранжа:

Из этого следует, что искомый вектор

должен быть линейной комбинацией учебных векторов, причем

только тех, для которых

= 0

Если

, то документ обучающей коллекции

называется

опорным вектором

(

support vector

Теперь уравнение разделяющей гиперплоскости выглядит так:

−

= 0

где

— это документ, который мы хотим классифицировать.

В случае если бы не были введены штрафы, значение

можно было бы найти как среднее между

значениями скалярного произведения

на вектора первой категории и второй. Если же штрафы введены,

то необходимо найти полосу, при которой сумма штрафов минимальна.

Взяв производную целевой функции по

, получаем что

= 0

Подставляя

, выраженное через

, в Лагранжиан, получаем новую, «двойственную» задачу: реше-

нию соответствуют такие значения множителей, при которых достигается максимум

−

i,j

(

)

при условиях

= 0

где второе ограничение — это дополненное исходное ограничение на

, так как штрафы

тоже выража-

ются через

Полезно заметить, что матрица коэффициентов при

положительно определена, из чего следу-

ет, что полученная функция выпуклая, а значит любой локальный максимум (минимум) этой функции
является ее глобальным максимумом (минимумом).

В итоге, исходная задача квадратичной оптимизации была переформулирована в задачу для множи-

телей Лагранжа. Целевая функция зависит не от самих

, а от скалярных произведений между ними.

Само скалярное произведение есть некоторая метрика близости, которая, например, для векторов пока-
зывает количество совпадений признаков, и во многих практических случаях использование скалярных
произведений учебных векторов гораздо удобнее манипуляций самими учебными векторами.

Решение двойственной задачи: метод последовательных оптимизаций

Алгоритм решения двойственной задачи таков:

1. Начать с набора

, удовлетворяющих ограничениям.

2. С помощью хитрых эвристик выбрать из набора пару улучшаемых коэффициентов

3. При фиксированных значениях остальных множителей из набора и имеющихся ограничениях

old
i

old
j

, λ

выбрать оптимальную пару значений (

мини-оптимизация

4. Продолжать процесс, повторяя шаги 2 и 3, до наступления

стоп-условий

Таким образом, на каждом шаге мы изменяем два коэффициента так, чтобы оставались выполненными

ограничения, и при этом функция возросла. Множество таких пар

, удовлетворяющих ограничениям,

лежит на диагонали в прямоугольнике со сторонами равными

. Действительно, из ограничения следует,

что

const

, что в свою очередь задает уравнение прямой. Ее отрезок, лежащий в квадрате,

в котором

изменяются в пределах от

до

, и является множеством точек, удовлетворяющих

ограничениям. Среди этого множества нужно выбрать ту точку, при которой максимизируемая функция
принимает наибольшее значение. В нашем случае имеются всего две переменные, и нужно просто найти
максимум квадратичной функции.

Стоп-условие

— это некоторая эвристика. Нам известно, что на каждом шаге максимизируемая функ-

ция должна возрастать, тогда в качестве стоп-условия может быть выбрано следующее: за последние сто
шагов функция возросла менее чем на какое-нибудь число

. Исследуемая функция выпуклая, и после

того, как она перестанет расти и достигнет максимума, можно быть уверенными, что этот максимум
глобальный.

Расширение пространства признаков

Метод классификации разделяющей полосой имеет два недостатка:

•

в поиске разделяющей полосы существенное значение имеют только пограничные точки;

•

во многих случаях найти оптимальную разделяющую полосу невозможно.

Следовательно, необходимо как-то улучшить метод. Как мы помним, условия задачи оптимизации, сфор-
мулированной с помощью множителей Лагранжа, зависели только от скалярных произведений между
учебными документами. Поэтому для улучшения метода можно попытаться изменить скалярное произ-
ведение. Здесь на помощь приходит идея

расширенного пространства

Построение машины опорных векторов:

1. Выберем отображение

(

)

векторов

в новое,

расширенное

пространство.

2. Автоматически получается новая функция скалярного произведения

(

x, y

) =

(

)

(

)

. На прак-

тике обычно выбирают не отображение

(

)

, а сразу функцию

(

x, y

)

, которая могла бы быть

скалярным произведением при некотором отображении

(

)

. Функция

(

x, y

)

называется

ядром

Эта функция есть главный параметр настройки машины опорных векторов.

3. Находим разделяющую гиперплоскость в новом пространстве: с помощью функции

(

x, y

)

мы со-

ставляем новую матрицу коэффициентов для задачи оптимизации, подставляя вместо

(

)

зна-

чение

(

, x

)

, и решаем новую задачу оптимизации.

4. Найдя

, получаем классифицирующую поверхность

(

)

−

в новом, расширенном простран-

стве.

Примеры

Пример 1

Рассмотрим наглядный пример перехода к расширенному пространству, изображенный на рисунке 3.

Как видно, эти оранжевые и зеленые точки не разделяются никакой полосой. Если же мы перенесем

Рис. 3.

Пример перехода к расширенному пространству

эти точки на сферу, то тогда они разделяются плоскостью, которая срезает часть сферы вместе с оран-
жевыми точками. Таким образом, выгнув пространство с помощью отображения

, можно легко найти

разделяющую гиперплоскость.

Пример 2

(

) =

((

, x

))

→

(

2
1

, x

2
2

√

)

(

x, y

) =

2
1

2
2

+ 2

= (

)

Мы видим, что не обязательно считать

(

)

(

)

, чтобы сосчитать скалярное произведение. Можно

сразу сказать, что новое скалярное произведение есть старое скалярное произведение в квадрате. Это
очень полезно, так как в данном примере пространство увеличилось всего на одну координату, а в прак-
тических ядрах оно может увеличиться во много раз, и в таких случаях считать скалярное произведение
через функцию

может быть очень невыгодно.

Пример 3

(

) = (1

, c

...

, . . . , c

110

...

, . . . , c

...

d
k

)

В данном случае отображение делает следующее: оно берет вектор

, и делает столько координат,

сколько бывает мономов степени не больше

, добавляя некоторые коэффициенты. Моном степени

есть произведение некоторых координат вектора в таких степенях, что их сумма не превышает

. Мы

придумали это отображение, уже имея в виду, что хотим получить скалярное произведение вида:

(

x, y

) = (1 +

)

Раскроем скалярное произведение

. . .

и подставим в скобку

(1 +

)

. Возведем ее в

степень

и получим большую сумму, из которой можно заметить, что коэффициент при соответствующем

мономе-координате равен корню из числа слагаемых в этой сумме, в которых присутствует этот моном.

Общая формула для коэффициента координаты-монома вида

. . . x

такова:

...α

. . . α

−

. . .

−

Итак, с помощью введенного отображения мы смогли найти разделяющую гиперплоскость

(

)

−

На самом деле это многочлен от координат исходного вектора

, причем

— это коэффициент этого

многочлена. В расширенном пространстве мы ищем

, для которых гиперплоскость

(

)

−

будет

разделением, однако в исходном пространстве мы ищем полином, который опишет кривую разделения
первого и второго классов. Поэтому, выбрав соответствующее ядро, мы выбираем класс разделяющих
поверхностей. Ядру

(

x, y

) = (1 +

)

соответствуют все полиномы, то есть мы ищем

оптимальную

полиномиальную разделяющую поверхность

Итоги

Преимущества SVM:

•

на тестах превосходит другие методы;

•

при различных выборах ядер можно эмулировать другие подходы. Например, большой класс ней-
ронных сетей можно представить в виде SVM с определенными ядрами;

•

теоретическое обоснование: итоговое правило мы выбираем не с помощью некоторых эвристик, а
согласно оптимизации некоторой функции.

Недостатки:

•

мало параметров для настройки: после того как мы зафиксировали ядро, единственным варьируе-
мым параметром остается коэффициент ошибки

;

•

не очень понятно, как выбирать ядро;

•

медленное обучение.

Метод опорных векторов сводит обучение классификатора к задаче квадратичной оптимизации.
Задача квадратичной оптимизации решается эвристическими алгоритмами путем последовательного

уменьшения целевой функции.

Для построения нелинейных классификаторов используется отображение исходных объектов в расши-

ренное пространство признаков.

Источники

[1] Wikipedia, Support Vector machine

http://en.wikipedia.org/wiki/Support_vector_machine

[2] CJC Burges. A Tutorial on Support Vector Machines for Pattern Recognition

http://www.music.mcgill.ca/˜rfergu/adamTex/references/Burges98.pdf

[3] Константин Воронцов. Лекция по методу опорных векторов

http://www.ccas.ru/voron/download/SVM.pdf

[4] John Platt. Sequential Minimal Optimization

http://research.microsoft.com/users/jplatt/smo.html