Файл: Задача бинарной классификации.pdf

Также существенно влияет на качество работы выбор параметра p степени группировки значений признаков. На рис. 5 показана зависимость качества предсказания от степени группировки признаков. Видно, что на данных Amazon увеличение p повышает качество, а на данных Movie Lens оптимальным оказывается p = 2, а большие значения существенно ухудшают результат.

AUC

^{0.91 0.79}

AUC

^{0.90 0.78}

^{0.89 0.77}

^{0.88 0.76}

^{0.87 0.75}

^{0.86 0.74}

^{0.85 0.73}

^{0.84 0.72}

^{0.83 0.71}

^{0.82 0.70}

_{1.0 1.5 2.0 2.5 3.0 3.5 4.0 1.0 1.5 2.0 2.5 3.0 3.5 4.0}

_{Grouping degree}(p) _{Grouping degree}(p)

Рис.5 Зависимость качества работы наивного байеса от степени группировки признаков (параметра p). Слева изображен график для данных Amazon, справа для данных Movie Lens.

- 1. Обучение внешнего мира-алгоритма

Как было описано в разделе 3.8, можно использовать перекодировку значений признаков аппроксимациями соответствующих вероятностей p(y X^j) (точнее их логарифмов) и над полученной матрицей данных обучать мта-алгоритм. В качестве мета-алгоритмов были выбраны логистическая регрессия и случайный лес. В таблице 3 показана информация о результатах использования различных мета-алгоритмов. Видно, что логистическая регрессия лучше показывает результат как в качестве, так и в скорости работы.

Отдельно стоит заметить, что оптимальное p в случае классического наивного байесовского классификатора без использования внешнего мета-алгоритма не является оптимальным при его использовании. Так, например, p = 4, будучи оптимальным в случае классического наивного байеса на данных Amazon показывает низкое качество при использовании мета-алгоритма (AUC = 0.8654 против AUC = 0.8721).

Мета-алгоритм	Amazon	Movie Lens
Случайный лес	AUC = 0.8658	AUC = 0.7655
	Время обучения = 17.8 сек	Время обучения = 23.5 сек
	Доля выборки = 40%	Доля выборки = 30%
	p = 2	p = 2
Логистическая регрессия	AUC = 0.8721	AUC = 0.7809
	Время обучения = 83.1 сек	Время обучения = 76.4 сек
	Доля выборки = 10%	Доля выборки = 7%
	p = 2	p = 2

Таблица 3. Качество различных мета-алгоритмов, обучающихся над результатами работы наивного байеса.

На Рис. 6 показаны примеры зависимости качества от доли выборки, которая отходит на обучение мета-алгоритма.

Нужно обратить внимание, что применение линейного мета-алгоритма требует значительно меньшей части обучающей выборки нежели случайный лес и, как следствие, перекодировка признаков обучается на большой доле данных. Возможно, это является одной из причин того, что линейный мета-алгоритм показывает более высокое качество работы.

AUC

^{0.90 0.790}

^{0.89 0.785}

^{0.88 0.780}

^{0.87 0.775}

^{0.86 0.770}

^{0.85 0.765}

^{0.84 0.760}

^{0.83 0.755}

^{0.00 0.05 0.10 0.15 0.20 0.25 0.30}^{0.0 0.1 0.2 0.3 0.4 0.5 0.6}

_{model_split_size model_split_size}

Рис. 6. Доля выборки, отходящая на обучение мета-классификатора. Слева изображен график для данных Amazon, справа для данных Movie Lens.

Также было проведено и множество других экспериментов. Например, были проведены попытки обучать мета-алгоритмы не на значениях logP(y|X^j), а на исходных p(y|X^j). Однако прироста в качестве это не дало.

Также было замечено, что чаще всего неправильные ответы мета-алгоритм выдает на объектах, в которых накоплена маленькая частотная статистика для вычисления p(y|x^j. В связи с этим была испробована идея использовать

P_n I[yi = y] * I[xj = xj]

p(y|x^j) =

P_n I[x^j = x^j]

в качестве признаков для мета-алгоритмов, а отдельно числитель и знаменатель дроби, с помощью которой он вычисляется, чтобы мета-алгоритм смог улавливать уверенность и неуверенность частотных оценок. Однако и такой подход давал падение качества.

1. Разреженная логистическая регрессия

Один и из самого успешного алгоритма – это логистическая регрессия на данных, закодированных с помощью dummy-кодирования. Ключевыми параметрами здесь являются p (степень группировки признаков) и параметр регуляризации С логистической регрессии. На рис. 7 можно увидеть графики зависимости качества от параметра регуляризации при p = 2.

AUC

^{0.92 0.805}

AUC

^{0.91 0.800}

^{0.90 0.795}

^{0.89 0.790}

^{0.88 0.785}

^{0.87 0.780}

^{0.86 0.775}

^{0.85 0.770}

^{0.84 0.765}

10^-110⁰10¹10^-110⁰10¹

Рис. 7. Доля выборки, отходящая на обучение мета-классификатора

Вычисление при p = 4 требует больших вычислительных ресурсов по памяти. В таблице 4 показаны результаты работы при различных p. Видно, что группировка большой степени не имеет смысла и ведет к переобучению.

	Amazon	Movie Lens
p = 1	0.8691	0.7958
p = 2	0.8820	0.7951
p = 3	0.8802	0.7826

Таблица 4. Качество работы разреженной логистической регрессии при различных значениях степени группировки признаков p.

Анализируя обученные линейные модели, можно заметить, что большинство коэффициентов в ней близки к нулю. Этот эффект продемонстрирован на рис. 8. Это наводит на мысль об использовании модели с l₁-регуляризацией или elastic net, ведь они ведут к автоматическому отбору признаков и приведению к нулю коэффициентов. Однако такие подходы прироста качества не дали.

Рис. 8. Аккумулированные значения обученного и отсортированного вектора весов логистической регрессии на попарно сгруппированных данных Amazon.

1. Произвольные перенумерации значений признаков

В этом разделе показаны результаты экспериментов с алгоритмами, которые были описанными в разделе 3.5. Несмотря на простоту и понятность идеи, подобный подход показывает неплохое качество. На рис. 9 показана зависимость качества прогноза от количества базовых аппроксиматоров Extremely Randomized Trees в случае сгруппированных попарно данных. Именно такие базовые аппроксиматоры показали себя лучше остальных опробованных.

Однако оно ниже, чем у некоторых других подходов: AUC = 0.8599 на данных Amazon и AUC = 0.7430 на данных Movie Lens. Да и время работы оставляет желать лучшего. Например, на данных Amazon оно превосходит 5 минут, что сильно ограничивает возможности экспериментов с данным методом. Кроме того, оценка качества работы данного метода очень неустойчива.

Помимо обычного усреднения ответа по все алгоритмам еще были проведены эксперименты с бустингом базовых алгоритмов, т.е. каждый следующий базовый алгоритм обучался так, чтобы выполнить ошибки предыдущих. Однако этот подход прироста не дал.

Рис. 9. Зависимость качества от количества базовых аппроксиматоров на попарно сгруппированных данных Amazon.

1. Аппроксимация целевых меток с помощью матричных разложений

Также проведен эксперимент для алгоритмов, описанных в разделе 3.7. В качестве внешнего мета-алгоритма использовался случайный лес, он показал лучшее качество работы по сравнению с линейным классификатором. На наборе данных Amazon описанный метод достиг AUC = 0.8726, а на наборе Movie Lens AUC = 0.7816.

К сожалению, более гибкая настройка этого семейства методов в данном работе не проводилась, хотя алгоритм позволяет иметь множество настроек. Например, можно пробовать варьировать пропорцию разбиения обучающей выборки для обучения кодировки и мета-алгоритма, параметр аддитивного сглаживания α, а использующийся при вычислении средних значений целевых меток в известных клетках раскладывающейся матрицы, выбор оптимального количества компонент в разложении и т.п.

Матричные разложения производились с помощью библиотеки Divisi2 на Python для создания рекомендательных систем.

Результаты экспериментов показаны в таблице ниже.

Метод	Amazon	Movie Lens
Аппроксимации меток + LR	0.8032	0.7507
Аппроксимации меток + RF	0.8593	0.7539
Латентные векторы по меткам + LR	0.8697	0.7784
Латентные векторы по меткам + RF	0.8726	0.7816

1. Перекодировки частотами
  1. Выбор количества компонентов

Также помимо основных опытов, были проведены эксперименты по определению оптимального количества компонента в таких разложениях. График зависимости качества от количества компонент на данных Amazon представлен на рис. 10. Видно, что увеличение количества компонента приводит к увеличению качества алгоритма. Переломный момент, когда большое количество компонентов ведет к переобучению обнаружено не было, однако он, с большей вероятностью, есть. Стоит отметить, что алгоритму удается достигнуть высокого результата, что подтверждает оправданность и эффективность частотных кодировок признаков с помощью латентных векторов.

^0.92

AUC

^0.90

^0.88

^0.86

^0.84

^0.82

^0.80

^{0 1 2 3 4 5 6 7}

^{Factors keeped}

Рис. 10. Зависимость качества от количества компонентов

Помимо действий, описанных выше, были проведены схожие эксперименты, в которых производились разложения матриц количеств совместных встречаемости значений признаков и их видоизменений (например, логарифмов). Однако, подобные подходы не смогли улучшить качество.

Заключение

В данный период времени не существует общепринятого стандартного набора алгоритмов для решения задач машинного обучения с категориальными признаками. В реальной работе был проведен обзор существующих подходов, были представлены новые методы и сравнены эффективности их работы на реальных данных.

Стоит подчеркнуть, что в работе особое внимание уделялось алгоритмам по отдельности и не рассматривались объединения алгоритмов из разных семейств в композиции. Известно, что подобные техники дают возможность сильно улучшать итоговое качество работы систем машинного обучения, даже если базовые алгоритмы показывали не очень высокое качество.

Смотрите также файлы

История развития средств вычислительной техники (История развития информатики).pdf

Применение процессного подхода для оптимизации бизнес-процессов (ООО «Арсенал Авто»).pdf

История возникновения и развития языка программирования Си (С++) и Java(История и характеристика Java ).pdf

Роль мотивации в поведении организации.pdf

Управление запасами (на примере АО «Хоневелл»).pdf

Файл: Задача бинарной классификации.pdf

Заключение

Смотрите также файлы

Информация

Списки файлов

Дополнительно