Добавлен: 04.04.2023
Просмотров: 90
Скачиваний: 1
Также существенно влияет на качество работы выбор параметра p степени группировки значений признаков. На рис. 5 показана зависимость качества предсказания от степени группировки признаков. Видно, что на данных Amazon увеличение p повышает качество, а на данных Movie Lens оптимальным оказывается p = 2, а большие значения существенно ухудшают результат.
AUC
0.91 0.79
AUC
0.90 0.78
0.89 0.77
0.88 0.76
0.87 0.75
0.86 0.74
0.85 0.73
0.84 0.72
0.83 0.71
0.82 0.70
1.0 1.5 2.0 2.5 3.0 3.5 4.0 1.0 1.5 2.0 2.5 3.0 3.5 4.0
Grouping degree (p) Grouping degree (p)
Рис.5 Зависимость качества работы наивного байеса от степени группировки признаков (параметра p). Слева изображен график для данных Amazon, справа для данных Movie Lens.
-
-
- Обучение внешнего мира-алгоритма
-
Как было описано в разделе 3.8, можно использовать перекодировку значений признаков аппроксимациями соответствующих вероятностей p(y Xj) (точнее их логарифмов) и над полученной матрицей данных обучать мта-алгоритм. В качестве мета-алгоритмов были выбраны логистическая регрессия и случайный лес. В таблице 3 показана информация о результатах использования различных мета-алгоритмов. Видно, что логистическая регрессия лучше показывает результат как в качестве, так и в скорости работы.
Отдельно стоит заметить, что оптимальное p в случае классического наивного байесовского классификатора без использования внешнего мета-алгоритма не является оптимальным при его использовании. Так, например, p = 4, будучи оптимальным в случае классического наивного байеса на данных Amazon показывает низкое качество при использовании мета-алгоритма (AUC = 0.8654 против AUC = 0.8721).
Мета-алгоритм |
Amazon |
Movie Lens |
Случайный лес |
AUC = 0.8658 |
AUC = 0.7655 |
Время обучения = 17.8 сек |
Время обучения = 23.5 сек |
|
Доля выборки = 40% |
Доля выборки = 30% |
|
p = 2 |
p = 2 |
|
Логистическая регрессия |
AUC = 0.8721 |
AUC = 0.7809 |
Время обучения = 83.1 сек |
Время обучения = 76.4 сек |
|
Доля выборки = 10% |
Доля выборки = 7% |
|
p = 2 |
p = 2 |
Таблица 3. Качество различных мета-алгоритмов, обучающихся над результатами работы наивного байеса.
На Рис. 6 показаны примеры зависимости качества от доли выборки, которая отходит на обучение мета-алгоритма.
Нужно обратить внимание, что применение линейного мета-алгоритма требует значительно меньшей части обучающей выборки нежели случайный лес и, как следствие, перекодировка признаков обучается на большой доле данных. Возможно, это является одной из причин того, что линейный мета-алгоритм показывает более высокое качество работы.
AUC
AUC
0.90 0.790
0.89 0.785
0.88 0.780
0.87 0.775
0.86 0.770
0.85 0.765
0.84 0.760
0.83 0.755
0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.0 0.1 0.2 0.3 0.4 0.5 0.6
model_split_size model_split_size
Рис. 6. Доля выборки, отходящая на обучение мета-классификатора. Слева изображен график для данных Amazon, справа для данных Movie Lens.
Также было проведено и множество других экспериментов. Например, были проведены попытки обучать мета-алгоритмы не на значениях logP(y|Xj), а на исходных p(y|Xj). Однако прироста в качестве это не дало.
Также было замечено, что чаще всего неправильные ответы мета-алгоритм выдает на объектах, в которых накоплена маленькая частотная статистика для вычисления p(y|xj. В связи с этим была испробована идея использовать
Pn I[yi = y] * I[xj = xj]
p(y|xj) =
Pn I[xj = xj]
в качестве признаков для мета-алгоритмов, а отдельно числитель и знаменатель дроби, с помощью которой он вычисляется, чтобы мета-алгоритм смог улавливать уверенность и неуверенность частотных оценок. Однако и такой подход давал падение качества.
-
- Разреженная логистическая регрессия
Один и из самого успешного алгоритма – это логистическая регрессия на данных, закодированных с помощью dummy-кодирования. Ключевыми параметрами здесь являются p (степень группировки признаков) и параметр регуляризации С логистической регрессии. На рис. 7 можно увидеть графики зависимости качества от параметра регуляризации при p = 2.
AUC
0.92 0.805
AUC
0.91 0.800
0.90 0.795
0.89 0.790
0.88 0.785
0.87 0.780
0.86 0.775
0.85 0.770
0.84 0.765
10-1 100 101 10-1 100 101
Рис. 7. Доля выборки, отходящая на обучение мета-классификатора
Вычисление при p = 4 требует больших вычислительных ресурсов по памяти. В таблице 4 показаны результаты работы при различных p. Видно, что группировка большой степени не имеет смысла и ведет к переобучению.
Amazon |
Movie Lens |
|
p = 1 |
0.8691 |
0.7958 |
p = 2 |
0.8820 |
0.7951 |
p = 3 |
0.8802 |
0.7826 |
Таблица 4. Качество работы разреженной логистической регрессии при различных значениях степени группировки признаков p.
Анализируя обученные линейные модели, можно заметить, что большинство коэффициентов в ней близки к нулю. Этот эффект продемонстрирован на рис. 8. Это наводит на мысль об использовании модели с l1-регуляризацией или elastic net, ведь они ведут к автоматическому отбору признаков и приведению к нулю коэффициентов. Однако такие подходы прироста качества не дали.
Рис. 8. Аккумулированные значения обученного и отсортированного вектора весов логистической регрессии на попарно сгруппированных данных Amazon.
-
- Произвольные перенумерации значений признаков
В этом разделе показаны результаты экспериментов с алгоритмами, которые были описанными в разделе 3.5. Несмотря на простоту и понятность идеи, подобный подход показывает неплохое качество. На рис. 9 показана зависимость качества прогноза от количества базовых аппроксиматоров Extremely Randomized Trees в случае сгруппированных попарно данных. Именно такие базовые аппроксиматоры показали себя лучше остальных опробованных.
Однако оно ниже, чем у некоторых других подходов: AUC = 0.8599 на данных Amazon и AUC = 0.7430 на данных Movie Lens. Да и время работы оставляет желать лучшего. Например, на данных Amazon оно превосходит 5 минут, что сильно ограничивает возможности экспериментов с данным методом. Кроме того, оценка качества работы данного метода очень неустойчива.
Помимо обычного усреднения ответа по все алгоритмам еще были проведены эксперименты с бустингом базовых алгоритмов, т.е. каждый следующий базовый алгоритм обучался так, чтобы выполнить ошибки предыдущих. Однако этот подход прироста не дал.
Рис. 9. Зависимость качества от количества базовых аппроксиматоров на попарно сгруппированных данных Amazon.
-
- Аппроксимация целевых меток с помощью матричных разложений
Также проведен эксперимент для алгоритмов, описанных в разделе 3.7. В качестве внешнего мета-алгоритма использовался случайный лес, он показал лучшее качество работы по сравнению с линейным классификатором. На наборе данных Amazon описанный метод достиг AUC = 0.8726, а на наборе Movie Lens AUC = 0.7816.
К сожалению, более гибкая настройка этого семейства методов в данном работе не проводилась, хотя алгоритм позволяет иметь множество настроек. Например, можно пробовать варьировать пропорцию разбиения обучающей выборки для обучения кодировки и мета-алгоритма, параметр аддитивного сглаживания α, а использующийся при вычислении средних значений целевых меток в известных клетках раскладывающейся матрицы, выбор оптимального количества компонент в разложении и т.п.
Матричные разложения производились с помощью библиотеки Divisi2 на Python для создания рекомендательных систем.
Результаты экспериментов показаны в таблице ниже.
Метод |
Amazon |
Movie Lens |
Аппроксимации меток + LR |
0.8032 |
0.7507 |
Аппроксимации меток + RF |
0.8593 |
0.7539 |
Латентные векторы по меткам + LR |
0.8697 |
0.7784 |
Латентные векторы по меткам + RF |
0.8726 |
0.7816 |
-
-
Перекодировки частотами
- Выбор количества компонентов
-
Перекодировки частотами
Также помимо основных опытов, были проведены эксперименты по определению оптимального количества компонента в таких разложениях. График зависимости качества от количества компонент на данных Amazon представлен на рис. 10. Видно, что увеличение количества компонента приводит к увеличению качества алгоритма. Переломный момент, когда большое количество компонентов ведет к переобучению обнаружено не было, однако он, с большей вероятностью, есть. Стоит отметить, что алгоритму удается достигнуть высокого результата, что подтверждает оправданность и эффективность частотных кодировок признаков с помощью латентных векторов.
0.92
AUC
0.90
0.88
0.86
0.84
0.82
0.80
0 1 2 3 4 5 6 7
Factors keeped
Рис. 10. Зависимость качества от количества компонентов
Помимо действий, описанных выше, были проведены схожие эксперименты, в которых производились разложения матриц количеств совместных встречаемости значений признаков и их видоизменений (например, логарифмов). Однако, подобные подходы не смогли улучшить качество.
Заключение
В данный период времени не существует общепринятого стандартного набора алгоритмов для решения задач машинного обучения с категориальными признаками. В реальной работе был проведен обзор существующих подходов, были представлены новые методы и сравнены эффективности их работы на реальных данных.
Стоит подчеркнуть, что в работе особое внимание уделялось алгоритмам по отдельности и не рассматривались объединения алгоритмов из разных семейств в композиции. Известно, что подобные техники дают возможность сильно улучшать итоговое качество работы систем машинного обучения, даже если базовые алгоритмы показывали не очень высокое качество.