Предсказываем тренды. С Rattle и R в мир моделей классификации - страница 45

Шрифт
Интервал


, что методы с низкой дисперсией не могут быть значительно улучшены посредством усиления.

8.5. Функции R

Приведем некоторые функции, которые могут быть использованы при работе над данным разделом.

Приведено название функции, а в скобках название пакета, в котором функция расположена. Для использования функция необходима загрузка пакета, а если его еще нет, то и установка.

Если названия пакета не приведено – это означает, что функция имеется в базовом пакете и не требуется предварительная загрузка пакета.

Для практической реализации положений данного раздела могут быть полезны следующие пакеты: C50, caret, gbm, ipred, partykit, pROC, randomForest и RWeka.

Категориальные предикторы кодируются в R как факторы с помощью функций: SponsorCode, ContractValueBand, CategoryCode и Weekday.

rpart (rpart)

подгонка отдельно классификационного дерева.

bagging (rpart)

подгонка бутстрэп агрегированного дерева.

randomForest (randomForest)

подгонка случайного леса.

gbm (gbm)

подгонка усиленного дерева. Возможно два вида распределений: «bernoulli» и «adaboost».

blackboost (mboost)

подгонка усиленного дерева.

adaboost (ada)

авторский алгоритм подгонки усиленного дерева.

9. Несбалансированность классов

9.1. Влияние несбалансированности классов

Моделируя дискретные классы, относительные частоты классов могут оказать значительное влияние на эффективность модели. Неустойчивость происходит, когда у одного или более классов есть очень низкие соотношения в учебных данных по сравнению с другими классами. Неустойчивость может присутствовать в любом наборе данных или применении, и, следовательно, практик должен знать о тонкостях моделирования этого типа данных.

Рассмотрим наши целевые переменные (классы) с этих позиций.

Первая целевая переменная имеет два класса: «лонг» и «шорт» («1» и «-1»). Их количество в наборе данных примерно одинаково.

Вторая целевая переменная имеет три класса: «лонг», «шорт» и «вне рынка» («1», «-1» и «0»). Позиций «вне рынка» примерно в три раза меньше, чем «лонгов» или «шортов».

Если мерять эффективность моделей такими показателями как общая точность, Каппа, область под кривой ROC, то выявить влияние несбалансированности классов не удастся.

Несбалансированность классов имеет серьезно влияние на предсказание вероятности класса. Здесь можно получить распределение с чрезвычайно большим скосом.