Предсказываем тренды. С Rattle и R в мир моделей классификации - страница 49

Шрифт
Интервал


10.1. Метрики значимости, полученной из моделей

Величина значимости предикторов, полученная из сведений, входящих в результат подгонки моделей, ценна тем, что значимость предикторов тесно связана с другими параметрами модели. При оценке модели в целом мы всегда получаем оценку значимости предикторов, а произведя манипуляции с предикторами (объединение, удаление) всегда можно сравнить полученный результат по результативности модели в целом.

В рамках R доступны следующие методы для оценки вклада каждого предиктора в модель:

– линейные модели: используется абсолютное значение t-статистики для каждого параметра модели;

– случайный лес: при подгонке модели вычисляется четыре меры значимости для каждого предиктора модели. В Rattle печатаются вычисленные значения значимостей, а также может быть построен график для визуального обзора;

– частные наименьшие квадраты (PLS): более полезный для нас аналог главных компонент (РСА). В PLS мера значимости предикторов основана на взвешенных суммах абсолютных коэффициентов регрессии. Веса являются функцией приведения сумм квадратов по числу компонентов PLS и вычисляются отдельно для каждого результата. Поэтому, вклад коэффициентов взвешивается пропорционально;

– рекурсивное разделение (пакет rpart): приведение функции потерь (например, среднеквадратической ошибки), приписанной к каждому предиктору в каждом разделении, сводится в таблицу. Кроме того, предикторы-кандидаты, которые также были важны, но не использовались в разделении, также сводятся в таблицу в каждом разделении. Эти сведения можно получить в функции rpart.control. Этот метод в настоящий момент не предоставляет достоверный результат при категориальной целевой переменной;

– бутстрэп агрегированные деревья (Bagged trees): для улучшенных деревьев применена методология, аналогичная отдельному дереву. Возвращается итоговая значимость предикторов;

– усиленные деревья (Boosted trees): этот метод использует подход, аналогичный отдельному дереву, но суммирует значимость предикторов при каждой усиливающей итерации. Подробности в пакете gbm;

– многомерные регрессии адаптивных сплайнов: модели пакета MARS включают программу выбора предиктора для удаления, которая смотрит на уменьшение оценки ошибки в результате обобщенной перекрестной проверки (GCV). Функция