Методы классификации стремятся классифицировать наблюдения в группы, основанные на характеристиках предикторов, и способ к достижению этой минимизации отличается для каждого метода. Далее рассмотрим некоторые из них.
6.1. Логистическая регрессия
Линейная регрессионная модель не всегда способна качественно предсказывать значения целевой (зависимой) переменной. Выбирая для построения модели линейное уравнение, мы естественным образом не накладываем никаких ограничений на значения зависимой переменной. А такие ограничения могут быть существенными.
Линейная регрессионная модель может дать результаты, несовместимые с реальностью. С целью решения данных проблем полезно изменить вид уравнения регрессии и подстроить его для решения конкретной задачи.
Вообще, логит регрессионная модель предназначена для решения задач предсказания значения непрерывной зависимой переменной, при условии, что эта зависимая переменная может принимать значения на интервале от 0 до 1.
В силу такой специфики, ее часто используют для предсказания вероятности наступления некоторого события в зависимости от значений некоторого набора предикторов.
Можно использовать логистическую регрессию и для решения задач с бинарным откликом. Такие задачи появляются, когда зависимая переменная может принимать только два значения.
Логистическая регрессия и обычная линейная регрессия попадают в больший класс так называемых обобщенных линейных моделей (GLM), которые охватывают много различных распределений вероятности. Эти модели линейны в том смысле, что функция результата моделируется с использованием линейных предикторов, что приводит к линейным границам классификации.