.
Как в контексте регрессии, чтобы определить классификацию новой выборки, K самых близких наблюдений набора данных обучения определяются через метрику расстояния. Оценки вероятности класса для нового наблюдения вычисляются как соотношение соседей набора данных обучения в каждом классе. Предсказанный класс нового наблюдения – это класс с самой высокой оценкой вероятности. Если два или более классов связаны самой высокой оценкой, то связь разрушается наугад.
Любой метод с настраивающимися параметрами может быть склонным к переобучению, и KNN особенно восприимчив к этой проблеме. Слишком мало соседей приводят к чрезвычайно локализованной подгонке (то есть, к переобучению), в то время как слишком много соседей приводят к границам, которые могут не определить местоположение необходимой структуры разделения данных. Поэтому, следует взять обычную перекрестную проверку или подход с передискредитизацией для определения оптимального значения K.
Приведем некоторые функции, которые могут быть использованы при работе над данным разделом.
Приведено название функции, а в скобках название пакета, в котором функция расположена. Для использования функция необходима загрузка пакета, а если его еще нет, то и установка.
Если названия пакета не приведено – это означает, что функция имеется в базовом пакете и не требуется предварительная загрузка пакета.
В R существует много пакетов для нейронных сетей: nnet, RSNNS, qrnn и neuralnet.
В R существует много пакетов для машин опорных векторов (SVM): e1071, kernlab, klaR и svmPath.
ksvm
Подгоняет модель машины опорных векторов.
Подгонка K-ближайших соседей.