1. Данные (Data): Основа машинного обучения. Данные могут быть различных типов (текст, изображения, аудио и т.д.) и разделены на обучающие и тестовые наборы.
2. Обучающий набор данных (Training Set): Набор данных, используемый для обучения модели. Включает в себя входные данные и, в случае обучения с учителем, соответствующие метки (labels).
3. Тестовый набор данных (Test Set): Набор данных, используемый для оценки производительности модели после обучения.
4. Признаки (Features): Индивидуальные характеристики входных данных, используемые моделью для предсказания. Например, в задаче классификации изображений признаками могут служить пиксели изображения.
5. Модель (Model): Математическое представление того, что алгоритм узнал из обучающих данных.
6. Алгоритм обучения (Learning Algorithm): Процесс, посредством которого модель обучается на данных. Алгоритм определяет, как модель адаптируется в процессе обучения.
7. Обучение (Training): Процесс, в ходе которого модель машинного обучения «учится» на обучающем наборе данных.
8. Гиперпараметры (Hyperparameters): Настройки алгоритма, которые задаются до начала обучения и влияют на процесс обучения модели.
9. Функция потерь (Loss Function): Мера того, насколько предсказания модели отличаются от фактических значений. Цель обучения – минимизировать функцию потерь.
10. Оптимизация (Optimization): Процесс настройки весов модели для минимизации функции потерь.
11. Переобучение (Overfitting): Ситуация, когда модель слишком точно подстраивается под обучающие данные и теряет способность к обобщению на новых данных.
12. Недообучение (Underfitting): Ситуация, когда модель слишком проста и не может уловить закономерности в обучающих данных.
13. Регуляризация (Regularization): Техники, применяемые для предотвращения переобучения, например, путем добавления штрафа за слишком большие веса в модели.
14. Кросс-валидация (Cross-validation): Метод оценки производительности модели, при котором данные разбиваются на части, и модель обучается и тестируется на этих частях для обеспечения надежности оценки.
15. Точность (Accuracy), Полнота (Recall), Точность (Precision) и F-мера (F1 Score): Метрики для оценки производительности моделей классификации.
16. Конфузионная матрица (Confusion Matrix): Таблица, используемая для описания производительности модели классификации на наборе данных, для которого известны истинные значения.