ML для новичков: Глоссарий, без которого ты не разберёшься - страница 9

Шрифт
Интервал


Работа алгоритма заключается в построении линии (или гиперплоскости в случае многомерных данных), которая минимизирует среднеквадратичную ошибку между предсказанными и фактическими значениями. Например, предположим, что вы хотите предсказать цену дома на основе его площади. Данные могут включать параметры, такие как площадь, количество комнат и расположение. Линейная регрессия будет находить оптимальные коэффициенты для этой модели, чтобы минимизировать ошибку предсказания.

Пример реализации линейной регрессии на Python с использованием библиотеки Scikit-learn может выглядеть так:

python


from sklearn.model_selection import train_test_split


from sklearn.linear_model import LinearRegression


import pandas as pd

# Предположим, что у нас есть данные о домах


data = pd.read_csv('housing_data.csv')


X = data[['area']]..# Признак


y = data['price'].. # Целевая переменная

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = LinearRegression()


model.fit(X_train, y_train)

predictions = model.predict(X_test)


Алгоритмы классификации

Классификация – это задача, где необходимо отнести примеры к различным категориям (классам). Наиболее популярными алгоритмами классификации являются логистическая регрессия, деревья решений и метод опорных векторов.

Логистическая регрессия работает аналогично линейной регрессии, но она подходит для задач бинарной классификации. Она делает предположение, что вероятность принадлежности к классу можно описать через логистическую функцию. Например, если ваша цель – предсказать, будет ли клиент покупать продукт, вы можете использовать логистическую регрессию, чтобы оценить вероятность покупки на основе различных признаков (например, возраст, доход).

Деревья решений предлагают наглядный способ принятия решений, основанный на разбиении данных на подмножества, что приводит к созданию дерева, где каждый узел представляет собой вопрос о каком-то признаке. Этот метод легко интерпретировать и он может использоваться как для задач классификации, так и для задач регрессии. Например, для задачи оценки вероятности проблемы с кредитом дерево может задавать вопросы вроде «Какой у клиента доход?» или «Какова чистая стоимость имущества клиента?».

Метод опорных векторов подходит для задач с высокой размерностью, когда количество признаков значительно превышает количество наблюдений. Он ищет гиперплоскость, которая наиболее эффективно разделяет классы в пространстве признаков. Например, метод опорных векторов может быть полезен при классификации изображений, где каждый признак представляет собой пиксель.