**Простая линейная регрессия**
Начнем с простого случая, когда у нас только одна независимая переменная. Формула простой линейной регрессии выглядит так:
$$ y = \beta_0 + \beta_1 x
$$
где:
– $y$ – зависимая переменная,
– $\beta_0$ – свободный член (пересечение),
– $\beta_1$ – коэффициент наклона линии,
– $x$ – независимая переменная.
Пример: Предположим, что мы хотим предсказать стоимость дома ($y$) на основании его площади ($x$). Мы собираем данные о домах и их площадях, строим график зависимости стоимости от площади и находим уравнение прямой, которая лучше всего описывает эти данные.
**Множественная линейная регрессия**
Когда у нас несколько независимых переменных, формула становится более сложной:
$$ y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + … + \beta_n x_n
$$
где:
– $n$ – количество независимых переменных,
– $x_i$ – i-я независимая переменная,
– $\beta_i$ – соответствующий коэффициент для каждой независимой переменной.
Пример: Теперь мы можем учитывать не только площадь дома, но и его возраст, район, наличие бассейна и т.д., чтобы сделать наши прогнозы точнее.
**Метод наименьших квадратов**
Для нахождения коэффициентов $\beta_0$, $\beta_1$, …, $\beta_n$ мы используем метод наименьших квадратов. Этот метод минимизирует сумму квадратов отклонений между наблюдаемыми значениями $y$ и предсказанными значениями $\hat {y} $.
**Практическое задание**
Используя Python и библиотеку `scikit-learn`, попробуйте построить модель линейной регрессии для предсказания цены автомобиля на основании его пробега. Вы можете использовать набор данных «Auto MPG» из UCI Machine Learning Repository.
```python
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
import pandas as pd
# Загрузка данных
data = pd.read_csv (’auto-mpg. csv’)
X = data [[’mileage’]]
y = data [’price’]
# Разделение данных на тренировочный и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split (X, y, test_size=0.2, random_state=42)
# Создание и обучение модели
model = LinearRegression ()
model.fit (X_train, y_train)
# Предсказание на тестовом наборе
predictions = model.predict (X_test)
**День 3: Логистическая регрессия**
**Что такое логистическая регрессия?**
Логистическая регрессия – это метод машинного обучения, который используется для решения классификационных задач. Он применяется, когда необходимо предсказать вероятность того, что объект принадлежит к одному из двух классов. В отличие от линейной регрессии, которая предсказывает непрерывные значения, логистическая регрессия возвращает значение вероятности принадлежности к классу.