ML для новичков: Глоссарий, без которого ты не разберёшься - страница 22

Шрифт

Интервал

.. df = pd.read_csv('data.csv')

.. df_cleaned = df.drop_duplicates()

.. 2. Преобразование данных: Это может включать в себя нормализацию или стандартизацию значений. Например, для числовых атрибутов, которые сильно варьируются, полезно применять стандартное отклонение для приведения их к одинаковому масштабу:

.. python

.. from sklearn.preprocessing import StandardScaler

.. scaler = StandardScaler()

.. df['scaled_column'] = scaler.fit_transform(df[['column']])

.. 3. Создание признаков: Важно извлекать существенные характеристики из исходных данных, чтобы улучшить производительность моделей. Например, если у вас есть временные данные, вы можете создать новые признаки, такие как день недели или время дня.

Разделение данных на обучающую и тестовую выборки

Правильное разделение данных на обучающую и тестовую выборки – ещё один критический шаг. Обучающая выборка используется для создания модели, в то время как тестовая – для оценки её качества. Хорошим правилом является использование 70% данных для обучения и 30% для тестирования.

С помощью библиотеки Scikit-learn это заметно упрощается:

python

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

Заключение

Данные играют ключевую роль в машинном обучении, и их качество напрямую влияет на успех ваших проектов. Понимание различных типов данных, методов их сбора, очистки и обработки, а также правильное разделение выборки – это шаги, которые необходимо выполнять с особым вниманием. В следующих главах мы рассмотрим, как эффективно использовать данные для обучения моделей и оценивать их производительность, что приведёт вас ещё ближе к достижениям в области машинного обучения.

Роль данных и задачи по их подготовке

Данные, как мы уже обсудили, составляют основу машинного обучения. Однако важно не только понимать, что данные нужны, но и осознавать их роль в обучении моделей. Надлежащая подготовка данных может существенно повлиять на качество прогнозов и общую производительность алгоритмов. Эта глава посвящена различным аспектам работы с данными, методам их подготовки и задачам, которые необходимо решить перед началом обучения модели.

Важность качества данных

Качество данных напрямую влияет на результаты работы модели. Шумные, неполные или искажённые данные могут привести к ошибочным выводам и неточным предсказаниям. Обычно существует несколько стадий, на которых требуется особое внимание к качеству данных:

Следующая страница