Задача 2.
Написать код на Python, используя библиотеку scikit-learn, для обучения модели машинного обучения на медицинских данных и прогнозирования риска заболеваний на основе имеющихся параметров.
Программа должна выполнять следующие шаги:
1. Загрузить медицинские данные из файла CSV.
2. Разделить данные на признаки (независимые переменные) и целевую переменную (зависимую переменную).
3. Разделить данные на обучающий и тестовый наборы.
4. Инициализировать модель классификатора, например, случайного леса, с помощью библиотеки scikit-learn.
5. Обучить модель на обучающем наборе данных.
6. Произвести прогноз риска заболеваний на тестовом наборе данных с помощью обученной модели.
7. Оценить точность модели на тестовом наборе данных с помощью метрик, таких как accuracy_score.
```python
# Импорт необходимых библиотек
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
# Загрузка данных
data = pd.read_csv('medical_data.csv')
# Разделение данных на признаки (X) и целевую переменную (y)
X = data.drop('disease', axis=1)
y = data['disease']
# Разделение данных на обучающий и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# Обучение модели случайного леса
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)
# Прогнозирование риска заболеваний на тестовом наборе
y_pred = model.predict(X_test)
# Оценка качества модели
accuracy = accuracy_score(y_test, y_pred)
print("Точность модели на тестовом наборе данных:", accuracy)
```
В результате выполнения кода мы получаем обученную модель машинного обучения, способную предсказывать риск заболеваний на основе предоставленных медицинских данных. Кроме того, мы получаем оценку точности модели на тестовом наборе данных, которая позволяет оценить ее эффективность и надежность.
Итоговый код представляет собой программу на языке Python, которая загружает данные, обучает модель классификатора (например, случайного леса) на этих данных, делает прогнозы для новых наблюдений и оценивает точность модели. Полученная модель может быть использована для прогнозирования риска заболеваний на основе новых медицинских данных, что может быть полезным инструментом для врачей и медицинских специалистов в принятии решений о диагностике, лечении и профилактике заболеваний.