# Очистка данных
clean_text = normalize_text(clean_html_file(raw_text))
# Сохранение результата
with open(os.path.join(output_dir, filename), "w", encoding="utf-8") as clean_file:
clean_file.write(clean_text)
process_files("./raw_data", "./cleaned_data")
```
Этот инструмент автоматизирует обработку данных для всех текстов в указанной директории.
1.2.5 Инструменты для ускорения обработки больших объемов данных
Пример: Использование `spaCy` для масштабных операций
Если объем данных велик, подключите `spaCy` для ускорения обработки:
```python
import spacy
nlp = spacy.load("ru_core_news_sm")
def process_with_spacy(text):
doc = nlp(text.lower())
return " ".join([token.text for token in doc if not token.is_stop and not token.is_punct])
text = "Когнитивное программирование – это подход, направленный на оптимизацию работы сознания."
processed_text = process_with_spacy(text)
print(processed_text)
```
Результат: `"когнитивное программирование подход направленный оптимизацию работы сознания"`
Эти примеры демонстрируют, как автоматизировать и оптимизировать процесс очистки данных для подготовки качественного материала, который станет основой для работы RAG и LLM.
1.3 Анализ структуры данных
Определение структуры:
Если данные в разных форматах (JSON, CSV, текст):
Приведите их к единому формату.
Например:
JSON: для работы с иерархически организованными данными.
CSV: для табличных данных (краткие справки, термины).
Текст: для длинных описательных данных (статьи, кейсы).
Шаги унификации:
1. Структурирование:
Определите ключевые поля:
Название текста.
Категория (теория, практика, примеры).
Ключевые слова.
Создайте единый формат для всех данных.
2. Конвертация:
Используйте Python-библиотеки, такие как `pandas` или `json`, для преобразования файлов.
Пример структуры JSON:
```json
{
"title": "Основы когнитивного программирования",
"category": "Теория",
"content": "Когнитивное программирование – это…",
"keywords": ["когнитивное программирование", "теория", "сознание"]
}
```
Практические примеры для этапа анализа структуры данных
1.3.1 Приведение данных к единому формату
Пример: Унификация форматов JSON, CSV и текста
Предположим, вы имеете три типа данных:
1. Таблицы в формате CSV с краткими определениями терминов.
2. Тексты в формате TXT с описанием кейсов.
3. Неструктурированные данные в JSON.