ИИ-агент в когнитивном программировании сознания – объединяем RAG и LLM - страница 6

Шрифт
Интервал



# Очистка данных

clean_text = normalize_text(clean_html_file(raw_text))


# Сохранение результата

with open(os.path.join(output_dir, filename), "w", encoding="utf-8") as clean_file:

clean_file.write(clean_text)

process_files("./raw_data", "./cleaned_data")


```


Этот инструмент автоматизирует обработку данных для всех текстов в указанной директории.


1.2.5 Инструменты для ускорения обработки больших объемов данных


Пример: Использование `spaCy` для масштабных операций


Если объем данных велик, подключите `spaCy` для ускорения обработки:


```python


import spacy

nlp = spacy.load("ru_core_news_sm")

def process_with_spacy(text):

doc = nlp(text.lower())

return " ".join([token.text for token in doc if not token.is_stop and not token.is_punct])

text = "Когнитивное программирование – это подход, направленный на оптимизацию работы сознания."

processed_text = process_with_spacy(text)

print(processed_text)


```


Результат: `"когнитивное программирование подход направленный оптимизацию работы сознания"`


Эти примеры демонстрируют, как автоматизировать и оптимизировать процесс очистки данных для подготовки качественного материала, который станет основой для работы RAG и LLM.

1.3 Анализ структуры данных


Определение структуры:


Если данные в разных форматах (JSON, CSV, текст):


Приведите их к единому формату.


Например:


JSON: для работы с иерархически организованными данными.


CSV: для табличных данных (краткие справки, термины).


Текст: для длинных описательных данных (статьи, кейсы).


Шаги унификации:


1. Структурирование:


Определите ключевые поля:


Название текста.


Категория (теория, практика, примеры).


Ключевые слова.


Создайте единый формат для всех данных.


2. Конвертация:


Используйте Python-библиотеки, такие как `pandas` или `json`, для преобразования файлов.


Пример структуры JSON:


```json


{

"title": "Основы когнитивного программирования",

"category": "Теория",

"content": "Когнитивное программирование – это…",

"keywords": ["когнитивное программирование", "теория", "сознание"]

}


```

Практические примеры для этапа анализа структуры данных


1.3.1 Приведение данных к единому формату


Пример: Унификация форматов JSON, CSV и текста


Предположим, вы имеете три типа данных:


1. Таблицы в формате CSV с краткими определениями терминов.


2. Тексты в формате TXT с описанием кейсов.


3. Неструктурированные данные в JSON.