ИИ-агент в когнитивном программировании сознания – объединяем RAG и LLM - страница 4

Шрифт
Интервал


os.makedirs(f"{base_path}/{category}", exist_ok=True)

for i, item in enumerate(structured_data[category]):

with open(f"{base_path}/{category}/doc_{i+1}.txt", "w", encoding="utf-8") as file:

file.write(item["summary"])


```


Результат: Данные распределены по категориям с удобной файловой организацией.


1.1.5 Пример полного процесса сбора данных


Этап 1: Сбор внутренних данных


Извлечены обучающие материалы компании.


Классифицированы на теоретические основы и практические примеры.


Этап 2: Сбор внешних данных


Собраны научные статьи по ключевым словам.


Удалены устаревшие и нерелевантные статьи.


Этап 3: Интеграция в базу знаний


Все данные структурированы по категориям: Теория, Практика, FAQ.


Установлена файловая структура для удобной обработки.


Результат: Получен качественный набор данных для обучения модели и наполнения базы знаний.


Эти подходы обеспечивают системный подход к сбору, проверке и организации данных, что улучшает качество ответов когнитивного тренажера.

1.2 Очистка данных


Процесс очистки:


Удаление шумов: Уберите HTML-теги, ненужные ссылки, форматирование Markdown или LaTeX. Удалите таблицы, изображения и мета-данные, если они не несут ключевой информации.


Фильтрация информации: Исключите дублирующиеся тексты (например, одинаковые статьи, появившиеся в нескольких источниках). Удалите неинформативные фрагменты, такие как общие фразы, не относящиеся к теме.


Нормализация текста: Приведите текст к нижнему регистру для унификации обработки. Удалите специальные символы, такие как @, , или дополнительные пробелы.


Инструменты для очистки:


Python-библиотеки: `BeautifulSoup`: для удаления HTML-тегов. `re`: для удаления специфичных символов через регулярные выражения. `nltk` или `spaCy`: для удаления стоп-слов.


Автоматизация: Напишите скрипт для автоматической очистки всех файлов в заданной директории.

Практические примеры для этапа очистки данных


1.2.1 Удаление HTML-тегов и ненужных элементов


Пример: Очистка выгрузки с корпоративного сайта


Ваши данные включают статьи с HTML-тегами, ссылками и ненужными стилями. Используйте `BeautifulSoup` для автоматической очистки контента:


```python


from bs4 import BeautifulSoup

import os

def clean_html_file(filepath):

with open(filepath, "r", encoding="utf-8") as file:

html_content = file.read()

soup = BeautifulSoup(html_content, "html.parser")