ИИ-агент в когнитивном программировании сознания – объединяем RAG и LLM - страница 4

Шрифт

Интервал

os.makedirs(f"{base_path}/{category}", exist_ok=True)

for i, item in enumerate(structured_data[category]):

with open(f"{base_path}/{category}/doc_{i+1}.txt", "w", encoding="utf-8") as file:

file.write(item["summary"])

```

Результат: Данные распределены по категориям с удобной файловой организацией.

1.1.5 Пример полного процесса сбора данных

Этап 1: Сбор внутренних данных

Извлечены обучающие материалы компании.

Классифицированы на теоретические основы и практические примеры.

Этап 2: Сбор внешних данных

Собраны научные статьи по ключевым словам.

Удалены устаревшие и нерелевантные статьи.

Этап 3: Интеграция в базу знаний

Все данные структурированы по категориям: Теория, Практика, FAQ.

Установлена файловая структура для удобной обработки.

Результат: Получен качественный набор данных для обучения модели и наполнения базы знаний.

Эти подходы обеспечивают системный подход к сбору, проверке и организации данных, что улучшает качество ответов когнитивного тренажера.

1.2 Очистка данных

Процесс очистки:

Удаление шумов: Уберите HTML-теги, ненужные ссылки, форматирование Markdown или LaTeX. Удалите таблицы, изображения и мета-данные, если они не несут ключевой информации.

Фильтрация информации: Исключите дублирующиеся тексты (например, одинаковые статьи, появившиеся в нескольких источниках). Удалите неинформативные фрагменты, такие как общие фразы, не относящиеся к теме.

Нормализация текста: Приведите текст к нижнему регистру для унификации обработки. Удалите специальные символы, такие как @, , или дополнительные пробелы.

Инструменты для очистки:

Python-библиотеки: `BeautifulSoup`: для удаления HTML-тегов. `re`: для удаления специфичных символов через регулярные выражения. `nltk` или `spaCy`: для удаления стоп-слов.

Автоматизация: Напишите скрипт для автоматической очистки всех файлов в заданной директории.

Практические примеры для этапа очистки данных

1.2.1 Удаление HTML-тегов и ненужных элементов

Пример: Очистка выгрузки с корпоративного сайта

Ваши данные включают статьи с HTML-тегами, ссылками и ненужными стилями. Используйте `BeautifulSoup` для автоматической очистки контента:

```python

from bs4 import BeautifulSoup

import os

def clean_html_file(filepath):

with open(filepath, "r", encoding="utf-8") as file:

html_content = file.read()

soup = BeautifulSoup(html_content, "html.parser")

Следующая страница