ИИ-агент в когнитивном программировании сознания – объединяем RAG и LLM - страница 2

Шрифт
Интервал



1.5 Векторизация данных: Преобразуйте текст в числовые векторы с использованием методов, таких как BERT, Sentence Transformers, или Word2Vec.

1.1 Сбор данных

Источники данных:


Внутренние источники: Архивные документы компании. Внутренние обучающие материалы, связанные с когнитивным программированием. Методические пособия, инструкции и презентации.


Внешние источники: Открытые статьи, научные публикации и книги по теме когнитивного программирования. Форумы, блоги или веб-сайты специалистов.


Необходимые лицензии: Проверьте, что собранные внешние данные не нарушают авторские права.


Критерии релевантности:


Тематика: Данные должны касаться когнитивного программирования сознания, его методов и применения.


Актуальность: Убедитесь, что данные не устарели (например, материалы, опубликованные не более 3–5 лет назад).


Полнота: Информация должна содержать ответы на основные вопросы, чтобы минимизировать пробелы.


Организация файлов:


Разделите данные по категориям: Теоретические основы (определения, термины). Практические кейсы. Часто задаваемые вопросы (FAQ). Примеры когнитивных моделей.

Практические примеры для сбора данных


1.1.1 Использование внутренних источников


Пример: Обработка архивных документов компании


1. Автоматическое извлечение информации из PDF-файлов:


```python


import PyPDF2

def extract_text_from_pdf(file_path):

with open(file_path, "rb") as file:

reader = PyPDF2.PdfReader(file)

text = ""

for page in reader.pages:

text += page.extract_text()

return text

pdf_text = extract_text_from_pdf("internal_documents.pdf")

print("Извлечённый текст:", pdf_text[:500])


```


2. Классификация данных:


Разделите извлечённый текст на категории:


```python


theoretical = []

practical = []

for line in pdf_text.split("\n"):

if "определение" in line.lower() or "термин" in line.lower():

theoretical.append(line)

elif "пример" in line.lower():

practical.append(line)

print("Теория:", theoretical[:5])

print("Практика:", practical[:5])


```


Результат: Внутренние материалы классифицированы для дальнейшего использования.


1.1.2 Использование внешних источников


Пример: Сбор научных статей с использованием BeautifulSoup


1. Скрейпинг данных из открытых источников:


```python


import requests

from bs4 import BeautifulSoup

def fetch_articles(base_url, keyword):

response = requests.get(f"{base_url}/search?q={keyword}")