soup = BeautifulSoup(response.text, "html.parser")
articles = []
for result in soup.find_all("div", class_="result"):
title = result.find("h2").text
link = result.find("a")["href"]
summary = result.find("p", class_="summary").text
articles.append({"title": title, "link": link, "summary": summary})
return articles
articles = fetch_articles("https://example.com", "когнитивное программирование")
print("Найденные статьи:", articles[:3])
```
2. Проверка лицензий:
Убедитесь, что данные не нарушают авторских прав, проверяя метаданные статьи на открытые лицензии (например, Creative Commons).
Результат: Собраны релевантные статьи из научных источников.
1.1.3 Проверка данных на актуальность и релевантность
Пример: Фильтрация данных по дате и ключевым словам
1. Отфильтруйте устаревшие материалы:
```python
from datetime import datetime
def filter_recent_articles(articles, years=5):
threshold_date = datetime.now().year – years
return [article for article in articles if int(article.get("date", 0)) >= threshold_date]
filtered_articles = filter_recent_articles([
{"title": "Статья 1", "date": "2019"},
{"title": "Статья 2", "date": "2010"}
])
print("Актуальные статьи:", filtered_articles)
```
2. Проверка релевантности по ключевым словам:
```python
keywords = ["когнитивное программирование", "модель", "примеры"]
def filter_by_keywords(articles, keywords):
return [article for article in articles if any(keyword in article["summary"] for keyword in keywords)]
relevant_articles = filter_by_keywords(articles, keywords)
print("Релевантные статьи:", relevant_articles)
```
Результат: Оставлены только актуальные и релевантные материалы.
1.1.4 Организация файлов
Пример: Разделение данных по категориям
1. Структурируйте данные по типам:
```python
def organize_files(data):
categories = {"Теория": [], "Практика": [], "FAQ": []}
for item in data:
if "определение" in item["summary"].lower():
categories["Теория"].append(item)
elif "пример" in item["summary"].lower():
categories["Практика"].append(item)
elif "вопрос" in item["summary"].lower():
categories["FAQ"].append(item)
return categories
structured_data = organize_files(relevant_articles)
print("Структурированные данные:", structured_data)
```
2. Создание файловой структуры:
```python
import os
base_path = "./knowledge_base"
for category in structured_data: