def tokenize_text(text):
tokens = word_tokenize(text)
return tokens
# Пример использования функции токенизации текста
text = "Это пример предложения."
tokens = tokenize_text(text)
print(tokens)
```
В этом примере используется библиотека NLTK (Natural Language Toolkit) для токенизации текста. Функция `tokenize_text` принимает текст в качестве аргумента и использует метод `word_tokenize` для разделения текста на отдельные слова (токены). Функция возвращает список токенов. Запустите код, чтобы увидеть результат.
Пример 3: Удаление стоп-слов
```python
from nltk.corpus import stopwords
def remove_stopwords(tokens):
stop_words = set(stopwords.words('russian')) # Замените 'russian' на нужный язык
filtered_tokens = [token for token in tokens if token not in stop_words]
return filtered_tokens
# Пример использования функции удаления стоп-слов
tokens = ['это', 'пример', 'текста', 'со', 'стоп-словами']
filtered_tokens = remove_stopwords(tokens)
print(filtered_tokens)
```
В этом примере используется библиотека NLTK для удаления стоп-слов из списка токенов. Функция `remove_stopwords` принимает список токенов в качестве аргумента и использует набор стоп-слов для определенного языка (в примере использован русский язык). Затем функция фильтрует токены, исключая стоп-слова. Функция возвращает отфильтрованный список токенов. Запустите код, чтобы увидеть результат.
Обратите внимание, что для использования примера 3 вам потребуется предварительно установить библиотеку NLTK и скачать соответствующие ресурсы для выбранного языка.
Анализ частот словарного запаса
Анализ частот словарного запаса является одним из самых простых и эффективных методов анализа текстовых данных. Мы можем использовать различные библиотеки Python, такие как `nltk` и `collections`, чтобы подсчитать частоту словарного запаса в текстовых данных и вывести самое часто используемые слова.
Пример кода на языке Python, который поможет вам проанализировать частоту словарного запаса:
```python
from nltk.tokenize import word_tokenize
from nltk.probability import FreqDist
def analyze_word_frequency(text):
# Токенизация текста
tokens = word_tokenize(text)
# Вычисление частоты встречаемости слов
freq_dist = FreqDist(tokens)
return freq_dist
# Пример использования функции анализа частоты словарного запаса
text = "Это пример текста. Он содержит несколько слов, и некоторые слова повторяются."