小贝子编程

Sklearn-tf-idf-TfidfVectorizer无法捕获一个字母的单词

本文关键字：一个单词 Sklearn-tf-idf-TfidfVectorizer python-3.x scikit-learn nlp tf-idf tfidfvectorizer
更新时间 : 2023-09-20
英文 : Sklearn tf-idf TfidfVectorizer failed to capture one letter words

一个特定的实例是"Queens Stop 'N' Swap"。经过转换，我只得到了三个特征['Queens', 'Stop', 'SWap']。'N'已被忽略。如何捕获'N'？。所有参数都是我代码中的默认设置。

### Create the vectorizer method
tfidf_vec = TfidfVectorizer()
### Transform the text into tf-iwine vectors
text_tfidf = tfidf_vec.fit_transform(title_text)

您没有将'n'作为令牌获取，因为它在默认的令牌化器中不被视为令牌：

from sklearn.feature_extraction.text import TfidfVectorizer
texts = ["Queens Stop 'N' Swap",]
tfidf = TfidfVectorizer(token_pattern='(?u)\b\w\w+\b',)
tfidf.fit(texts)
tfidf.vocabulary_
{'queens': 0, 'stop': 1, 'swap': 2}

要捕获1个字母的代币，保留大写，请将其更改为：

tfidf = TfidfVectorizer(token_pattern='(?u)\b\w+\b',lowercase=False)
tfidf.fit(texts)
tfidf.vocabulary_
{'Queens': 1, 'stop': 2, 'N': 0, 'swap': 3}

Sklearn-tf-idf-TfidfVectorizer无法捕获一个字母的单词

相关内容

最新更新

热门标签：