如何使用gensim将一组文档标记为unigram+bigram单词袋



我从使用scikit中知道我可以使用

vectorizer = TfidfVectorizer(min_df=2,ngram_range=(1, 2),norm='l2')
corpus = vectorizer.fit_transform(text)

这段代码。但是我怎么能和gensim一起做这件事呢?

我认为您可以从utils 中查看simple_procrocess

gensim.utils.simple_preprocess(doc,deacc=False,min_len=2,max_len=15)将文档转换为令牌列表。

这降低了字符的大小写、标记化和去重音(可选)输出为最终

tokens=unicode字符串,将不再处理。

使用nltkeverygrams函数是一个很好的方法。

from nltk import everygrams
text = 'I like playing baseball'
grams = ['_'.join(grams) for grams in list(everygrams(text, 1, 2))]
grams
>> ['I', 'like', 'playing', 'baseball', 'I_like', 'like_playing', 'playing_baseball']

这将在文本中创建所有的单向图和双向图。

相关内容

  • 没有找到相关文章

最新更新