在执行TF-IF余弦相似性时添加stop_words



我正在使用sklearn来执行余弦相似性。

有没有办法将所有以大写字母开头的单词视为停用词?

以下正则表达式将接受一个字符串作为输入,并删除/替换所有以大写字符开头的字母数字字符序列和空字符串。 有关更多选项,请参阅 http://docs.python.org/2.7/library/re.html。

s1 = "The cat Went to The store To get Some food doNotMatch"
r1 = re.compile('\b[A-Z]w+')
r1.sub('',s1)
' cat  to  store  get  food doNotMatch'

Sklearn还具有许多用于文本特征生成的出色功能,例如sklearn.feature_extraction.text,您可能还需要考虑NLTK来帮助句子分割,删除停用词等。

最新更新