在执行NLP或IR/IE相关任务时,是否有一个人们通常用来删除标点和关闭类词(如he, she, it
)的停止词列表?
我一直在尝试使用gibbs采样进行词义消歧的主题建模,因为标点符号和近类单词经常出现在语料库中,所以它一直给它们很高的概率。https://github.com/christianscheible/BNB/blob/master/nb_gibbs.py
你试过谷歌搜索吗?我得到的热门内容要么包含停止语列表,要么是链接到所述列表的堆栈溢出帖子:
- 这里
- 在这里
- 在这里