信息检索.NLP的停止语列表



在执行NLP或IR/IE相关任务时,是否有一个人们通常用来删除标点和关闭类词(如he, she, it)的停止词列表?

我一直在尝试使用gibbs采样进行词义消歧的主题建模,因为标点符号和近类单词经常出现在语料库中,所以它一直给它们很高的概率。https://github.com/christianscheible/BNB/blob/master/nb_gibbs.py

你试过谷歌搜索吗?我得到的热门内容要么包含停止语列表,要么是链接到所述列表的堆栈溢出帖子:

  • 这里
  • 在这里
  • 在这里

最新更新