文本分类和主题建模



对于大量的文章,我想获得分配给不同主题的主题模型,并在主题内分配权重,不同子主题的权重是多少。例如,如果我提供一篇同时属于商业和技术领域的文章,那么程序的输出是这样的:-

  • 0.593 业务 ( 0.438 - 市场营销 , 0.375 - 公司, 0.062 - 办公室工作)
  • 0.148 技术 ( 0.500 按类型划分的技术, 0.250 - High_technology商业区, 0.250 - 技术公司)
  • 0.111 社会 ( 0.333 - 组织, 0.333 - 社会中的技术, 0.333 - 劳动力)

什么是最好的开源语言处理程序可以成功地完成这些工作?

您可以使用开源 NLTK 工具包进行分类。

我会

尝试一下NLTK,但是scikit-learn,即使它的学习曲线比NLTK更陡峭,也可能是一个更好的选择。它的可配置性要高得多。

http://scikit-learn.org/stable/documentation.html

有几个程序可以完成这项任务的一部分,对于初学者,我推荐 mallet。请注意,任何主题建模程序都会以您想要的形式为您提供主题,即

 ( 0.438 - Marketing , 0.375 - Companies, 0.062 - Office Work)

但您需要为自己分配标签(在本例中为业务)。Mallet 还为您提供了主题文本的分解(由数字标识,而不是由标签标识)。

最新更新