使用维基百科转储从文本生成主题的方法是什么



我是NLP/文本处理的新手

并构建一个应用程序,该应用程序需要从大约 2 行输入文本中生成主题(音乐、游戏、浪漫、历史等)。

决定使用维基百科的文章库来帮助我完成这个过程,

"训练"我的程序从我的输入文本中识别和分类这些主题的步骤是什么?

如此广泛的问题。对于自动主题建模(您不必训练模型),您可能需要查看潜在狄利克雷分配。在python中,gensim是做LDA的好方法。我已经在Java中使用了Weka进行分类任务,这可能与您正在查看的更多内容。LightSide Researcher的工作台为文本挖掘任务提供了一个GUI。

最新更新