我希望使用Mallet根据我定义的主题对不同的文档进行分类。我知道Mallet会首先确定主题,然后对文档进行分类,但我想跳过第一步,因为我已经有了一个主题列表,其中包含与之相关的单词。有什么方法可以使用我创建的预定义主题列表来使用Mallet对文档进行分类吗?
欢迎提供任何指导。谢谢
如果你在进行无监督学习(没有训练示例,即每个主题的文档),你不能简单地设置主题。关键是,训练算法事先对文档一无所知。它只是试图根据您提供的功能来分离/分发它们。
如果你在进行有监督的学习,主题实际上就是课堂,你有每节课的文档。然后,该算法试图学习哪些特征对每个类都是重要的。在mallet中,您应该使用Classification模块。
可能有一些奇特的主题建模想法,根据特定的关键词合并/扭曲主题分布,但我认为Mallet不可能做到这一点。