我有一个文本语料库,csv文件中的每一行都唯一地指定了我感兴趣的"主题"。 如果我使用来自topicmodels包或lda的LDA或Gibbs方法在此语料库上运行主题模型,正如预期的那样,我将在每个"文档"中获得多个主题(我的CSV中的一行文本,我先验地定义为我感兴趣的独特主题)。 我知道这是主题模型的算法和词袋假设的结果。
然而,我好奇的是这个
1) R 中是否有一个预制包,供用户使用经验词分布指定主题?也就是说,我不希望估计主题;我想告诉R主题是什么。 我想我可以运行一个具有正确数量的主题主题模型,使用该对象的结构,然后覆盖其内容。 我只是希望有一种更简单或更明显的方式,我只是在这一点上没有看到。
思潮?
编辑:已添加 -我只是想到了 alpha 和 beta 参数可以控制 LDA 建模算法中的主题/术语分布。 我可以使用哪些设置来强制模型在每个文档中仅查找 1 个主题? 或者是否有允许发生这种情况的设置?
如果这些看起来像是愚蠢的问题,我理解 - 我对这个特定领域很陌生,我发现它很有趣。
你想用这种方法实现什么?如果你想告诉 R 主题是什么,以便它可以预测其他行或文档中的主题,那么 RTextTools 可能是一个有用的包。