单个文档使用主题建模是合理的,还是更准确地说,对单个文档使用LDA-gibbs方法在数学上是可以的。如果是这样,k和种子的值应该是多少。还有k和种子对于单个和大型文档集的作用是什么。
K 和 SEED 是函数 LDA 的变量(在 r studio 中(。如果我在这个问题的任何地方都错了,也让我知道。
为了讲述我的项目,我试图找出可用于表示单个文档内容的主要主题。
我已经尝试过使用 k=4,7,10.我的部分问题也是 k 的值应该更好。
这实际上取决于文档。 文档可以是一本 700 页的书或一个句子。 你的k也将取决于文档,我想你的意思是主题的数量? 如果您的文档是整个维基百科语料库,则 1500 个主题可能是合适的,如果您的文档是关于电影的评论列表,那么 20 个主题可能是合适的。 优化该数字可以使用弯头方法完成,请查看 17。
种子可以非常随机,它只是一个离开器,因此您的结果可以复制 - 如果您将其留空,它会运行。 我会说尝试一下并检查您的连贯性,关注您的主题,如果它看起来正确,那么确定您可以在一个文档上训练 LDA。 单个文档的处理速度应该非常快。
这是 python 中使用种子参数的示例。 我的数据集是 1,048,575 行,请注意种子要高得多:
ldamallet = gensim.models.wrappers.LdaMallet(mallet_path, corpus=bow_corpus,
num_topics=20, alpha =.1, id2word=dictionary, iterations = 1000,
random_seed = 569356958)