学习- LDA与Python -输入文件



我正在运行Python中的lda库,我正在运行这个示例。有人知道X,词汇和标题的格式吗?我找不到文档了。

import numpy as np
import lda
X = lda.datasets.load_reuters()
vocab = lda.datasets.load_reuters_vocab()
titles = lda.datasets.load_reuters_titles()

X是一个矩阵,其中行是标题,列是词汇。它是一个表示标题文本的单词包。

X
Out[8]: 
array([[1, 0, 1, ..., 0, 0, 0],
       [7, 0, 2, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ..., 
       [1, 0, 1, ..., 0, 0, 0],
       [1, 0, 1, ..., 0, 0, 0],
       [1, 0, 1, ..., 0, 0, 0]], dtype=int32)    

在上面的矩阵中,每一行都是单个标题的单词表示。每一列表示一个特定的单词示例。

vocab[:5]
Out[5]: ('church', 'pope', 'years', 'people', 'mother')  

因此,X矩阵中的每一行i, col j给出了特定单词在第i个标题中的频率。

titles[:1]
Out[11]: ('0 UK: Prince Charles spearheads British royal revolution. LONDON 1996-08-20',)  

标题U: Prince Charles…提到"教会"一词一次,"教皇"0次,"年份"1次,以此类推。

In [13]: type(titles)
Out[13]: tuple
In [14]: type(vocab)
Out[14]: tuple
In [15]: type(X)
Out[15]: numpy.ndarray

相关内容

  • 没有找到相关文章

最新更新