相当于 Python 中的 R removeSparseTerms(英语:R's removeSparseTerms)



我们正在进行一个数据挖掘项目,并在R中的tm包中使用了removeSparseTerms函数来减少文档术语矩阵的功能。

然而,我们希望将代码移植到python。sklearn、nltk或其他包中是否有可以提供相同功能的函数?

谢谢!

如果您的数据是纯文本,您可以使用CountVectorizer来完成这项工作。

例如:

from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(min_df=2)
corpus = [
    'This is the first document.',
    'This is the second second document.',
    'And the third one.',
    'Is this the first document?',
]
vectorizer = vectorizer.fit(corpus)
print vectorizer.vocabulary_ 
#prints {u'this': 4, u'is': 2, u'the': 3, u'document': 0, u'first': 1}
X = vectorizer.transform(corpus)

现在X是文档术语矩阵。(如果你对信息检索感兴趣,你还需要考虑Tf–idf术语加权。

它可以帮助您轻松地获得文档术语矩阵,只需几行即可。

关于稀疏性-你可以控制这些参数:

  • min_df-文档术语矩阵中某个术语允许的最小文档频率
  • max_features-文档术语矩阵中允许的最大功能数

或者,如果您已经有文档术语矩阵或Tf-idf矩阵,并且您有什么是稀疏的概念,那么定义MIN_VAL_ALLOWED,然后执行以下操作:

import numpy as np
from scipy.sparse import csr_matrix
MIN_VAL_ALLOWED = 2
X = csr_matrix([[7,8,0],
                [2,1,1],
                [5,5,0]])
z = np.squeeze(np.asarray(X.sum(axis=0) > MIN_VAL_ALLOWED)) #z is the non-sparse terms 
print X[:,z].toarray()
#prints X without the third term (as it is sparse)
[[7 8]
[2 1]
[5 5]]

(使用X = X[:,z],使X保持为csr_matrix。)

如果是您希望设置阈值的最小文档频率,请首先对矩阵进行二进制化,然后以相同的方式使用:

import numpy as np
from scipy.sparse import csr_matrix
MIN_DF_ALLOWED = 2
X = csr_matrix([[7, 1.3, 0.9, 0],
                [2, 1.2, 0.8  , 1],
                [5, 1.5, 0  , 0]])
#Creating a copy of the data
B = csr_matrix(X, copy=True)
B[B>0] = 1
z = np.squeeze(np.asarray(X.sum(axis=0) > MIN_DF_ALLOWED))
print  X[:,z].toarray()
#prints
[[ 7.   1.3]
[ 2.   1.2]
[ 5.   1.5]]

在本例中,第三项和第四项(或列)消失了,因为它们只出现在两个文档(行)中。使用MIN_DF_ALLOWED设置阈值。

相关内容

  • 没有找到相关文章

最新更新