我是theano的新手,我正在尝试调整这里的自动编码器脚本来处理文本数据。此代码使用 MNIST 数据集作为训练数据。此数据采用 numpy 2d 数组的形式。
我的数据是一个包含大约 100,000 个实例的 csr 稀疏矩阵,具有大约 50,000 个特征。矩阵是使用 sklearn 的 tfidfvectorizer 来拟合和转换文本数据的结果。当我使用稀疏矩阵时,我修改代码以使用 theano.sparse 包来表示我的输入。我的训练集是符号变量:
train_set_x = theano.sparse.shared(train_set)
但是,theano.sparse 矩阵不能执行原始脚本中使用的所有操作(这里有稀疏操作列表)。该代码在输入上使用张量方法中的点和和。我已将点更改为 sparse.dot,但我找不到用什么替换总和,所以我正在将训练批次转换为密集矩阵并使用原始张量方法,如以下成本函数所示:
def get_cost(self):
tilde_x = self.get_corrupted_input(self.x, self.corruption)
y = self.get_hidden_values(tilde_x)
z = self.get_reconstructed_input(y)
#make dense, must be a better way to do this
L = - T.sum(SP.dense_from_sparse(self.x) * T.log(z) + (1 - SP.dense_from_sparse(self.x)) * T.log(1 - z), axis=1)
cost = T.mean(L)
return cost
def get_hidden_values(self, input):
# use theano.sparse.dot instead of T.dot
return T.nnet.sigmoid(theano.sparse.dot(input, self.W) + self.b)
get_corrupted_input和get_reconstructed_input方法与上面的链接中相同。我的问题是有没有更快的方法来做到这一点?
将矩阵转换为密集矩阵会使训练运行非常慢。目前,使用20个训练实例的批量大小进行一个训练周期需要20.67m。
您能提供的任何帮助或提示将不胜感激!
在 theano.sparse 的最新主分支中,列出了一个sp_sum方法。
(看这里)
如果您没有使用前沿版本,我会安装它,看看调用它是否有效,如果这样做可以加快速度:
pip install --upgrade --no-deps git+git://github.com/Theano/Theano.git
(如果是这样,在这里注意到它会很好,并不总是清楚稀疏功能比一直使用密集计算要快得多,尤其是在 GPU 上。