我想知道是否可以提供任何r
示例代码,以便在H2O DeepWater R版本中使用word2vec和CNN进行文本分类?关于mexnetR
或h2o deep water r
的文档很少
我已经使用 h2o
r
版本包来训练我的word2vec
word embedding
词汇查找表和文档词向量矩阵。我想知道是否有任何示例代码可以将查找表和原始原始文本组合到使用 mxnetR
(自定义迭代器)CNN 分类模型中,或使用h2o r
直接构建 CNN
我问是因为如果我一次将所有数据转换为数组格式,那么我的机器将没有足够的内存来支持它。
如果RAM是一个约束(必须是一个非常大的语料库),那么使用mx.io.CSVIter
可能是一种方法。CSV 可以分批编写,并且在训练期间内存占用有限。使用原版mx.io.CSVIter
,可能需要执行整形以将特征 X 批次 X seq.length 作为对网络中数据的初始转换。
另一种选择是学习其中的嵌入作为模型的一部分,例如通过此演示:http://dmlc.ml/rstats/2017/10/11/rnn-bucket-mxnet-R.html,它还提供了一个带有存储桶的自定义迭代器的示例,这也限制了 RAM 消耗。