我正在使用knime doc2vec学习者节点来构建单词嵌入。我知道doc2vec的工作原理。在knime中,我可以选择设置参数
- 批次大小:每批使用的单词数。
- 时期数:训练的时期数量。
- 培训迭代次数:每批完成的更新数。
来自神经网络,我知道(懒惰从https://stats.stackexchange.com/questions/153531/what-is-batch-size-in-nearer-network(:
- 一个 epoch =一个向前传球和一个的向后传球 训练示例
- 批次大小 =一个前向/向后传球中训练示例的数量。批处理大小越高,您需要的内存空间就越多。
- 迭代的数量 =通过[批量大小]示例数的每个通过数。需要明确的是,一通=一个前传 一个向后传球(我们不计算两个不同的通行
不一定是这种情况。您也可以训练"半个时代"。例如,在Google的InceptionV3预处理脚本中,您通常会设置迭代编号和批处理大小。这可能会导致"部分时期",这可以很好。
如果是一个好主意,或者不训练半个时期可能取决于您的数据。有一个线程,但不是一个结论的答案。
我不熟悉knime doc2vec,所以我不确定那里的含义是否有些不同。但是,从您给出的定义来看,设置批量尺寸 迭代似乎很好。同样,设置时期数可能会引起冲突,尽管导致数字不累加到合理组合的情况。