如何处理需要随机访问的大数据进行新的网络培训



我的场景就是这样。从大数据集中选择两个图像(无法加载在内存中),并将它们与神经网络进行比较。每个训练样本由随机从数据集中选出两个图像。消除案件之间的协方差需要此随机过程。

,但我无法从内存中选择两个图像。因为计算机负担不起数据集的大小。因此,每次制作样本时,我都需要访问慢速磁盘。此磁盘访问时间大大减慢了学习过程。到目前为止,我最好的想法是将数据集随机分配给多个小型数据集,而该数据集可负担得起。然后,用每个SAMLL数据集一个一个一个一个一个一个一个一个训练神经网络。

但是有可能通过以后的小数据集会分散训练的模型。

所以有很好的方法来处理此随机大数据方案?

如何压缩培训图像?

训练网络后,分类通常非常快。您可以尝试使用例如,从线程中每个N毫秒接收新的随机选择的图像的队列,并使用例如,从线程接收新的随机选择的图像。另一个线程从队列中选择图像并处理训练。生产者/消费者模式可能是执行此类任务的好选择。训练后,您可以进行分类任务的在线压缩。这会稍微降低性能,但是由于分类通常很快,因此可能就足够了。

最新更新