如何处理需要随机访问的大数据进行新的网络培训

我的场景就是这样。从大数据集中选择两个图像（无法加载在内存中），并将它们与神经网络进行比较。每个训练样本由随机从数据集中选出两个图像。消除案件之间的协方差需要此随机过程。

，但我无法从内存中选择两个图像。因为计算机负担不起数据集的大小。因此，每次制作样本时，我都需要访问慢速磁盘。此磁盘访问时间大大减慢了学习过程。到目前为止，我最好的想法是将数据集随机分配给多个小型数据集，而该数据集可负担得起。然后，用每个SAMLL数据集一个一个一个一个一个一个一个一个训练神经网络。

但是有可能通过以后的小数据集会分散训练的模型。

所以有很好的方法来处理此随机大数据方案？

如何压缩培训图像？

训练网络后，分类通常非常快。您可以尝试使用例如，从线程中每个N毫秒接收新的随机选择的图像的队列，并使用例如，从线程接收新的随机选择的图像。另一个线程从队列中选择图像并处理训练。生产者/消费者模式可能是执行此类任务的好选择。训练后，您可以进行分类任务的在线压缩。这会稍微降低性能，但是由于分类通常很快，因此可能就足够了。

相关内容

最新更新

热门标签：