小贝子编程

Chainer 迭代器，用于包含多个示例的文件，无需预加载

本文关键字：文件加载用于迭代器包含多 Chainer python machine-learning artificial-intelligence chainer
更新时间 : 2023-09-12
英文 : Chainer Iterator for files containing multiple examples without pre-loading

我有超过 100,000 个文件，每个文件包含 20 多个示例。每个文件的示例数不同。如何在 Chainer 中创建批处理大小为 ~10 的迭代器，而无需预加载内存中的所有文件？

我认为您可以使用DatasetMixin类来定义自己的数据集。您可以覆盖get_example(i)方法来提取i-th数据，因此您可以在需要get_example(i)中的数据时加载文件。但是，它仍然需要"预索引"，这意味着您需要定义哪些i-th 数据对应于哪个文件。

下面是如何定义自己的DatasetMixin类的参考。

参考： - Chainer v3初学者教程(日语) - 使用DatasetMixin从您自己的数据创建数据集类

请参阅使用DatasetMixin按需加载图像的官方示例： https://github.com/chainer/chainer/blob/master/examples/imagenet/train_imagenet.py#L39

相关内容