压缩 .npy 数据以节省磁盘空间



l 在我的磁盘上存储了一个巨大的数据集。因为我的数据集大约是 1.5 TB。l 将其分成 32 个样本,以便能够在 Python 2.7 中使用numpy.save('data_1.npy')。下面是 9 个子数据集的示例。每个大约是 30 GB。

每个.npy文件的形状为(number_of_examples,224,224,19(,值为浮点数。

data_1.npy
data_2.npy
data_3.npy
data_4.npy
data_5.npy
data_6.npy
data_7.npy
data_8.npy
data_9.npy

使用 np.save(' *.npy'(,我的数据集在我的磁盘中占据了 1.5 Tera。

1(有没有一种有效的方法来压缩我的数据集以获得一些可用空间磁盘? 2(有没有一种有效的方法来保存比np.save((占用更少的空间内存的文件?

谢谢

您可能想查看此答案中提到的 xz 压缩。我发现它是最好的压缩方法,同时节省了数十万个 .npy 文件,总计几百 GB。包含.npy文件的名为dataset的目录的 shell 命令为:

tar -vfcJ dataset.tar.xz dataset/

这只是为了在存储和移动数据集时节省磁盘空间;在加载到python之前需要解压缩。

最新更新