如何使用h5py构建数据集



我有以下数据集:

类别:1,2,3每个类别包含rgb图像320x240

dataset
|---- training_set
|---- 1
|--- rgb_1.png
|--- rgb_2.png
|---- 2
|--- rgb_1.png
|--- rgb_2.png
|---- 3
|--- rgb_1.png
|--- rgb_2.png
|---- test_set
|---- 1
|--- rgb_1.png
|--- rgb_2.png 
|---- 2
|--- rgb_1.png
|--- rgb_2.png
|---- 3
|--- rgb_1.png
|--- rgb_2.png

因为当我在谷歌colab中训练模型时,它比我的计算机慢,我想是因为数据集在谷歌驱动器中,所以我尝试了另一种解决方案来使用h5py创建数据集。

请问,如何使用h5py构建此数据集?

简单的答案是使用create_dataset()。你所需要的一切都在@jakub提供的链接中。要填充数据集,您需要根据图像创建一个NumPy数组。我不知道最好的方法。你需要弄清楚那部分。在我的示例中,我使用了cv2.imread()

您可以开始使用以下简单的代码:

import h5py, cv2
import numpy as np
# Create an array for image data
img_arr = cv2.imread(imgFile)
# returns a np array 
with h5py.File('imagedata.h5','w') as h5f :
dset = h5f.create_dataset("image1", data=img_arr)

最新更新