如何构建自己的手写数字数据集

我有一组中间类(0,25/0,5/0,75(从0到20的数字图像。每个数字都将被定义为自己的一个类。我每节课有22张图片。

这些图像将用于在用于分类的卷积神经网络上进行训练和测试。我不担心准确性，这只是概念的证明，所以我意识到数据集太小，不适合任何真正可靠的结果。就像我说的，这只是一个概念的证明。

编辑：根据@Kaveh的建议，我签出了ImageDataGenerator.flow_from_directory

据我所知，这是用来通过数据扩充来增加数据集大小的。然而，我想问的是，既然我在不同的文件夹中设置了这些图像(每个文件夹22个图像，每个文件夹组成一个类(，我该如何使用它们。我一直在加载组成数据集的一个文件(例如：mnist；通过keras(。我从来没有使用过我自己的数据，因此，不知道下一步是什么

按如下所示组织目录

data_dir
-----train_dir
---------zero_dir
-------------first_zero_image.jpg
-------------sencond_zero_image,jpg
...
-------------twenty_second_zero_image.jpg
---------ones_dir
-------------first_ones_image.jpg
-------------second_one_image.jpg
...
-------------twenty_second_ones_image.jpg
......
twenty_dir
-------------first_20_image.jpg
-------------seccond_20_image.jpg
...
-------------twenty_second_20_image.jpg
-----test_dir
--------zeros_dir
#  structure the test directory like the train directory and put
# your test images in it

现在，您可以使用Keras ImageDataGenerator.flow_from_directory为model.fit.提供数据

train_path=os.path.join(data_dir, train_dir)
from tensorflow.keras.preprocessing.image import ImageDataGenerator
gen=ImageDataGenerator(rescale=1/255, validation_split=.2)
train_gen=gen.flow_from_directory( train_path,
target_size=(256, 256),
color_mode="rgb",
classes=None,
class_mode="categorical",
batch_size=32,
shuffle=True,
seed=123,    
subset='training' )  
valid_gen=gen.flow_from_directory( train_path,
target_size=(256, 256),
color_mode="rgb",
classes=None,
class_mode="categorical",
batch_size=32,                                   
shuffle=False, 
subset='validation' )
history=model.fit(train_gen, epochs=20, validation_data=valid_gen)

这应该可以做到

相关内容

最新更新

热门标签：