如何构建自己的手写数字数据集



我有一组中间类(0,25/0,5/0,75(从0到20的数字图像。每个数字都将被定义为自己的一个类。我每节课有22张图片。

这些图像将用于在用于分类的卷积神经网络上进行训练和测试。我不担心准确性,这只是概念的证明,所以我意识到数据集太小,不适合任何真正可靠的结果。就像我说的,这只是一个概念的证明。

编辑:根据@Kaveh的建议,我签出了ImageDataGenerator.flow_from_directory

据我所知,这是用来通过数据扩充来增加数据集大小的。然而,我想问的是,既然我在不同的文件夹中设置了这些图像(每个文件夹22个图像,每个文件夹组成一个类(,我该如何使用它们。我一直在加载组成数据集的一个文件(例如:mnist;通过keras(。我从来没有使用过我自己的数据,因此,不知道下一步是什么

按如下所示组织目录

data_dir
-----train_dir
---------zero_dir
-------------first_zero_image.jpg
-------------sencond_zero_image,jpg
...
-------------twenty_second_zero_image.jpg
---------ones_dir
-------------first_ones_image.jpg
-------------second_one_image.jpg
...
-------------twenty_second_ones_image.jpg
......
twenty_dir
-------------first_20_image.jpg
-------------seccond_20_image.jpg
...
-------------twenty_second_20_image.jpg
-----test_dir
--------zeros_dir
#  structure the test directory like the train directory and put
# your test images in it

现在,您可以使用Keras ImageDataGenerator.flow_from_directory为model.fit.提供数据

train_path=os.path.join(data_dir, train_dir)
from tensorflow.keras.preprocessing.image import ImageDataGenerator
gen=ImageDataGenerator(rescale=1/255, validation_split=.2)
train_gen=gen.flow_from_directory( train_path,
target_size=(256, 256),
color_mode="rgb",
classes=None,
class_mode="categorical",
batch_size=32,
shuffle=True,
seed=123,    
subset='training' )  
valid_gen=gen.flow_from_directory( train_path,
target_size=(256, 256),
color_mode="rgb",
classes=None,
class_mode="categorical",
batch_size=32,                                   
shuffle=False, 
subset='validation' )
history=model.fit(train_gen, epochs=20, validation_data=valid_gen)

这应该可以做到

最新更新