使用自定义数据集而不是 MNIST 进行训练

我想使用一个自定义数据集，其中包含英语以外的其他语言的手写字符的图像。我计划使用 KNN 算法对手写字符进行分类。

以下是我目前面临的一些挑战。 1.图像大小不同。- 我们如何解决这个问题，使用Python完成任何ETL工作？ 2.即使我们假设它们的大小相同，每个图像的潜在像素也会在70 * 70左右，因为这些字母比英语复杂，字符之间有许多特征。- 这对我的训练和表现有什么影响？

无论如何，如果绘制的字母彼此太相似，当然会更难识别它们。

一个有趣的想法是，不要简单地使用像素作为训练数据，你可以创建一些特殊功能，如下所述：http://archive.ics.uci.edu/ml/datasets/Letter+Recognition

相关内容