检测来自自然图像的文本



我通过使用卷积神经网络从图像中检测文本来tensorflow中编写代码。我使用 TFRecords 文件读取街景文本数据集,然后将图像的高度和宽度调整为128

我使用了零填充的 9卷积层和窗口大小为(2×2( 和步幅为 2 的三max_pool层。由于我只使用三个池化层,因此最后一个层形状将是 (16×16(。最后一个 CONV 层具有"256"过滤器

我也使用过两个回归全连接层(tf.nn.sigmoid(和tf.losses.mean_squared_error作为损失函数。

我的问题是
这种架构是否足以进行检测过程?我知道有一种东西叫做NMS进行检测。还有在这种情况下的标签是什么?

一般来说,这不是一个规则,这只是基于我的经验,你应该从一个较小的净 2 或 3 卷积层开始,然后说会发生什么,如果你得到一些好的结果,更多地关注获胜的拓扑并适应超参数(学习鼠、批处理大小等(,如果你根本没有得到好的结果去深入意义添加卷积层。 并再次评估。 12 卷真的很大, 你的问题复杂性也应该是巨大的!否则,您将达到良好的准确性,但白白浪费大量计算机能力和时间!顺便说一下,使用金字塔形式意味着开始更宽,结束很小

最新更新