检测来自自然图像的文本

我通过使用卷积神经网络从图像中检测文本来在tensorflow中编写代码。我使用 TFRecords 文件读取街景文本数据集，然后将图像的高度和宽度调整为128。

我使用了零填充的 9卷积层和窗口大小为(2×2( 和步幅为 2 的三max_pool层。由于我只使用三个池化层，因此最后一个层形状将是 (16×16(。最后一个 CONV 层具有"256"过滤器。

我也使用过两个回归全连接层(tf.nn.sigmoid(和tf.losses.mean_squared_error作为损失函数。

我的问题是
这种架构是否足以进行检测过程？我知道有一种东西叫做NMS进行检测。还有在这种情况下的标签是什么？

一般来说，这不是一个规则，这只是基于我的经验，你应该从一个较小的净 2 或 3 卷积层开始，然后说会发生什么，如果你得到一些好的结果，更多地关注获胜的拓扑并适应超参数(学习鼠、批处理大小等(，如果你根本没有得到好的结果去深入意义添加卷积层。并再次评估。 12 卷真的很大，你的问题复杂性也应该是巨大的！否则，您将达到良好的准确性，但白白浪费大量计算机能力和时间！顺便说一下，使用金字塔形式意味着开始更宽，结束很小

相关内容

最新更新

热门标签：