检测Tesseract OCR Java实现的大字体和小字体大小



是否可以OCR图片,并使用Tesseract OCR识别图片中不同字体大小。如果是,我需要使用任何其他第三方库吗?或者我可以使用纯Java吗。例如,

我想通过使用字体大小来检测报纸的标题和内容。

如对此事有任何帮助,我们将不胜感激。

您可以使用ResultIterator.WordFontAttributes API方法(例如在Java中使用Tess4J)来检索已识别文本的字体信息,包括字体名称和大小。

Tesseract的hOCR输出包括可用于确定大小的线条和单词的边界框,还可以通过打开hocr_font_info配置变量将字体的点大小配置为包括在输出中。

最新更新