为自定义语言训练 Tesseract OCR 所需的数据

我正在尝试构建一种自定义语言，仅用于检测以下字符：

["A"， "B"， "C"， "D"， "E"， "F"， "G"， "H"， "I"， "J"， "K"， "L"， "M"，

"N"， "O"， "P"， "Q"， "R"， "S"， "T"， "U"， "V"， "W"， "X"， "Y"， "Z"， "0"， "1"， "2"、"3"、"4"、"5"、"6"、"7"、"8"、"9"、"<"、"<<<"、"/"]

我有近 50 张图像，我已经为其生成了框文件，纠正了错误。我的问题是为上述自定义字符训练 tesseract 是否需要使用由 tesseract 工具创建的图像，以便在创建 cust.traindata 时也用作输入

我已经制作了一个代码，从上面的数组中获取 5 个字符并使用 tesseract 工具构建一个图像，然后生成正确的 .box 文件，该文件不需要针对所有可能的配置进行调整，但由于创建 tesseract，它确实需要用于构建 cust.traindata。

提前谢谢。

如果我们希望 tesseract 使用默认的"eng"语言来预测后面的字母，我们不需要创建一个新语言 ["A"、"B"、"C"、"D"、"E"、"F"、"G"、"H"、"I"、"J"、"K"、"L"、"M"、"N"、"O"、"P"、"Q"、"R"、"S"、"T"、"U"、"V"、"W"、"X"、"Y"、"Z"、"0"、"1"、"2"、"3"、"4"、"5"、"6"、"7"、"8"、"9"、"<"、"<<<"、"/"]

你只需要将以下配置添加到tesseract tessedit_char_whitelist="ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789<">

例如。

tesseract input_image output_text -l eng -c tessedit_char_whitelist="ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789<">

相关内容

最新更新

热门标签：