为自定义语言训练 Tesseract OCR 所需的数据



我正在尝试构建一种自定义语言,仅用于检测以下字符:

["A", "B", "C", "D", "E", "F", "G", "H", "I", "J", "K", "L", "M",

"N", "O", "P", "Q", "R", "S", "T", "U", "V", "W", "X", "Y", "Z", "0", "1", "2"、"3"、"4"、"5"、"6"、"7"、"8"、"9"、"<"、"<<<"、"/"]

我有近 50 张图像,我已经为其生成了框文件,纠正了错误。 我的问题是为上述自定义字符训练 tesseract 是否需要使用由 tesseract 工具创建的图像,以便在创建 cust.traindata 时也用作输入

我已经制作了一个代码,从上面的数组中获取 5 个字符并使用 tesseract 工具构建一个图像,然后生成正确的 .box 文件,该文件不需要针对所有可能的配置进行调整,但由于创建 tesseract,它确实需要用于构建 cust.traindata。

提前谢谢。

如果我们希望 tesseract 使用默认的"eng"语言来预测后面的字母,我们不需要创建一个新语言 ["A"、"B"、"C"、"D"、"E"、"F"、"G"、"H"、"I"、"J"、"K"、"L"、"M"、"N"、"O"、"P"、"Q"、"R"、"S"、"T"、"U"、"V"、"W"、"X"、"Y"、"Z"、"0"、"1"、"2"、"3"、"4"、"5"、"6"、"7"、"8"、"9"、"<"、"<<<"、"/"]

你只需要将以下配置添加到tesseract tessedit_char_whitelist="ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789<">

例如。

tesseract input_image output_text -l eng -c tessedit_char_whitelist="ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789<">

最新更新