tesseract训练过程中的单词列表是否需要该语言中的所有单词?



我正在训练一种新的语言,这种语言不存在于谷歌代码中,我正在制作单词列表,但它没有解释关于....的列表是什么我的意思是它是训练tiff图像中的单词列表还是整个语言中的单词列表?

来自文档:

Tesseract为每种语言使用多达8个字典文件。这些都是可选的,并帮助《Tesseract》决定不同角色组合的可能性。

有各种各样的字典,你可以在开头忽略它们。

其中一本字典应该包含几乎所有的单词,而另一本应该包含最流行的单词。其余的包含其他东西。

如果我知道你在为什么语言创建训练数据,我可以给一些指针。

但是重申一下:你不需要它们中的任何一个。

请参阅文档的相关部分

最新更新