我在tesseract中使用了两个训练数据文件来识别两种语言。但是因为准确性不够好,我训练了tesseract并生成一个新的traineddata文件,我想将其与我使用的两种语言文件之一合并。所以我的问题是:如何将新的训练数据文件与此处找到的文件之一合并:https://code.google.com/p/tesseract-ocr/downloads/list .有什么帮助吗?
您可以解压缩现有.traineddata
并单独合并组件; 但是,我不确定这是否可行。您可以创建ell1.traineddata
并在命令行中将其与现有一起指定,例如:
tesseract image output -l ell+ell1