我正在尝试使用UB-Manheim提供的二进制文件在Windows 7上训练tesseract的新语言。我正在遵循wiki中描述的培训程序。text2image
工作很大,并生成文件。但是,当我运行tesseract ... box.train
时,我得到以下错误:
read_params_file: Can't open box.train
二进制文件缺少什么吗?有可能在Windows上训练tesseract吗?或者我应该切换到Linux吗?
需要tessdataconfigs
文件夹下的configs文件
我建议你在Linux上训练tesseract,并使用lang。Windows上的traineddata我训练了tesseract 3.04为linux上的波斯语,遵循批处理文件(train.sh)并使用它。
for i in `ls -1 *.png`; do j=`echo $i| sed "s/.png//"`;enter code heretesseract $i $j nobatch box.train; done
unicharset_extractor *.box
shapeclustering -F font_properties -U unicharset -O far.unicharset *.tr
mftraining -F font_properties -U unicharset -O far.unicharset *.tr
cntraining *.tr
mv normproto far.normproto; mv inttemp far.inttemp; mv pffmtable far.pffmtable; mv shapetable far.shapetable
combine_tessdata far.