为什么tesseract在文本非常清晰的情况下却无法提供更好的输出



对于此图像链接到图像镶嵌,给出预期输出

预期输出


Current Date/Time
03/18/20 5:03:49 AM
Name
LastwriteTime
Report-CorpAdmins2.ps1 01/18/18 3:10:15 AM
Domain Admins
Domain Name 1
Domain Name 2
Domain Name 3
Domain Name 4
Domain Name 5
Schema Admins
Schema Name 1
Schema Name 2
Enterprise Admins
Enterprise Schema Name 1
Enterprise Schema Name 2

但对于这个图片链接到图片,它并没有给出预期输出

我想知道是什么原因,我必须做些什么才能从这两个图像中获得正确的输出?

如果您使用的是pytessaract,则不需要进行阈值处理。仅仅调整大小并转换为灰度就足以获得所需的输出。

text = pytesseract.image_to_string(img, lang='eng', config='--psm 6')
text_to_arr = (text.split('n'))
space_to_empty = [x.strip() for x in text_to_arr]
space_clean_list = [x.lower() for x in space_to_empty if x]
print(space_clean_list)

编辑:我正在使用这个代码的灰度图像。现在我正在水平阅读课文。它给了我这样的结果。你可以自己做一些预处理。

['ps c:\users\vishnu\tdesktop>python.\sample.py','current日期/时间','@3/18/28 5:63:49am','name lastwritetime','report-corpadmins2.ps1@1/18 3:16:15am','domainadmins','domainname 1','domain name 2','domain name 3','domain name 4','域name 5',schema admins',schema name 1',schema name2','企业管理员','企业架构名称1','企业模式name 2']

最新更新