为什么tesseract在文本非常清晰的情况下却无法提供更好的输出

对于此图像链接到图像镶嵌，给出预期输出

预期输出


Current Date/Time
03/18/20 5:03:49 AM
Name
LastwriteTime
Report-CorpAdmins2.ps1 01/18/18 3:10:15 AM
Domain Admins
Domain Name 1
Domain Name 2
Domain Name 3
Domain Name 4
Domain Name 5
Schema Admins
Schema Name 1
Schema Name 2
Enterprise Admins
Enterprise Schema Name 1
Enterprise Schema Name 2

但对于这个图片链接到图片，它并没有给出预期输出

我想知道是什么原因，我必须做些什么才能从这两个图像中获得正确的输出？

如果您使用的是pytessaract，则不需要进行阈值处理。仅仅调整大小并转换为灰度就足以获得所需的输出。

text = pytesseract.image_to_string(img, lang='eng', config='--psm 6')
text_to_arr = (text.split('n'))
space_to_empty = [x.strip() for x in text_to_arr]
space_clean_list = [x.lower() for x in space_to_empty if x]
print(space_clean_list)

编辑：我正在使用这个代码的灰度图像。现在我正在水平阅读课文。它给了我这样的结果。你可以自己做一些预处理。

['ps c:\users\vishnu\tdesktop>python.\sample.py'，'current日期/时间'，'@3/18/28 5:63:49am'，'name lastwritetime'，'report-corpadmins2.ps1@1/18 3:16:15am'，'domainadmins'，'domainname 1'，'domain name 2'，'domain name 3'，'domain name 4'，'域name 5'，schema admins'，schema name 1'，schema name2'，'企业管理员'，'企业架构名称1'，'企业模式name 2']

相关内容

最新更新

热门标签：