请求帮助加快17000个TXT文件的批处理程序



我已经扫描了超过17,000页(用于本地历史档案),我使用Tesseract对单个TXT文件进行了OCRed。我希望能够搜索/定位每一页包含一个搜索词超过3个,小写字母。对于每个TXT文件,我需要输入

  1. 从OCR文本中删除所有垃圾,即非字母数字字符- jrepl "[^a-zA-Z0-9s]""/x/f %%G/O -
  2. 删除1、2和3个字母的单词- jrepl "bw{1,3}b""/x/f %%G/O -
  3. 将所有字符更改为小写- jrepl "(w)"1.美元tolowercase()";/i/j/x/f %%G/O -
  4. 为了能够对剩下的单词进行排序,它们需要在单独的新行上- jrepl "s" n"/x/f %%G/O -
  5. 最后将所有唯一的单词按字母顺序排序并创建修改后的TXT文件- sort/unique %%G/O %%G

我有一个批处理文件,使用JREPL完成上述操作,但速度很慢。它已经跑了100多个小时了,我还没跑到一半。有什么建议可以加快办理速度吗?我用的是Windows 10。谢谢。

解决方案?

既然你现有的批处理做了你想要的,毫无疑问,测试替换将占用一些时间-所以:

将17,000个文件(或那些未处理的文件)分割到单独的目录中(无论您有多少个内核),然后在每个目录上启动现有的批处理。既然是周末,就让这个过程运行一整夜吧。8芯?应该在15个小时左右完成,当你补觉或园艺或其他事情。

最新更新