在.txt文件中查找并替换pdftotext生成的图像字符



我使用PHP的pdftotext从pdf创建了很多.txt文件。

像这样使用它,它完全适用于所有文件中的所有文本部分:

system("pdftotext -raw dir/$pdf_file 2>&1");

问题

然而,在新的.txt文件中,pdf文件中的所有图像都显示为:

  • 在FTP中打开文件时为"FF">
  • 浏览器中带有urlencode的字符"%0C"(fopen(
  • 没有urlencode的向上箭头(fopen(
  • ^L、 当在命令行上使用less时(在CentOs 7中(,即使sed在单个文件名上的/^L//g'也不起作用

所以,在所有这些视图中,我有不同的方法来处理这个奇怪的字符。

问题

在尝试了这么多代码一周之后,我仍然在寻找一种方法,从所有.txt文件中找到并删除这个奇怪的图像字符。

有解决方案吗?

或者,在这里做什么才是明智之举?使用带有代码的php文件,还是在命令行上?我现在有点迷上了这个。

打印纯文本时的代码约定是FF通常意味着FormFeed,它是打印机的控制代码

↑ 12 00/12 14 %0C FF (CtrL=^L) FORM FEED(分页(

这是一种指示/弹出页面末尾的方法,因此您应该在页面之间的分隔处看到一个。

有一个开关可以删除/排除它们,所以请尝试,

system("pdftotext -raw -nopgbrk dir/$pdf_file 2>&1");

最新更新