在.txt文件中查找并替换pdftotext生成的图像字符

我使用PHP的pdftotext从pdf创建了很多.txt文件。

像这样使用它，它完全适用于所有文件中的所有文本部分：

system("pdftotext -raw dir/$pdf_file 2>&1");

问题

然而，在新的.txt文件中，pdf文件中的所有图像都显示为：

所以，在所有这些视图中，我有不同的方法来处理这个奇怪的字符。

问题

在尝试了这么多代码一周之后，我仍然在寻找一种方法，从所有.txt文件中找到并删除这个奇怪的图像字符。

有解决方案吗？

或者，在这里做什么才是明智之举？使用带有代码的php文件，还是在命令行上？我现在有点迷上了这个。

打印纯文本时的代码约定是FF通常意味着FormFeed，它是打印机的控制代码

↑ 12 00/12 14 %0C FF (CtrL=^L) FORM FEED(分页(

这是一种指示/弹出页面末尾的方法，因此您应该在页面之间的分隔处看到一个。

有一个开关可以删除/排除它们，所以请尝试，

system("pdftotext -raw -nopgbrk dir/$pdf_file 2>&1");

相关内容