我使用PHP的pdftotext从pdf创建了很多.txt文件。
像这样使用它,它完全适用于所有文件中的所有文本部分:
system("pdftotext -raw dir/$pdf_file 2>&1");
问题
然而,在新的.txt文件中,pdf文件中的所有图像都显示为:
- 在FTP中打开文件时为"FF">
- 浏览器中带有urlencode的字符"%0C"(fopen(
- 没有urlencode的向上箭头(fopen(
- ^L、 当在命令行上使用less时(在CentOs 7中(,即使sed在单个文件名上的/^L//g'也不起作用
所以,在所有这些视图中,我有不同的方法来处理这个奇怪的字符。
问题
在尝试了这么多代码一周之后,我仍然在寻找一种方法,从所有.txt文件中找到并删除这个奇怪的图像字符。
有解决方案吗?
或者,在这里做什么才是明智之举?使用带有代码的php文件,还是在命令行上?我现在有点迷上了这个。
打印纯文本时的代码约定是FF通常意味着FormFeed,它是打印机的控制代码
↑ 12 00/12 14 %0C FF (CtrL=^L) FORM FEED
(分页(
这是一种指示/弹出页面末尾的方法,因此您应该在页面之间的分隔处看到一个。
有一个开关可以删除/排除它们,所以请尝试,
system("pdftotext -raw -nopgbrk dir/$pdf_file 2>&1");