有没有办法从bash中提取pdf的内容?(我有一个很大的学术论文文件夹,可惜上面有"1010.3423.pdf"这样的标签。我想写一个bash脚本来更明智地命名它们,这涉及到谷歌搜索前几行。
有pdftotext,它可以帮助你从pdf文件中获取标题和作者。然后,您可以使用它进行Google,或自己生成文件名。
尝试 pdftotext 来提取文本? http://en.wikipedia.org/wiki/Pdftotext
pdf2xml将为您提供更详细的信息,我去年一直在寻找这样的实用程序,其中我认为pdf2xml是最好的。