如何在阿帕奇提卡中将 pdf 文件转换为文本



我正在尝试使用apache tika将pdf文件转换为文本文件。

我正在使用以下代码

curl file:////home/C:Apachelist costs closed.pdf | java -jar  tika-app-1.6.jar --text --encoding=US-ASCII | xargs -0 >  list costs closedText

但是当我在命令 promt 中运行此代码时,我收到此错误。

"curl"不被识别为内部或外部命令,可操作 程序或批处理文件。

我已经设置了 java 环境变量。

这听起来可能是重复的问题,但我尝试通过谷歌搜索其他链接,但我无法解决它。我是这个工具的初学者。因此,如果听起来像重复,我深表歉意。

编辑

我试过这样

java -jar  C:Apachetika-app-1.6.jar --text C:Apachelist costs closed.pdf

我收到错误

线程"main"java.net.MalformedURLException中的异常:未知 协议:C 在java.net.URL。(来源不明) 在java.net.URL。(来源不明) 在java.net.URL。(来源不明) at org.apache.tika.cli.TikaCLI.process(TikaCLI.java:417) at org.apache.tika.cli.TikaCLI.main(TikaCLI.java:113)

对于第一个问题,首先你必须安装 curl。关注此博客。

对于第二个问题:您必须用引号给出路径,例如 java -jar "C:\Apache\tika-app-1.6.jar" --text "C:\Apache\list cost closed.pdf">

您也可以在计算机上创建一个本地 tika 服务器并传递其地址,这样您就不必每次要使用 tika 时都加载 jar 文件。 可以使用cmd中的以下命令启动服务器:java -jar "C:\Apache\tika-server-VERSION.jar" -s 您可以通过转到以下位置来验证本地服务器:http://localhost:9998/

验证服务器正在运行后,可以在新的命令窗口中使用以下命令。 curl -T "输入文件路径" http://localhost:9998/tika

正如评论中指出的那样,Tika 1.20 现已上市。

相关内容

  • 没有找到相关文章

最新更新