我正在尝试使用apache tika将pdf文件转换为文本文件。
我正在使用以下代码
curl file:////home/C:Apachelist costs closed.pdf | java -jar tika-app-1.6.jar --text --encoding=US-ASCII | xargs -0 > list costs closedText
但是当我在命令 promt 中运行此代码时,我收到此错误。
"curl"不被识别为内部或外部命令,可操作 程序或批处理文件。
我已经设置了 java 环境变量。
这听起来可能是重复的问题,但我尝试通过谷歌搜索其他链接,但我无法解决它。我是这个工具的初学者。因此,如果听起来像重复,我深表歉意。
编辑
我试过这样
java -jar C:Apachetika-app-1.6.jar --text C:Apachelist costs closed.pdf
我收到错误
线程"main"java.net.MalformedURLException中的异常:未知 协议:C 在java.net.URL。(来源不明) 在java.net.URL。(来源不明) 在java.net.URL。(来源不明) at org.apache.tika.cli.TikaCLI.process(TikaCLI.java:417) at org.apache.tika.cli.TikaCLI.main(TikaCLI.java:113)
对于第一个问题,首先你必须安装 curl。关注此博客。
对于第二个问题:您必须用引号给出路径,例如 java -jar "C:\Apache\tika-app-1.6.jar" --text "C:\Apache\list cost closed.pdf">
您也可以在计算机上创建一个本地 tika 服务器并传递其地址,这样您就不必每次要使用 tika 时都加载 jar 文件。 可以使用cmd中的以下命令启动服务器:java -jar "C:\Apache\tika-server-VERSION.jar" -s 您可以通过转到以下位置来验证本地服务器:http://localhost:9998/
验证服务器正在运行后,可以在新的命令窗口中使用以下命令。 curl -T "输入文件路径" http://localhost:9998/tika
正如评论中指出的那样,Tika 1.20 现已上市。