将GrobidTextractor.properties传递给Java中的Tika



我正在尝试编写一个Java应用程序,该应用程序使用JournalParser从期刊文章中提取作者、引文等。GrobidJournalParser的文档提供了命令行应用程序和TikaServer的说明。我需要指出Grobid在localhost:8080以外的其他地方运行。我在类路径上有一个GrobidTextractor.properties文件,其中包含正确的URL,但似乎找不到它——我遇到了一个错误,因为它试图访问localhost:8080上的Grobid。

   WARNING: Interceptor for {http://localhost:8080/processHeaderDocument}WebClient has thrown exception, unwinding now
org.apache.cxf.interceptor.Fault: No message body writer has been found for class org.apache.cxf.jaxrs.ext.multipart.MultipartBody, ContentType: multipart/form-data
    at org.apache.cxf.jaxrs.client.WebClient$BodyWriter.doWriteBody(WebClient.java:1220)

有没有其他方法可以告诉Tika或JournalParser在哪里找到Grobid?Javadocs在这方面没有帮助。

如关于将GROBID与Tika一起使用的文档中所述,如果您想将Tika配置为使用备用GROBID服务器,请使用名为org/apache/tika/parser/journal/GrobidExtractor.properties 的文件进行配置

你只给你的GrobidExtractor.properties打了电话,这就是为什么它没有被接走的原因。需要完整路径

假设您使用的是Linux,使用的是Tika应用程序,并且当前目录中有GROBID属性,则需要使用以下内容进行修复:

mkdir -p org/apache/tika/parser/journal
mv GrobidExtractor.properties org/apache/tika/parser/journal/
java -classpath .:tika-app-1.13.jar org.apache.tika.cli.TikaCLI --metadata journal.pdf

相关内容

  • 没有找到相关文章

最新更新