TIKA 服务器提取嵌入式资源



我正在使用TIKA-app (v1.23( 进行一些测试,以从输入文件中提取嵌入式资源,通过使用app在命令行上指定-z参数效果很好。此参数启用嵌入式资源提取并将资源写入工作目录。现在,我想基于TIKA服务器使用此功能。但是,我无法在文档中找到正确的方法,我想知道还是TIKA的服务器变体提供了此选项?

那么,如何使用TIKA服务器应用程序提取嵌入式资源呢?请注意,我不是在寻找嵌入式资源的内容,而是寻找实际的二进制文件数据(我想将附件与输入文件分开(

通过Apache Tika Server的/unpack端点有一个类似的功能。如果将其与设置为 true 的X-Tika-PDFExtractInlineImages标头结合使用,它将执行等效处理。

例如:

curl -T test.pdf http://localhost:9998/unpack > test.zip --header "X-Tika-PDFExtractInlineImages: true"

将返回一个 ZIP 文件,其中包含 ZIP 中的所有图像。

您可以在此处阅读有关终端节点的更多信息。