我正在尝试使用歧管cf与文件系统连接器。
它工作起来很神奇:通过实现Tika内容提取器,我从文档中获得了所有预期的元数据。
但是…如何配置歧管cf以获得此命令的等效物:Java -jar tika-app-1.9.jar——text我的意思是,我想获得文件的内容并将其推送到输出连接中。这怎么可能?
您必须在管道中设置变压器。在配置输出连接器之前,添加Tika变压器。通过这种设置,您应该能够根据文档类型提取元数据,最终您应该看到内容和元数据馈送到输出连接器(例如。solr)