Nutch 使用 XPase 使用 Tika 解析自定义 XML

我是坚果新手。坚果 1.7我正在寻找基于 xpath 解析自定义 xml 文件并存储数据的方法。我确实看到了xml_parser插件，但自从 tika 接管以来，该插件已暂停。如何配置嵌入在 nutch 1.7 中的 tika 以基于 xpath 解析 url 内容。我已经搜索了所有坚果文档/维基，但那里没有太多信息。tika 尝试解析和提取由于自定义格式而失败的内容，但我想使用基于 xpath 的标签存储 xml。我应该把 xpath 信息放在坚果会议中的什么位置？还是我必须覆盖 tike 解析器？

任何

关于正确方向的提示都非常感谢。

谢谢。

我认为你不能用 tika 轻松做到这一点，但你可以使用这些自定义插件来解析基于 xpath 的 xml 文件：

https://github.com/BayanGroup/nutch-custom-search
http://www.atlantbh.com/precise-data-extraction-with-apache-nutch/

相关内容

最新更新

热门标签：