我是坚果新手。坚果 1.7我正在寻找基于 xpath 解析自定义 xml 文件并存储数据的方法。 我确实看到了xml_parser插件,但自从 tika 接管以来,该插件已暂停。如何配置嵌入在 nutch 1.7 中的 tika 以基于 xpath 解析 url 内容。 我已经搜索了所有坚果文档/维基,但那里没有太多信息。tika 尝试解析和提取由于自定义格式而失败的内容,但我想使用基于 xpath 的标签存储 xml。我应该把 xpath 信息放在坚果会议中的什么位置?还是我必须覆盖 tike 解析器?
任何关于正确方向的提示都非常感谢。
谢谢。
我认为你不能用 tika 轻松做到这一点,但你可以使用这些自定义插件来解析基于 xpath 的 xml 文件:
- https://github.com/BayanGroup/nutch-custom-search
- http://www.atlantbh.com/precise-data-extraction-with-apache-nutch/