Nutch 使用 XPase 使用 Tika 解析自定义 XML



我是坚果新手。坚果 1.7我正在寻找基于 xpath 解析自定义 xml 文件并存储数据的方法。 我确实看到了xml_parser插件,但自从 tika 接管以来,该插件已暂停。如何配置嵌入在 nutch 1.7 中的 tika 以基于 xpath 解析 url 内容。 我已经搜索了所有坚果文档/维基,但那里没有太多信息。tika 尝试解析和提取由于自定义格式而失败的内容,但我想使用基于 xpath 的标签存储 xml。我应该把 xpath 信息放在坚果会议中的什么位置?还是我必须覆盖 tike 解析器?

任何

关于正确方向的提示都非常感谢。

谢谢。

我认为你不能用 tika 轻松做到这一点,但你可以使用这些自定义插件来解析基于 xpath 的 xml 文件:

  • https://github.com/BayanGroup/nutch-custom-search
  • http://www.atlantbh.com/precise-data-extraction-with-apache-nutch/

相关内容

  • 没有找到相关文章

最新更新