通过所有深度的所有子发现URL从种子URL发出自定义元数据



我有一个基于Storm Crawler的项目,它对Solr集合中的所有内容和状态进行索引。对于每个种子URL,我都有一些元数据,这些元数据需要通过每个种子URL的所有子级发出。例如,我有一个类似的数据结构:

<crawlId,种子URL,myMetadata>

如何将crawlId和相应的元数据发送给每个种子URL的所有发现的子项?是否有任何内置功能可供我们使用?

元数据。transfer是您所需要的,请参阅原型的conf

相关内容

  • 没有找到相关文章

最新更新