用nutch和solr在每一页中获取特定的标题



我安装了solr和nutch,我的网页结构是每个页面的标题都相同;例如Bank Something;但在每个页面中都有一个ID为TITLE的标签,类似于:

<div ID="TITLE"><h1>my page specific title</h1></div>

我想在solr类似的第二个标题中添加另一个字段,以获取我的页面特定标题并在其中搜索单词

我该怎么做?!

检查Nutch插件,它应该允许您从网页中提取元素。

相关内容

  • 没有找到相关文章

最新更新