我安装了solr和nutch,我的网页结构是每个页面的标题都相同;例如Bank Something;但在每个页面中都有一个ID为TITLE的标签,类似于:
<div ID="TITLE"><h1>my page specific title</h1></div>
我想在solr类似的第二个标题中添加另一个字段,以获取我的页面特定标题并在其中搜索单词
我该怎么做?!
检查Nutch插件,它应该允许您从网页中提取元素。