HTML的现场映射



我现在要去solr and Nutch。我在solr/nutch schema.xml中的现场映射有一个问题。我想从我的一个网站之一solr/nutch拾取一些关键字。我知道schema.xml具有一个字段映射部分,可以让我这样做。我想知道的是,我应该如何将关键字字段放入HTML中?我应该只是hte html隐藏字段:

<input type="hidden" name="keyword" .... /> 

或我应该使用

<meta/> 

tag?

XPATH从HTML提取元素进行了工作,因此您可以检查它。

但是,使用元标记可以是一个更好的选择,因为通常将HTML页面畸形用于XPath表达式。您可以使用nutch的索引元素来提取元数据并填充solr中的字段。

最新更新