Apache Nutch 2.3.1 opic 评分过滤器不起作用



我已经在一个小集群上配置了Nutch 2.3.1和完整的Hadoop/Hbase生态系统。我对 Nutch 中使用的评分算法感到好奇。我在 Nutch 中找到并使用了 opic 评分过滤器。为了找到它的影响,我按照 Nutch WIKI 中的指导在 Nutch IN(dbupdate 和生成阶段(的不同步骤中检查分数。但是我发现,无论我如何运行迭代和获取多少文档,每个文档分数始终保持为零。opic 实现中是否存在问题,或者我缺少某些配置。

我观察到_csh_包含现金的字段在提取器阶段从 Hbase 中的相应表中删除。

我已经通过将更改放在OPICScoringFilter.java中解决了它

src/plugin/scoring-opic/src/java/org/apache/nutch/scoring/opic/OPICScoringFilter.java

我把它放在标记中作为UTF8。

-    row.getMetadata().put(CASH_KEY, ByteBuffer.wrap(Bytes.toBytes(score)));
+    row.getMarkers().put(CASH_KEY, new Utf8(Double.toString(score)));

最新更新