针对特定语言内容的 Apache Nutch 排名算法



我已经配置了带有Hadoop/Hbase生态系统的Nutch 2.3.1来抓取乌尔都语内容。对于语言检测,我已经自定义了提取器并在那时查找语言。如果文档没有足够的乌尔都语(字节(,那么我故意将其状态设置为消失,以停止使用空内容增长此边缘。我还必须找到新的乌尔都语域名。

我仍然面临选择要获取的网址的问题。随着时间的流逝,内链数据增加,其中包括许多不在乌尔都语中的URL。Nutch正在选择(生成器(大约90%的这些没有乌尔都语内容的URL。由于这个原因,我的资源被浪费了,因为获取的新乌尔都语内容非常少。

我怎样才能让 Nutch 更喜欢那些可能含有乌尔都语内容的域文档?我想我必须以某种方式自定义排名算法。实现我的目标有哪些可能的方法?

我认为最简单的解决方案是为这些不重要的URL分配非常低的分数。并且,也许可以为生成器设置最低分数阈值(https://github.com/apache/nutch/blob/master/src/java/org/apache/nutch/crawl/Generator.java#L93(。

当然,所有这些都伴随着某些问题,可能是在某些时候您用完了要获取的 URL。因为,要么生成器没有找到任何合适的候选网址(分数阈值,要么没有更多的乌尔都语网址要获取(,要么所有网址(您发现的(都已被获取。

通常,规划这些边缘情况是个好主意。

最新更新