我需要将数据从 Nutch 2.3 转储到 WARC 文件中。但是,我找不到必要的模块。Nutch 1.x具有此功能。我想知道正确的方法。
正如您所说,目前 WARC 导出器模块尚未移植到 Nutch 的 2.x 分支,但是移植 https://github.com/apache/nutch/blob/master/src/java/org/apache/nutch/tools/warc/WARCExporter.java 模块应该不会那么难。作为一般规则,Nutch 的 1.x 分支仍然比 2.x 分支使用得更多,装备更好(至少目前是这样)。