将Nutch抓取的数据转储到多个warc文件中



我已经抓取了一个使用Nutch 1.12的网站列表。我可以使用以下命令将抓取数据转储到单独的HTML文件中:

./bin/nutch dump -segment crawl/segments/ -o outputDir nameOfDir
并使用 将其放入单个WARC文件中:
./bin/nutch warc crawl/warcs crawl/segment/nameOfSegment

但是我如何将收集的数据转储到多个WARC文件中,每个抓取的网页一个?

经过多次尝试,我终于发现

./bin/nutch commoncrawldump -outputDir nameOfOutputDir -segment crawl/segments/segmentDir -warc

正是我所需要的:将段的完整转储到单个WARC文件中!

每个文档有一个WARC听起来有点浪费,但是你可以这样做:您可以为"warc.output.segment"指定一个较低的值。Size’,这样每次写入新文档时,文件都会被旋转。warcexporters在引帽下使用[https://github.com/ept/warc-hadoop],配置在那里使用。

相关内容

  • 没有找到相关文章

最新更新