我已经抓取了一个使用Nutch 1.12的网站列表。我可以使用以下命令将抓取数据转储到单独的HTML文件中:
./bin/nutch dump -segment crawl/segments/ -o outputDir nameOfDir
并使用
将其放入单个WARC文件中:./bin/nutch warc crawl/warcs crawl/segment/nameOfSegment
但是我如何将收集的数据转储到多个WARC文件中,每个抓取的网页一个?
经过多次尝试,我终于发现
./bin/nutch commoncrawldump -outputDir nameOfOutputDir -segment crawl/segments/segmentDir -warc
正是我所需要的:将段的完整转储到单个WARC文件中!
每个文档有一个WARC听起来有点浪费,但是你可以这样做:您可以为"warc.output.segment"指定一个较低的值。Size’,这样每次写入新文档时,文件都会被旋转。warcexporters在引帽下使用[https://github.com/ept/warc-hadoop],配置在那里使用。