小贝子编程

将Nutch抓取的数据转储到多个warc文件中

本文关键字：warc 文件转储 Nutch 抓取数据 web-crawler nutch warc
更新时间 : 2023-08-26
英文 : Dump data from a Nutch crawl into multiple warc files

我已经抓取了一个使用Nutch 1.12的网站列表。我可以使用以下命令将抓取数据转储到单独的HTML文件中:

./bin/nutch dump -segment crawl/segments/ -o outputDir nameOfDir

并使用将其放入单个WARC文件中:

./bin/nutch warc crawl/warcs crawl/segment/nameOfSegment

但是我如何将收集的数据转储到多个WARC文件中，每个抓取的网页一个?

经过多次尝试，我终于发现

./bin/nutch commoncrawldump -outputDir nameOfOutputDir -segment crawl/segments/segmentDir -warc

正是我所需要的:将段的完整转储到单个WARC文件中!

每个文档有一个WARC听起来有点浪费，但是你可以这样做:您可以为"warc.output.segment"指定一个较低的值。Size’，这样每次写入新文档时，文件都会被旋转。warcexporters在引帽下使用[https://github.com/ept/warc-hadoop]，配置在那里使用。

将Nutch抓取的数据转储到多个warc文件中

相关内容

最新更新

热门标签：