如何从warc.wet.gz中提取每个有效载荷



我一直在尝试从Common Crawl的湿文件中提取文本数据。我目前正在使用互联网档案的warc解析器https://github.com/internetarchive/warc

import warc
w = warc.open(fileName)
for record in w:
  text = record.payload.read()

但这种方法提供的数据不到有效载荷中的一半。有没有其他更好的方法可以提供文件中每个有效负载中的所有数据。

warc库的gzip处理有一个错误,导致warc无法读取整个WET文件。为了克服这个错误,您应该使用Python的gzip库来动态解压缩文件流,如下所示:

import gzip
import warc
gzip_fobj = gzip.open(wet_file, "r")
warc_fobj = warc.WARCFile(fileobj=gzip_fobj, compress=False)

相关内容

  • 没有找到相关文章

最新更新