小贝子编程

如何从warc.wet.gz中提取每个有效载荷

本文关键字：有效提取 warc wet gz python common-crawl warc
更新时间 : 2023-08-28
英文 : How can one extract every payload from warc.wet.gz?

我一直在尝试从Common Crawl的湿文件中提取文本数据。我目前正在使用互联网档案的warc解析器https://github.com/internetarchive/warc

import warc
w = warc.open(fileName)
for record in w:
  text = record.payload.read()

但这种方法提供的数据不到有效载荷中的一半。有没有其他更好的方法可以提供文件中每个有效负载中的所有数据。

warc库的gzip处理有一个错误，导致warc无法读取整个WET文件。为了克服这个错误，您应该使用Python的gzip库来动态解压缩文件流，如下所示：

import gzip
import warc
gzip_fobj = gzip.open(wet_file, "r")
warc_fobj = warc.WARCFile(fileobj=gzip_fobj, compress=False)

最新更新

Jenkins zip调试和发布apk，并希望做archiveArtifacts
如何在Oracle XE 21c上下载HR模式?
r语言 - 是否有可能强制一个特定的变量进入bestglm?
从html [web app using flask]中的python文件获取信息
磁盘[admin]未配置，请在' config/ filessystems .php '中添加磁盘配置
如何从子组件中设置父组件中的变量
我如何排序我的捆绑器依赖之间是一个开发依赖或不是?
Weka RF 不会给出任何混淆矩阵或预期结果
我想简化这个javascript代码.有许多子元素
如何将列表转换为元组，我尝试了基于谷歌搜索，它从未工作过
键和值的哈希集
目标链接并不总是出现在iframe中
0x800700b7向IIS部署网站错误
条形码扫描器何时创建com端口，何时不创建?
在SQL中创建一个没有join的视图
在React中使用jQuery仅用于更改样式(颜色，边框等)是可以的吗?
UseState没有更新组件属性
c语言 - 我有一个将字符串作为参数的函数.v手动输入字符串有效，但使用 scanf 不起作用
无法解析google工作表中的范围
如何在顺风中使用柔韧
无法将数据插入数据库
r语言 - 闪亮的应用程序输出显示在控制台，而不是在主面板
ModuleNotFoundError for 'sklearn' as subdependency of numpy
语句中未声明的标识符导致的负索引'for'
MariaDB vs MySQL:列定义中的默认表达式不工作
在SQL表中有一个默认时间
vb.net stream_writer encoding
我们可以在powershell中调用Bat命令而不调用/调用Bat文件吗?
如何修复类型错误：'int'对象不可迭代
Discord Bot JS:编辑来自先前斜杠命令交互的回复

如何从warc.wet.gz中提取每个有效载荷

相关内容

最新更新

热门标签：