从Python中的DataFlow中读取Snappy或LZO压缩文件

是否有一种方法可以使用Apache Beam的Python SDK读取数据流上的Snappy或LZO压缩文件？

由于我找不到更简单的方法，所以这是我当前的方法(这似乎完全过高且效率低下(：

我认为今天没有任何内置的方式使用梁。Python Beam支持GZIP，BZIP2和DEFLATE。

选项1：在整个文件中读取并手动解压缩

此解决方案的性能可能不会那么快，并且无法将大文件加载到内存中。但是，如果您的文件大小很小，则可能足够好。

选项2：向光束添加新的解压器。

您也许可以为梁贡献解压缩器。看来您需要实现解压缩器逻辑，提供一些常数以在pipleine时指定它。

我认为，限制之一是必须一次扫描文件并在块中进行解压缩。如果压缩格式需要将整个文件读为内存，则可能无法正常工作。这是因为Textio库被设计为基于记录，它支持读取不适合内存的大文件并将它们分解为小记录进行处理。

相关内容