小贝子编程

Ascii表示没有特定字符的压缩数据

我想使用Python用Hadoop处理大量的pickled数据。我试图做的是将我的数据表示为某个密钥（文件id），并将压缩的pickle表示为大文件中的值。

如果我只是想把二进制代码作为ascii放在我想用hadoop处理的文件中，我会得到很多'\t'和'\n'值，这些值会干扰hadoop文件的（键，值）结构。

我的问题是：如何使用python压缩一些数据，并将其表示为ascii文件中的字符串，避免使用某些字符（如"\t"one_answers"\n"）？

或者我的方法本身就是无效的？

我真的很感激任何帮助！

您可以使用base64模块将pickle对象转换为base64。

对于压缩，可以使用zlib或bz2模块。对于表示，可以使用base64模块。

相关内容