Ascii表示没有特定字符的压缩数据



我想使用Python用Hadoop处理大量的pickled数据。我试图做的是将我的数据表示为某个密钥(文件id),并将压缩的pickle表示为大文件中的值。

如果我只是想把二进制代码作为ascii放在我想用hadoop处理的文件中,我会得到很多'\t'和'\n'值,这些值会干扰hadoop文件的(键,值)结构。

我的问题是:如何使用python压缩一些数据,并将其表示为ascii文件中的字符串,避免使用某些字符(如"\t"one_answers"\n")?

或者我的方法本身就是无效的?

我真的很感激任何帮助!

您可以使用base64模块将pickle对象转换为base64

对于压缩,可以使用zlibbz2模块。对于表示,可以使用base64模块。

最新更新