假设 AWS S3 上有 Parquet 文件(用于 AWS Athena 查询(。
我需要通过更改数值来匿名化具有特定数值字段的记录(更改一位数字就足够了(。
- 我可以将镶木地板文件扫描为二进制并找到数值吗?或者压缩会使找不到这样的字符串?
- 假设我可以做 #1 - 我可以通过在二进制级别更改此数字上的数字来匿名化记录而不会损坏镶木地板文件吗?
10 倍
不,这是不可能的。Parquet 的格式有两层,这使得这是不可能的:编码和压缩。它们都对数据进行重新排序以适应更少的空间,它们之间的区别在于 CPU 使用率和通用性。有时可以压缩数据,以便如果所有值都相同/非常相似,则每个值需要不到一个字节。更改单个值会导致更多的空间使用,从而使您的编辑无法进行。