通过Kafka压缩主题实现GDPR合规



我想问你一些关于apachekafka和压缩主题的问题。我们想提供一些关于卡夫卡压缩主题的PII数据。我们希望通过tombstone删除有关此主题的数据。目前有多个问题需要我们验证我们的假设:

  1. 有没有其他公司像KIP-354提出的那样,通过墓碑生成的压缩主题来满足卡夫卡的gdpr要求(遗忘权(https://cwiki.apache.org/confluence/display/KAFKA/KIP-354%3A+添加+a+最大值+对数+压实+滞后
  2. 我们的假设是正确的吗?只有当记录不在活动段文件中时才会触发压缩。因此,在我们看来,需要通过将其添加到kafka文档中来修改kafka文件第4.8点:主题的max.compaction.lag.ms可用于确保消息写入时间和消息符合压缩条件之间的最大延迟这里应该添加一个条件,即我们想要压缩的消息不应该在活动段文件中。这是max.compaction.lag.ms功能的错误还是按设计的?目前我们还不能确定
  3. 是否只有在插入新消息后才触发压缩?或者还有一个异步进程压缩非活动段文件吗

感谢您的回答;-(

你说得很对。

  1. 压缩Kafka主题中的消息删除或多或少与删除数据库中的行相同。它只是不会在tombstone消息发送后立即发生
  2. 是的,活动日志段未压缩。如果你想加快这个特定主题的压缩过程(为了满足第1点(,你可以将最大分段大小(segment.bytes,默认为1GB(和最大分段MS(segment.MS,默认为604800000=1周(降低到一些较低的值,例如100MB和1。您应该查看min.cleanable.dirty.tratio,并将其设置为一个更激进的值,这同样取决于需求(第1点(
  3. 压缩是异步发生的,是否在tombstone之后发送任何消息都无关紧要。每个Kafka、broker、LogCleaner上都运行一个组件,负责这一点

最新更新