我们正在解决生产问题,这可能需要几天时间才能解决。大多数 Kafka 节点都是活跃的。一个节点已关闭。我们将在修复错误后提出它。我们的卡夫卡版本是2.1.X。
我很好奇几天后启动一个不活跃的经纪人有什么影响。
我们可能会观察到任何问题吗?(尤其是在副本赶上重新启动的代理后对使用者的影响。
安全推出有哪些意外情况?
每当代理关闭时,建议尽快恢复。使用者偏移过期,日志结束偏移也会在活动群集中定期清理。
我们能够在 4 天后恢复节点,但这并不容易操作。我们通过启用不干净的领导者选举来恢复 Kafka 集群。由于领导分配不当,我们控制了停工。恢复非活动节点后,我们禁用了不干净的领导者选举。
需要考虑的事项:
-
在生产中,客户端通常不能有任何停机时间。监视使用者 用于超出 SLA 的任何长时间重新平衡或滞后提交的组。
-
如果还原节点上的偏移量,则运行首选副本选择 是活的。
-
重置使用者组的偏移量。这确实需要简短的 停机时间。
反转:
您可以使用重新分配工具回滚主题分区,但没有简单的回滚。