我在流利地使用 EKS 时遇到了问题,我将感谢社区的帮助,首先我将描述集群。
我们在具有非托管节点组的 VPC 中运行 EKS 集群。 EKS 集群网络配置标记为"公共和专用",并且 使用流利的位和 Elasticsearch 服务,我们在 Kibana 中显示日志。
我们已决定要移动到该集群中的托管节点组,因此已成功从非托管节点组迁移到托管节点组。
自从我们迁移以来,我们在 Kibana 中看不到任何日志,从 fluent bit pod 手动获取日志时没有错误。
我切换了流畅位的调试级别日志,以便更好地查看它。
我可以看到 fluent-bit 收集了所有日志文件,然后我看到我们收到消息:
[debug] [out_es] HTTP Status=403 URI=/_bulk
[debug] [retry] re-using retry for task_id=63 attemps=3
[debug] [sched] retry=0x7ff56260a8e8 63 in 321 seconds
此外,我们在其他 EKS 集群中也有托管节点组,但我们没有迁移到它们,它们是使用托管节点组创建的。创建的托管节点组
是根据我们从工作托管节点组创建的相同模板创建的,唯一的区别是计算能力。 该模板除了自动缩放外没有任何特别之处。
我比较了工作节点组日志的节点组 IAM 角色与我的非工作节点组,角色似乎相同。
就我的流畅位配置而言,我在几个 EKS 集群中具有相同的配置并且它可以工作,因此我不认为根本原因,但如果有人认为其他事情,我可以根据需要添加它。
有人遇到这种问题吗? 为什么节点组迁移会导致此类问题?
提前感谢!
吸取的教训,请始终查看您遇到问题的资源的访问策略,可能它与您的节点组角色不匹配