我正在使用3 masters - 3 worker node
配置在AWS
上运行rook-ceph-cluster
。我已经使用它创建了我的集群。
每个worker node
都是100 GiB
。
设置完所有内容后。我正在运行我的 pod(确切地说是 6 个 pod,3 个用于主节点,3 个用于节点(。
如何手动崩溃/失败/停止这些 pod(以测试某些功能(?
有什么方法可以手动向这些 pod 添加更多负载,以便它可以崩溃?
或者我可以以某种方式使它们Out Of Memory
?
或者我可以模拟间歇性网络故障和节点与网络断开连接吗?
或者任何其他方法,例如编写一些可能会阻止创建 pod 的脚本?
您可以按照 Graham 提到的手动删除 pod,但其余的则更棘手。为了模拟 OOM,您可以kubectl exec
pod 并运行会消耗 RAM 的内容。或者,您可以将限制设置为低于实际使用的限制。模拟网络问题将取决于您的 CNI 插件,但我不知道任何允许故障注入的插件。为了防止创建 Pod,您可以设置任何节点都不满足的关联性。
强制重启的一种简单方法是终止正在运行的进程。
kubectl exec your-pod-name -- kill 1
为了强制崩溃循环关闭一个nginx pod,我做了:
kubectl exec -it <pod-name> -n <namespace> -- bash -c "kill 1"