AWS 上的 SAP Vora2.1 间歇性宕机

我已经使用 kops 在 AWS 上设置了一个 SAP Vora2.1 安装。它是一个 4 节点集群，具有 1 个主节点和 3 个节点。vSystem-vrep 的持久卷要求使用 AWS-EFS 提供，其他有状态组件的持久卷要求使用 AWS-EBS 提供。虽然安装正常并运行了几天，但在 3-4 天后，5 个 vora pods 开始出现一些问题，沃拉目录沃拉关系沃拉时间序列沃拉-TX-协调员沃拉盘

这些 Pod 中的每一个都有 2 个容器，并且都应该启动并运行。然而，在 3-4 天后，尽管 kubernetes 集群已经启动并运行，但其中一个容器会自行关闭。我尝试了各种方法来启动这些 pod 并运行所有必需的容器，但它没有出现。

我已经捕获了 vora-disk 的事件作为样本，但所有 pod 都显示相同的跟踪，

Events:
FirstSeen     LastSeen        Count   From                                                            SubObjectPath           Type            Reason          Message
---------     --------        -----   ----                                                            -------------           --------        ------          -------
1h            7m              21      kubelet, ip-172-31-64-23.ap-southeast-2.compute.internal        spec.containers{disk}   Warning         Unhealthy       Liveness probe failed: dial tcp 100.96.7.21:10002: getsockopt: connection refused
1h            2m              11      kubelet, ip-172-31-64-23.ap-southeast-2.compute.internal        spec.containers{disk}   Normal          Killing         Killing container with id docker://disk:pod "vora-disk-0_vora(2f5ea6df-545b-11e8-90fd-029979a0ef92)" container "disk" is unhealthy, it will be killed and re-created.
1h            58s             51      kubelet, ip-172-31-64-23.ap-southeast-2.compute.internal                                Warning         FailedSync      Error syncing pod
1h            58s             41      kubelet, ip-172-31-64-23.ap-southeast-2.compute.internal        spec.containers{disk}   Warning         BackOff         Back-off restarting failed container
1h            46s             11      kubelet, ip-172-31-64-23.ap-southeast-2.compute.internal        spec.containers{disk}   Normal          Started         Started container
1h            46s             11      kubelet, ip-172-31-64-23.ap-southeast-2.compute.internal        spec.containers{disk}   Normal          Pulled          Container image "ip-172-31-13-236.ap-southeast-2.compute.internal:5000/vora/dqp:2.1.32.19-vora-2.1" already present on machine
1h            46s             11      kubelet, ip-172-31-64-23.ap-southeast-2.compute.internal        spec.containers{disk}   Normal          Created         Created container
1h            1s              988     kubelet, ip-172-31-64-23.ap-southeast-2.compute.internal        spec.containers{disk}   Warning         Unhealthy       Readiness probe failed: HTTP probe failed with statuscode: 503

如果有任何解决此问题的指示，请不胜感激。

感谢弗兰克的建议和指点。当然，这有助于克服少数问题，但不是全部。

我们特别观察到与Vora服务无缘无故关闭有关的问题。虽然我们知道Vora出现故障可能有一些原因，但是恢复过程在管理员指南或互联网上的任何地方都不可用。我们已经看到由 vora 操作员创建的 Vora 服务出现故障(这些 Pod 中的每一个都包含一个安全容器和其他特定于服务的容器。特定于服务的容器关闭并且不会启动(。我们尝试了各种选项，例如重新启动所有 Vora Pod 或仅重新启动与 Vora 部署操作员相关的 Pod，但这些 Pod 没有出现。在这种情况下，我们正在重新部署Vora，但这基本上意味着所有以前的工作都消失了。是否有任何命令或方法可以让 Vora pods 提出所有容器？

此问题在 SAP 说明 2631736 - Vora 2.x 中的活动性和就绪性问题中进行了描述，建议增加运行状况检查间隔。

相关内容

最新更新

热门标签：