KubeContainerWaiting #
含义 #
Container 处于 Waiting 状态时间过长。持续超过1小时将触发告警。
影响 #
服务性能下降,甚至不可用。
诊断 #
消息详情/标签中包含 Pod, Container, Namespace 信息。
- 检查 Pod events:
kubectl -n $NAMESPACE describe pod $POD
。 - 检查 Pod logs:
kubectl -n $NAMESPACE logs $POD -c $CONTAINER
。 - 检查 configmaps/secrets/volumes 挂载是否正常。
- 检查 Pod 的资源 requests, 特别是 GPU 等特殊资源的配置。
- 检查节点的 taints 和 capabilities 配置。