Kubelet Pleg Duration High

KubeletPlegDurationHigh #

含义 #

Kubelet 的 Pod Lifecycle Event Generator (PLEG) 延迟比较高。

更多信息

PLEG,全称 Pod Lifecycle Event Generator,即 Pod 声明周期事件生成器。它是 Kubelet 组件的一部分,负载监督和报告 Pod 生命周期中的事件。

PLEG 包含一个周期性的 relist 操作,从容器运行时获取 kubelet 所管理的 Pods 下的容器状态。

而这个告警规则评估的就是 PLEG relist 操作的延迟时间。

参考 Kubelet: Pod Lifecycle Event Generator (PLEG)

影响 #

可能导致 Pod 状态的更新延迟,进而影响整个集群的稳定性。

诊断 #

消息详情/标签中包含 Node 信息。

  • 检查节点状态是否就绪:kubectl describe node $NODE_NAME
  • 检查节点的 CPU 和内存资源是否存在过载。高负载可能导致 Kubelet PLEG relist 操作的延迟。
  • 检查节点上 Kubelet 的日志寻找可能的错误或警告信息:journalctl -b -f -u kubelet.service
  • 检查节点网络和存储的性能,确保没有瓶颈影响到 Pod 的启动和状态更新。

缓解 #

  • 优化 Pod 数量。考虑将节点上的 Pods 分散到更多节点上,以减少单个节点上的 Pod 数量。
  • 优化 Kubelet 配置参数,特别是与 PLEG 相关的参数。比如 --max-pods, --pod-manifest-path 等。