K8s集群监控

K8s集群监控模块提供对Kubernetes集群的全面监控能力，帮助用户实时掌握集群、节点、命名空间、Pod、容器等资源的运行状态和性能指标，确保容器化应用的稳定运行。

1. 功能概述

K8s集群监控模块提供以下核心功能：

集群概览：实时监控集群的整体健康状态和资源使用情况
节点监控：监控集群中所有节点的CPU、内存、磁盘、网络等性能指标
工作负载监控：监控Deployment、StatefulSet、DaemonSet等工作负载的状态和指标
Pod监控：监控所有Pod的运行状态、重启次数、资源使用等
容器监控：监控容器级别的CPU、内存、网络、文件系统等指标
服务监控：监控Service、Ingress等服务组件的访问情况和性能
事件监控：收集和分析Kubernetes事件，及时发现集群异常
集群拓扑：可视化展示集群资源之间的关系和依赖
自动发现：自动发现集群中的新资源并加入监控

2. 监控指标

2.1 集群级别指标

指标名称	单位	描述	告警阈值建议
节点就绪率	%	就绪节点数/总节点数	<95%
Pod就绪率	%	就绪Pod数/总Pod数	<90%
资源使用率（CPU）	%	集群CPU资源使用率	>80%
资源使用率（内存）	%	集群内存资源使用率	>80%
资源使用率（存储）	%	集群存储资源使用率	>80%
异常事件数	个/分钟	每分钟产生的警告/错误事件数	>10
API Server请求延迟	ms	Kubernetes API Server的请求延迟	>100ms
API Server错误率	%	API Server请求错误比例	>1%

2.2 节点级别指标

指标名称	单位	描述	告警阈值建议
节点CPU使用率	%	节点CPU总体使用率	>85%
节点内存使用率	%	节点内存总体使用率	>85%
节点磁盘使用率	%	节点根分区使用率	>85%
节点网络发送速率	MB/s	节点网络发送数据的速率	-
节点网络接收速率	MB/s	节点网络接收数据的速率	-
节点容器运行数	个	节点上运行的容器数量	-
节点Pod运行数	个	节点上运行的Pod数量	-
节点Pod限制数	个	节点可运行的最大Pod数	-
节点就绪状态	-	节点是否就绪	非Ready状态

2.3 Pod级别指标

指标名称	单位	描述	告警阈值建议
Pod CPU使用率	%	Pod的CPU使用率（相对于请求/限制）	>80%
Pod内存使用率	%	Pod的内存使用率（相对于请求/限制）	>80%
Pod重启次数	次	Pod重启次数	>3次/小时
Pod就绪状态	-	Pod是否就绪	非Ready状态
Pod容器状态	-	Pod中容器的状态	CrashLoopBackOff
Pod网络接收流量	KB/s	Pod网络接收速率	-
Pod网络发送流量	KB/s	Pod网络发送速率	-
Pod重启原因	-	Pod重启的原因	-

2.4 容器级别指标

指标名称	单位	描述	告警阈值建议
容器CPU使用率	%	容器CPU使用率	>80%
容器内存使用率	%	容器内存使用率	>80%
容器文件系统使用率	%	容器挂载的文件系统使用率	>80%
容器网络接收流量	KB/s	容器网络接收速率	-
容器网络发送流量	KB/s	容器网络发送速率	-
容器CPU限制	核	容器的CPU限制	-
容器内存限制	MB/GB	容器的内存限制	-
容器CPU请求	核	容器的CPU请求	-
容器内存请求	MB/GB	容器的内存请求	-

2.5 工作负载指标

指标名称	单位	描述	告警阈值建议
期望Pod数	个	工作负载期望的Pod数量	-
就绪Pod数	个	工作负载就绪的Pod数量	不等于期望Pod数
可用Pod数	个	工作负载可用的Pod数量	不等于期望Pod数
工作负载重启次数	次/小时	工作负载中Pod的重启次数	>5次/小时

3. 部署与配置

3.1 安装Node Exporter

Node Exporter用于采集节点级别的指标：

# 使用DaemonSet部署Node Exporter
kubectl apply -f https://raw.githubusercontent.com/prometheus-operator/kube-prometheus/main/manifests/nodeExporter-daemonset.yaml

3.2 安装kube-state-metrics

kube-state-metrics用于采集Kubernetes资源状态指标：

# 部署kube-state-metrics
kubectl apply -f https://raw.githubusercontent.com/kubernetes/kube-state-metrics/master/examples/standard/cluster-role-binding.yaml
kubectl apply -f https://raw.githubusercontent.com/kubernetes/kube-state-metrics/master/examples/standard/cluster-role.yaml
kubectl apply -f https://raw.githubusercontent.com/kubernetes/kube-state-metrics/master/examples/standard/deployment.yaml
kubectl apply -f https://raw.githubusercontent.com/kubernetes/kube-state-metrics/master/examples/standard/service-account.yaml
kubectl apply -f https://raw.githubusercontent.com/kubernetes/kube-state-metrics/master/examples/standard/service.yaml

3.3 配置AIOPS平台接入

在AIOPS平台界面中，点击"配置中心" > "数据源管理"
点击"新增数据源"，选择"Kubernetes"类型
填写以下信息：
- 名称：K8s集群名称
- API Server地址：Kubernetes API Server地址（如 https://kubernetes.default.svc）
- 认证方式：选择合适的认证方式（如Service Account Token、kubeconfig等）
- 访问令牌：如果使用Service Account Token，填写令牌内容
- kubeconfig：如果使用kubeconfig，上传配置文件
- 采集间隔：设置数据采集间隔，默认为15秒
点击"测试连接"验证连接是否成功
点击"确定"保存配置

3.4 配置RBAC权限

确保用于监控的服务账户有足够的权限：

apiVersion: v1
kind: ServiceAccount
metadata:
  name: aiops-monitor
  namespace: default
---
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRole
metadata:
  name: aiops-monitor-role
rules:
- apiGroups: [""]
  resources: ["nodes", "pods", "services", "endpoints", "configmaps", "events"]
  verbs: ["get", "list", "watch"]
- apiGroups: ["apps"]
  resources: ["deployments", "statefulsets", "daemonsets", "replicasets"]
  verbs: ["get", "list", "watch"]
- apiGroups: ["batch"]
  resources: ["jobs", "cronjobs"]
  verbs: ["get", "list", "watch"]
- apiGroups: ["metrics.k8s.io"]
  resources: ["nodes", "pods"]
  verbs: ["get", "list"]
---
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRoleBinding
metadata:
  name: aiops-monitor-binding
roleRef:
  apiGroup: rbac.authorization.k8s.io
  kind: ClusterRole
  name: aiops-monitor-role
subjects:
- kind: ServiceAccount
  name: aiops-monitor
  namespace: default

4. 使用指南

4.1 集群概览

在AIOPS平台界面中，点击左侧菜单栏的"监控中心" > "K8s集群监控" > "集群概览"，进入集群概览页面：

集群健康状态：展示集群的整体健康状态和关键指标
节点状态分布：展示节点不同状态（Ready、NotReady等）的分布情况
工作负载状态：展示各类工作负载的状态统计
资源使用趋势：展示集群级别的CPU、内存等资源使用趋势
异常事件：展示最近的异常事件

4.2 节点管理

点击"节点管理"标签页，进入节点列表页面：

节点列表：展示所有集群节点的基本信息和状态
节点详情：点击节点名称查看节点的详细监控数据
节点筛选：支持按状态、标签等筛选节点
节点操作：支持节点信息编辑、监控配置调整等操作

4.3 工作负载监控

点击"工作负载"标签页，进入工作负载监控页面：

工作负载列表：展示所有工作负载的基本信息和状态
工作负载类型筛选：支持按Deployment、StatefulSet、DaemonSet等类型筛选
命名空间筛选：支持按命名空间筛选工作负载
工作负载详情：点击工作负载名称查看详细监控数据和关联的Pod列表

4.4 Pod监控

点击"Pod"标签页，进入Pod监控页面：

Pod列表：展示所有Pod的基本信息和状态
Pod筛选：支持按命名空间、标签、状态等筛选Pod
Pod详情：点击Pod名称查看Pod的详细信息、容器列表、日志等
Pod重启记录：查看Pod的历史重启记录和原因

4.5 容器监控

在Pod详情页面，可以查看该Pod中所有容器的监控数据：

容器列表：展示Pod中所有容器的基本信息
容器资源使用：展示容器的CPU、内存、网络等资源使用情况
容器日志：查看容器的实时和历史日志
容器事件：查看与容器相关的事件

4.6 服务监控

点击"服务"标签页，进入服务监控页面：

服务列表：展示所有Service的基本信息
服务筛选：支持按命名空间、类型等筛选服务
服务详情：点击服务名称查看服务的详细信息和关联的Pod
服务访问统计：展示服务的访问量、响应时间等指标

4.7 事件监控

点击"事件"标签页，进入事件监控页面：

事件列表：展示所有集群事件的详细信息
事件筛选：支持按类型、级别、资源等筛选事件
事件详情：查看事件的详细信息和相关资源
事件统计：展示事件的数量统计和趋势

5. 告警配置

5.1 集群级别告警规则

- name: "集群节点就绪率低"
  description: "集群节点就绪率低于95%"
  severity: "high"
  condition: "sum(kube_node_status_condition{condition="Ready",status="true"}) / count(kube_node_status_condition{condition="Ready"}) * 100 < 95"
  duration: 300
  notifiers: ["email", "sms"]
  tags: ["k8s", "cluster"]

- name: "集群Pod就绪率低"
  description: "集群Pod就绪率低于90%"
  severity: "high"
  condition: "sum(kube_pod_status_ready{condition="true"}) / sum(kube_pod_status_phase{phase!="Failed",phase!="Succeeded"}) * 100 < 90"
  duration: 300
  notifiers: ["email", "sms"]
  tags: ["k8s", "cluster"]

5.2 节点级别告警规则

- name: "节点CPU使用率高"
  description: "节点CPU使用率超过85%"
  severity: "high"
  condition: "100 - (avg by(instance)(irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100) > 85"
  duration: 300
  notifiers: ["email", "sms"]
  tags: ["k8s", "node"]

- name: "节点内存使用率高"
  description: "节点内存使用率超过85%"
  severity: "high"
  condition: "(node_memory_MemTotal_bytes - node_memory_MemAvailable_bytes) / node_memory_MemTotal_bytes * 100 > 85"
  duration: 300
  notifiers: ["email", "sms"]
  tags: ["k8s", "node"]

- name: "节点未就绪"
  description: "节点处于NotReady状态"
  severity: "critical"
  condition: "kube_node_status_condition{condition="Ready",status="true"} == 0"
  duration: 60
  notifiers: ["email", "sms"]
  tags: ["k8s", "node"]

5.3 Pod级别告警规则

- name: "Pod重启频繁"
  description: "Pod在1小时内重启超过3次"
  severity: "high"
  condition: "rate(kube_pod_container_status_restarts_total[1h]) > 3"
  duration: 60
  notifiers: ["email", "sms"]
  tags: ["k8s", "pod"]

- name: "Pod未就绪"
  description: "Pod处于未就绪状态"
  severity: "high"
  condition: "kube_pod_status_ready{condition="true"} == 0"
  duration: 300
  notifiers: ["email", "sms"]
  tags: ["k8s", "pod"]

- name: "Pod内存使用率高"
  description: "Pod内存使用率超过80%"
  severity: "medium"
  condition: "container_memory_usage_bytes{container!="",container!="POD"} / container_spec_memory_limit_bytes{container!="",container!="POD"} * 100 > 80"
  duration: 300
  notifiers: ["email"]
  tags: ["k8s", "pod"]

5.4 容器级别告警规则

- name: "容器CPU使用率高"
  description: "容器CPU使用率超过80%"
  severity: "medium"
  condition: "sum(rate(container_cpu_usage_seconds_total{container!="",container!="POD"}[5m])) by (container, pod, namespace) / sum(container_spec_cpu_quota{container!="",container!="POD"} / container_spec_cpu_period{container!="",container!="POD"}) by (container, pod, namespace) * 100 > 80"
  duration: 300
  notifiers: ["email"]
  tags: ["k8s", "container"]

- name: "容器文件系统使用率高"
  description: "容器文件系统使用率超过80%"
  severity: "medium"
  condition: "container_fs_usage_bytes{container!="",container!="POD"} / container_fs_limit_bytes{container!="",container!="POD"} * 100 > 80"
  duration: 300
  notifiers: ["email"]
  tags: ["k8s", "container"]