炎龙智能炎龙智能
AIOPS智能运维平台
AIOPS智能运维平台
  • 监控中心

监控中心

监控中心是AIOPS智能运维平台的核心功能模块,提供全面的监控数据采集、存储、分析和可视化能力,帮助用户实时掌握IT系统的运行状态,及时发现和解决问题。

1. 监控模块概览

AIOPS平台的监控中心包含多个子模块,覆盖了IT基础设施的各个层面:

监控模块功能描述适用场景
服务器监控监控物理服务器和虚拟机的性能指标服务器性能管理、资源规划
K8s集群监控监控Kubernetes集群、节点、Pod等资源状态容器平台管理、微服务监控
数据库监控监控各类数据库的性能和运行状态数据库性能优化、问题诊断
消息队列监控监控各类消息中间件的运行状态分布式系统监控、消息流转跟踪
AI智能分析基于AI的异常检测和根因分析智能故障诊断、预测性维护
日志监控集中管理和分析系统日志问题排查、安全审计

2. 监控数据采集

2.1 采集器类型

AIOPS平台支持多种类型的采集器,以适应不同的监控场景:

  • Agent采集器:部署在被监控服务器上,采集系统资源、进程等信息
  • Exporter采集器:符合Prometheus Exporter规范的数据采集器
  • SDK采集器:集成到应用程序中,采集应用性能指标
  • API采集器:通过API接口采集第三方系统的监控数据
  • 日志采集器:采集和解析各类日志数据

2.2 支持的数据源

数据源类型支持的版本采集方式
Linux服务器CentOS/RHEL 6+/Ubuntu 14.04+Agent
Windows服务器Windows Server 2008+Agent
MySQL数据库5.5+/8.0+Exporter/Agent
Redis3.0+/5.0+/6.0+Exporter/Agent
PostgreSQL9.0+/10.0+Exporter
MongoDB3.0+/4.0+Exporter
Elasticsearch6.x/7.x/8.xExporter
Kafka0.10+/1.x/2.xExporter
RabbitMQ3.6+/3.7+Exporter
Kubernetes1.10+/1.16+/1.20+API/Agent
Prometheus2.0+API
JVM应用JDK 8+Agent/SDK
自定义应用不限SDK

3. 监控指标体系

3.1 系统级指标

  • CPU指标:使用率、负载、上下文切换次数、中断次数等
  • 内存指标:使用率、可用内存、交换空间使用率等
  • 磁盘指标:使用率、IOPS、吞吐量、响应时间等
  • 网络指标:带宽使用率、连接数、错误包数、丢包率等

3.2 应用级指标

  • 响应时间:平均响应时间、95%/99%响应时间等
  • 吞吐量:TPS、QPS、请求数等
  • 错误率:4xx/5xx错误数、异常数等
  • 资源使用:应用CPU/内存使用率、线程数等

3.3 业务级指标

  • 交易成功率:成功交易数/总交易数
  • 业务量:日活用户、订单数、交易额等
  • 服务可用性:SLA达成率、服务正常运行时间等

4. 监控数据存储与查询

4.1 存储架构

AIOPS平台采用分层存储架构,根据数据的重要性和访问频率采用不同的存储策略:

  • 热数据:采用高性能时序数据库,支持实时写入和查询
  • 温数据:采用分布式存储,支持历史数据查询和分析
  • 冷数据:采用对象存储,支持长期归档和合规性要求

4.2 数据保留策略

数据类型保留周期存储方式
原始数据7-30天时序数据库
分钟级聚合90天时序数据库
小时级聚合1年分布式存储
天级聚合3-5年对象存储

4.3 数据查询能力

  • 实时查询:支持毫秒级的监控数据查询
  • 历史查询:支持查询任意时间范围的历史数据
  • 多维度分析:支持按标签、维度进行数据筛选和聚合
  • 复杂条件查询:支持组合条件查询和正则表达式匹配

5. 监控可视化

5.1 仪表盘功能

AIOPS平台提供强大的可视化能力,帮助用户直观地了解系统运行状态:

  • 系统概览仪表盘:展示整体系统健康状态和关键指标
  • 应用监控仪表盘:展示应用性能和运行状态
  • 业务监控仪表盘:展示业务指标和SLA达成情况
  • 自定义仪表盘:支持用户根据需求创建个性化仪表盘

5.2 图表类型

  • 折线图:展示指标随时间的变化趋势
  • 柱状图:比较不同维度的指标值
  • 饼图/环形图:展示占比情况
  • 热力图:展示数据密度和分布情况
  • 仪表盘:展示指标当前值和阈值对比
  • 表格:展示详细的数据列表

5.3 交互功能

  • 时间范围选择:支持选择不同的时间范围查看数据
  • 缩放和平移:支持对图表进行缩放和平移操作
  • 数据钻取:支持从高级汇总数据钻取到详细数据
  • 指标对比:支持多个指标在同一图表中对比
  • 告警标记:在图表上标记告警发生的位置和时间

6. 告警管理

6.1 告警规则

AIOPS平台支持灵活的告警规则配置:

  • 阈值告警:当指标超过设定阈值时触发告警
  • 趋势告警:当指标变化趋势异常时触发告警
  • 复合告警:多个条件组合触发告警
  • 智能告警:基于机器学习算法的异常检测
  • 表达式告警:支持使用PromQL等表达式定义告警条件

6.2 告警通知

支持多种告警通知方式:

  • 邮件通知:通过邮件发送告警信息
  • 短信通知:通过短信发送告警信息
  • 企业微信通知:通过企业微信发送告警信息
  • 钉钉通知:通过钉钉发送告警信息
  • Slack通知:通过Slack发送告警信息
  • Webhook通知:通过HTTP回调通知第三方系统

6.3 告警升级

支持多级告警升级策略:

  • 时间升级:告警持续未处理时升级通知级别
  • 人员升级:告警未处理时通知更高级别的人员
  • 方式升级:从单渠道通知升级为多渠道通知

7. 智能分析

7.1 异常检测

  • 基于统计的异常检测:使用统计方法识别异常值
  • 基于机器学习的异常检测:使用ML算法自动学习正常模式,识别异常
  • 基于时间序列的异常检测:考虑时间因素的异常检测
  • 多维异常检测:考虑多个维度数据的相互关系

7.2 根因分析

  • 故障传播分析:分析故障在系统中的传播路径
  • 相关性分析:分析不同指标之间的相关性
  • 时序关联分析:分析事件之间的时序关系
  • 因果推断:推断故障的根本原因

7.3 预测分析

  • 趋势预测:预测指标的未来趋势
  • 容量预测:预测系统容量需求
  • 故障预测:预测潜在的故障风险
  • 资源优化建议:基于预测结果提供资源优化建议

8. 最佳实践

8.1 监控覆盖范围

  • 全面覆盖:确保监控覆盖所有关键系统和业务
  • 重点突出:对核心业务和关键系统重点监控
  • 合理分层:从基础设施到应用再到业务的分层监控

8.2 告警设置原则

  • 准确性:减少误报和漏报
  • 及时性:确保告警及时触发和通知
  • 可操作性:告警信息应包含足够的上下文,便于快速定位问题
  • 分级管理:根据影响范围和严重程度进行告警分级

8.3 性能优化建议

  • 合理设置采集频率:平衡数据精度和系统负载
  • 优化存储策略:根据数据重要性设置不同的保留周期
  • 定期清理过期数据:避免存储空间浪费和查询性能下降
  • 使用聚合查询:对大量数据使用聚合查询提高性能

9. 常见问题

9.1 监控数据不更新

  • 检查采集器状态:确保采集器正常运行
  • 检查网络连接:确保采集器和服务器之间的网络连接正常
  • 检查权限配置:确保采集器有足够的权限获取数据
  • 检查配置参数:确保采集配置正确

9.2 告警风暴

  • 优化告警规则:避免过于敏感的告警规则
  • 启用告警聚合:将短时间内的相似告警聚合为一个告警
  • 设置告警静默期:告警触发后设置一定的静默期
  • 分级处理:根据严重程度分级处理告警

9.3 性能问题

  • 检查系统资源:确保监控系统自身资源充足
  • 优化查询条件:避免查询过多数据或使用复杂查询
  • 调整数据保留策略:适当缩短低价值数据的保留周期
  • 考虑集群部署:对于大规模监控场景,考虑使用集群部署方式
Last Updated:: 11/28/25, 3:06 PM
Contributors: sunxiaokun