Skip to content

监控

监而控之

如何更好的使用监控?

  • 了解监控对象的工作原理
  • 确定监控对象的指标
  • 定义合理的报警阈值和等级
  • 建立完善的故障处理流程

监控系统基本流程

数据采集、数据传输、数据存储、数据展示、监控告警

监控的分类及指标

监控对象通常使用多个指标来进行度量,如下为常用分类及相应指标

硬件监控

markdown
机器温度、CPU 状态、风扇状态、内存状态、网卡状态、电源状态、磁盘状态
机器温度、CPU 状态、风扇状态、内存状态、网卡状态、电源状态、磁盘状态

服务器监控

markdown
CPU、内存、磁盘、网络
CPU、内存、磁盘、网络

数据库监控

markdown
数据库连接数、QPS/TPS、慢查询、主从延时、锁状态
数据库连接数、QPS/TPS、慢查询、主从延时、锁状态

中间件监控

  • 消息队列
markdown
队列数、生产及消费状态、连接数
队列数、生产及消费状态、连接数
  • Nginx
markdown
错误日志、访问日志、活跃连接数、等待连接数
错误日志、访问日志、活跃连接数、等待连接数

应用监控

  • JVM
markdown
当前线程数、死锁线程数、GC次数、GC耗时、内存区域大小
当前线程数、死锁线程数、GC次数、GC耗时、内存区域大小
  • 线程池
markdown
活跃线程数、最大线程数、任务队列大小、任务执行耗时、拒绝任务数
活跃线程数、最大线程数、任务队列大小、任务执行耗时、拒绝任务数
  • 连接池
markdown
总连接数、活跃连接数
总连接数、活跃连接数
  • 日志
markdown
错误日志、访问日志
错误日志、访问日志

主流监控系统

Zabbix、Open-Falcon、Prometheus,三者均可配合 Grafana 进行可视化展示