阿里云监控大屏的检查要点

由 James Qi, 2023年5月12日

去年11月份我们在阿里云的云监控中创建自己的监控大盘，并且用单独的云桌面、终端监视器来日常查看监控数据，基本上每天上班的时候就把专用监视器打开，工作的时候时常看看数据，如果发现有异常情况，可以较快发现和处理。✌️

最近在和实习同学讲运维和监控方面的知识，把监控大屏的检查要点整理了一下，记录在这里：

top中主要的指标含义：启动时间、1分钟/5分钟/15分钟负载、进程数、cpu占用率、内存
异常情况：负载突然升高或持续升高（一般可以用高于cpu核数判断）、cpu持续高于75%、cpu分项指标异常、内存占用超过90%、进程数超过平常（一般500以下）、某进程突出等
紧急情况：断连、卡住、cpu持续100%、负载持续超过50、进程持续超过900等，马上通知相关同事检查
必要时放大窗口查看，或者退出top用其它linux命令（例如：iftop、日志检查等）排查

rds主要监控项：cpu占用率和iops/进程数占用率
日常查看1小时数据并自动刷新，需要时切换到更长时间周期
异常情况：cpu占用超过75%、iops/进程数升高
紧急情况：cpu持续100%、iops/进程数100%，马上通知相关同事检查
必要时查看更多数据：
- rds更多监控指标，例如：磁盘、内存、出入流量，
- 以及RDS监控与报警中的TPS/QPS、InnoDB/MyISAM读写次数，
- 或者数据库自治服务DAS中的实时进程、慢查询日志

我们自己用了阿里云几年时间，对这些很熟悉了，要让实习同学能掌握的话，还很需要一些时间。

自由标签

您的名字

验证码

此问题用于测试您是否是人类访问者并防止自动提交垃圾信息。

评论