去年11月份我们在阿里云的云监控中创建自己的监控大盘,并且用单独的云桌面、终端监视器来日常查看监控数据,基本上每天上班的时候就把专用监视器打开,工作的时候时常看看数据,如果发现有异常情况,可以较快发现和处理。✌️
最近在和实习同学讲运维和监控方面的知识,把监控大屏的检查要点整理了一下,记录在这里:
n台ECS的top查看
- top中主要的指标含义:启动时间、1分钟/5分钟/15分钟负载、进程数、cpu占用率、内存
- 异常情况:负载突然升高或持续升高(一般可以用高于cpu核数判断)、cpu持续高于75%、cpu分项指标异常、内存占用超过90%、进程数超过平常(一般500以下)、某进程突出等
- 紧急情况:断连、卡住、cpu持续100%、负载持续超过50、进程持续超过900等,马上通知相关同事检查
- 必要时放大窗口查看,或者退出top用其它linux命令(例如:iftop、日志检查等)排查
n台ECS的监控大屏查看
- ecs主要监控项:cpu使用率和带宽占用率
- 异常情况:cpu占用超过75%、带宽占用超过90%
- 紧急情况:cpu持续100%、带宽持续100%,马上通知相关同事检查
- 必要时查看ecs更多监控指标,例如:内存占用、内外网带宽、进程数、磁盘io等
- 日常查看1小时数据并自动刷新,需要时切换到更长时间周期
n台RDS的监控大屏查看
- rds主要监控项:cpu占用率和iops/进程数占用率
- 日常查看1小时数据并自动刷新,需要时切换到更长时间周期
- 异常情况:cpu占用超过75%、iops/进程数升高
- 紧急情况:cpu持续100%、iops/进程数100%,马上通知相关同事检查
- 必要时查看更多数据:
- rds更多监控指标,例如:磁盘、内存、出入流量,
- 以及RDS监控与报警中的TPS/QPS、InnoDB/MyISAM读写次数,
- 或者数据库自治服务DAS中的实时进程、慢查询日志
我们自己用了阿里云几年时间,对这些很熟悉了,要让实习同学能掌握的话,还很需要一些时间。
评论