去年11月份我們在阿裡雲的雲監控中創建自己的監控大盤,并且用單獨的雲桌面、終端監視器來日常查看監控數據,基本上每天上班的時候就把專用監視器打開,工作的時候時常看看數據,如果發現有異常情況,可以較快發現和處理。✌️
最近在和實習同學講運維和監控方面的知識,把監控大屏的檢查要點整理了一下,記錄在這裡:
n台ECS的top查看
- top中主要的指标含義:啟動時間、1分鐘/5分鐘/15分鐘負載、進程數、cpu占用率、内存
- 異常情況:負載突然升高或持續升高(一般可以用高于cpu核數判斷)、cpu持續高于75%、cpu分項指标異常、内存占用超過90%、進程數超過平常(一般500以下)、某進程突出等
- 緊急情況:斷連、卡住、cpu持續100%、負載持續超過50、進程持續超過900等,馬上通知相關同事檢查
- 必要時放大窗口查看,或者退出top用其它linux命令(例如:iftop、日志檢查等)排查
n台ECS的監控大屏查看
- ecs主要監控項:cpu使用率和帶寬占用率
- 異常情況:cpu占用超過75%、帶寬占用超過90%
- 緊急情況:cpu持續100%、帶寬持續100%,馬上通知相關同事檢查
- 必要時查看ecs更多監控指标,例如:内存占用、内外網帶寬、進程數、磁盤io等
- 日常查看1小時數據并自動刷新,需要時切換到更長時間周期
n台RDS的監控大屏查看
- rds主要監控項:cpu占用率和iops/進程數占用率
- 日常查看1小時數據并自動刷新,需要時切換到更長時間周期
- 異常情況:cpu占用超過75%、iops/進程數升高
- 緊急情況:cpu持續100%、iops/進程數100%,馬上通知相關同事檢查
- 必要時查看更多數據:
- rds更多監控指标,例如:磁盤、内存、出入流量,
- 以及RDS監控與報警中的TPS/QPS、InnoDB/MyISAM讀寫次數,
- 或者數據庫自治服務DAS中的實時進程、慢查詢日志
我們自己用了阿裡雲幾年時間,對這些很熟悉了,要讓實習同學能掌握的話,還很需要一些時間。
评论