硬盘确实是现在服务器或者电脑中虽容易损坏的部件了,我们的Linux服务器上安装了比较多的硬盘,每台上面有8颗硬盘,使用的头1、2年还好,到3、4年就逐步出现问题了,常见的是:
- 硬盘变为只读,需要重启;
- 数据库报错,需要修复;
- 数据库报错,无法修复,换文件重建;
- 彻底无法使用。
几个月前让同事把国内外服务器上的硬盘全部检查了一遍,将通电时间、报错次数、坏道数量等列出来,对损坏严重的硬盘弃用。
随着硬盘损坏越来越多,最近又撤换了一部分弃用的硬盘,增加新购入的企业级硬盘,然后再次对所有硬盘的情况进行全面检查、汇总。
这次我自己查了点资料,然后自己去运行命令来进行测试的,虽然这个工作很琐碎、本来也不想管,但这个事情对于网站稳定性还是很重要的,所以也值得自己花一些时间。现在把一些要点记录如下:
- 关于获取硬盘参数的资料,可以看维基百科上的S.M.A.R.T.解释;
- Linux桌面上可以看到硬盘报错的提示信息,点击可以查看更多详情;
- 如果没有Linux桌面,可以运行smartctl命令来获取硬盘信息;
- 为了获取更简洁的信息,可以用smartctl -l error /dev/sda |grep five来获取报错数量;
- 可以用smartctl -a /dev/sda |grep Sector那个命令来获取坏道的数量。
还可以进行实际磁盘扫描、iostat等工作,综合了解磁盘状态和性能,确定应对办法。
自由标签
评论