硬盤确實是現在服務器或者電腦中雖容易損壞的部件了,我們的Linux服務器上安裝了比較多的硬盤,每台上面有8顆硬盤,使用的頭1、2年還好,到3、4年就逐步出現問題了,常見的是:
- 硬盤變為隻讀,需要重啟;
- 數據庫報錯,需要修複;
- 數據庫報錯,無法修複,換文件重建;
- 徹底無法使用。
幾個月前讓同事把國内外服務器上的硬盤全部檢查了一遍,将通電時間、報錯次數、壞道數量等列出來,對損壞嚴重的硬盤棄用。
随着硬盤損壞越來越多,最近又撤換了一部分棄用的硬盤,增加新購入的企業級硬盤,然後再次對所有硬盤的情況進行全面檢查、彙總。
這次我自己查了點資料,然後自己去運行命令來進行測試的,雖然這個工作很瑣碎、本來也不想管,但這個事情對于網站穩定性還是很重要的,所以也值得自己花一些時間。現在把一些要點記錄如下:
- 關于獲取硬盤參數的資料,可以看維基百科上的S.M.A.R.T.解釋;
- Linux桌面上可以看到硬盤報錯的提示信息,點擊可以查看更多詳情;
- 如果沒有Linux桌面,可以運行smartctl命令來獲取硬盤信息;
- 為了獲取更簡潔的信息,可以用smartctl -l error /dev/sda |grep five來獲取報錯數量;
- 可以用smartctl -a /dev/sda |grep Sector那個命令來獲取壞道的數量。
還可以進行實際磁盤掃描、iostat等工作,綜合了解磁盤狀态和性能,确定應對辦法。
自由标簽
评论