今年新購入的服務器上的硬盤時常有些毛病,在導入數據的時候就多次出現故障,用了2、3個月的時間導入數據後,算是穩定了幾個月,但最近随着我們添加手機版工作的開展,硬盤又開始忙起來,服務器負載明顯增加。兩周前出現了幾次服務器死機情況,每次重啟後都會導緻數據庫保存,需要檢查、修複,這樣的情況持續出現後,終于有一次服務器重啟不了了,好在數據都已經備份、複制出來了。這些備份數據就直接在新購的美國服務器上恢複,站點啟用後,發現普通内頁可以打開,但數據量大網站的分類頁卻頻頻出現報錯,服務器8核CPU長期都被占用100%,而硬盤IO看上去還不是那麼滿,問題原因還在查找中。我們把情況向服務商反映後,他們檢查說是有一塊硬盤有問題,給我們更換了硬盤,raid 1的resync過程很慢,已經有兩天了還沒有完成。
新服務器還沒有搞定,有一台老服務器又出問題了,周末有塊硬盤找不到了,不得不恢複備份,而這些備份文件非常大,都是一個10G以上,查看有好多個星期的備份都是不完整的,從前面幾個月的備份中查找相對完整的來恢複。唉,這個過程太漫長、痛苦了,網站也停了幾十個小時。後面還要修改完善備份的腳本,及時反映出備份中出現的報錯信息,以便備份數據得到充分保障。
评论