今年新购入的服务器上的硬盘时常有些毛病,在导入数据的时候就多次出现故障,用了2、3个月的时间导入数据后,算是稳定了几个月,但最近随着我们添加手机版工作的开展,硬盘又开始忙起来,服务器负载明显增加。两周前出现了几次服务器死机情况,每次重启后都会导致数据库保存,需要检查、修复,这样的情况持续出现后,终于有一次服务器重启不了了,好在数据都已经备份、复制出来了。这些备份数据就直接在新购的美国服务器上恢复,站点启用后,发现普通内页可以打开,但数据量大网站的分类页却频频出现报错,服务器8核CPU长期都被占用100%,而硬盘IO看上去还不是那么满,问题原因还在查找中。我们把情况向服务商反映后,他们检查说是有一块硬盘有问题,给我们更换了硬盘,raid 1的resync过程很慢,已经有两天了还没有完成。
新服务器还没有搞定,有一台老服务器又出问题了,周末有块硬盘找不到了,不得不恢复备份,而这些备份文件非常大,都是一个10G以上,查看有好多个星期的备份都是不完整的,从前面几个月的备份中查找相对完整的来恢复。唉,这个过程太漫长、痛苦了,网站也停了几十个小时。后面还要修改完善备份的脚本,及时反映出备份中出现的报错信息,以便备份数据得到充分保障。
评论