好热闹——应景发个长贴《命运多舛的服务器》


所有跟贴·加跟贴·新语丝读书论坛

送交者: qtl 于 2014-07-01, 08:52:15:

我有一台服务器,2 CPU 8 核 16 线程,72G 内存。它有约 8T 存储统统连在一块有几百兆,亦或几 G 缓存的 RAID 卡上。

约四年前,美国有位 M 教授与我的合作老板合作搞一个项目。原计划 M 出钱让我们这里带一个博士后。后来 M 发现我们博士后的工资几乎赶上美国教授,他支付不起,因而临时改变主意。一是博士后工资按美国标准发,二是缩短工期。部分省下的钱就变成了这台服务器。

和服务器一起过来的那位博士后是位小老印 AR,机器就是他攒的。这台服务器的配置虽然听起来挺带感,但实物庞大得像一台拖拉机,听起来也像。

AR 来了之后就被安排和我一间办公室。说实话,这几个月中我很佩服他能把这么吵的机器放在耳朵旁边作桌面。我虽然离机器略远,但早已受不了。AR 一走,我立即把它托管到楼下机房。当然,服务器的管理也归了我。办公室从此清静,然而这台服务器的悲催命运才刚刚开始。

P 老头是我们的 IT 部硕果仅存的员工。不知道从什么时候起,我总觉得我好像得罪了他,总之他很不待见我。我虽然长得像坏人,但待人大体厚道,在我周围人中人缘还算不错。我思前想后,百思不得其解。我最后猜想这应该是一个 Win8 管理考试未过的 Windows 人对 Linux 人的羡慕妒忌恨。

有好几次 P 竟然给我的服务器直接断电,每次断电都因为缓存不能回写造成 RAID 几近崩溃,每次断电都要花去我不少时间。而且因为这台机器属于自攒,结构颇多不合理,比如它的RAID卡很大,卡槽却很小,经常发生松动和接触不良。这样有时候我还要上下楼搬动这台庞然大物。有一次我质问 P 为什么要这么干,他说我的服务器功率太大,影响了旁边的机器。细想这事儿也是挺难缠,机房他就是老大,而我们的服务器又没有别的地方好去。另外一个原因是 P 今年退休,我的合作老板让我再忍忍。

因为机器不稳定,短则以一两个月就出故障,除了临时计算,我组几个博士和博士后都不大敢用这台机器。好在我们每个人都有国家超级计算机的帐号,存储也大,因而大家也没有对此深究。然而总放在机房由坏人盯着也不是事儿。去年中,我的合作老板发现楼道里还有一间空办公室,于是决定把服务器从机房搬出来。

和往常一样,我房徒从机手往楼上搬机器。然而这次搬运却出了事,我从三楼一手托着服务器,一手开楼道门,服务器从我的手中滑落。我眼瞅着机器一路“梆、梆、梆“地跳下楼梯,声音震耳欲聋。在楼底,机器一直撞坏了一根暖气片的管子才停下来。我当时便麻了手爪,不知如何是好。楼道里几位挪威女子很快跑过来查看发生什么事情。后来我还知道离事故地点最近的是一位挪威男同事,他好长时间都没敢开门。由此可见,挪威女子很可能比男子勤劳能干,至少胆子大些。

之后我在几位女同事的帮助下将机器,摔下来的面板等物件搬回办公室,心中五味杂陈。令人惊奇的是,这台机器除了面板摔下来之外,其他都好,包括最脆弱的硬盘。谢天谢地。

换屋之后,机器再也没出过问题。刚巧搬回来之后国家计算机上清理空间,每个人只给 200G 存储,多余的要删除。我组的同事纷纷就落户来到这台服务器上。当然机器的外部网关路由等设置还要通过 P。

后来系主任 T 不知怎么知道了那间办公室只有机器没有人,于是要求我们将机器搬走。可是 T 又不能提出合适的地方,这件事情就搁置了下来。与此同时,这台机器的用户越来越依赖这台机器了。鉴于这台机器曾经的不稳定,我其间不止一次警告他们要把重要工作备份。然而最后的悲剧终于不可阻挡地来了。

五月,P 终于退休。离开前两天,他来我办公室,“嗨,我给你的机器找到了地方,来。”于是我去看,那是我们系的路由和交换机房。我当时的第一个感觉是好热,体感温度不下四、五十度。大约那里的机器产热但不怕高温,因而也没有空调。我的同事说这大约是 P 退休前最重要的事情。果然,我的机器搬下去后的第二天,虽然 P 答应给我一把钥匙,第二天他便不见,钥匙也没见。

我现在很后悔没有当场就拒绝那间屋子,虽然现在说有些事后诸葛亮。我的这台攒机,另外一个缺点就是硬盘是高性能7200转,产热很大。然而,总共六块硬盘,两两之间相隔只有 5 毫米。

这台机器下楼后还没过两周,八天前的周六,我还在家补觉,一个同事周末打电话来说他的文件不能访问了,我立即关闭了机器。由于 P 退休后衔接还没完全到位,直到周二我才接触到服务器。为时已晚!RAID 5 配置的六块硬盘烧毁了两块。

虽然我一再提醒备份,但这场事故最终发生时,有两三个同事还是有欲哭无泪的感觉。有一个哥们儿竟然有 6 个月时间没有备份。我打电话给各数据恢复公司,得到的回复说仅仅分析一个盘能否恢复竟然要三千人民币,六块硬盘都恢复要价最高可达十万人民币。我的合作老板是个荷兰人,这些钱他是不想出的。然而几个月的工作量如果重做,他也受不了,好纠结。

最后说一个高兴的故事吧,经过我一个多星期的折腾,大部分东西可以恢复了。虽然 6T 数据全部拷贝出来仍需要时间,虽然浪费了我不少时间,结局还算美满。我现在正是边拷贝边码下这么多文字的。




所有跟贴:


加跟贴

笔名: 密码: 注册笔名请按这里

标题:

内容: (BBCode使用说明