冬天到来的时候,室内温度下降,机房中的设备易受冷空气的影响。所以,应该保障机房中的恒温恒湿系统设备正常运行,让室内湿度和温度保持适宜,根据气温变化和环境变化对精密空调运行参数进行相应的调整,保障了机房IT设备的平稳运行,也节约了能耗。
其次要维护空调系统,尤其是空调的室外机组,过低的温度会使数据传输缓慢,在北方寒冷的地区,都要对室外部分的零部件做保暖的措施,其中包括室外机、蓄冷罐、阀门、供回水管、水泵、冷却塔等,虽然做了保温防护措施,但是仍然有出现故障的可能性。所以,我们尤其要重点监控这些设备的情况,以保障数据中心在冬季的正常运行。在冬季,一般数据中心都会把供冷变换成自然冷源,比如说板换,我们在使用自然冷却制冷方式的同时,也要关注我们的机械制冷,比如冷机,时刻确保他们的状态同样处于正常,一旦出现紧急情况可以随时切换,实现不间断的供冷。
另外,寒冷的暴雨暴雪天气,也会对数据中心的供电有一定影响,尤其是在冬季恶劣天气下,市电供电的可靠性会受影响降低,中断后修复的时长也远远超过平时,维护的风险指数上升。所以,入冬之前我们就应该做好预防准备,对UPS不间断电源整个系统,进行全面的维护和检查,对蓄电池进行排查,有故障电池及时更换;除此之外还应对柴油发电机进行重点维护,包括冷却液加热系统,供回油管路,尤其是室外供回油管路及油泵还应当有额外的防护措施,避免因冬季气温降低造成供回油中断。然后,与附近加油站确认供油协议,保证在极端情况下燃油的供应,确保供电可持续性。
除了技术上的保障,关键的还是要从人来入手。在冬天寒冷的环境下,运维团队需对数据中心进行一次全面的检查和维修。这包括对所有管道、通道和大型设备进行细致的检查,确认并提前排除隐患,确保它们在冬季可以正常运行。准备好各类标准文档,包括SOPEOPMOP等,做好适合冬季的应急预案。还要关注天气情况,恶劣天气时推迟或中止维护工作;根据气候条件的特殊性,针对性制定相应的巡检计划,包括室内设备和室外设备,确保远程监控面板正常打开,便于采取应对措施。
做好应急演练,在冬季到来之前,提前根据以往经验和实际情况,有针对性的对冬季数据中心运维中可能出现的紧急情况进行演练,包括设备故障、供电中断、供水中断、安全事件、消防应急等,尽可能模拟极端的故障和应急环境,确保人员有应急处理的能力。
然后,运维人员也要采取一定防寒措施,注意保暖,如厚外套,手套,棉帽等,然后咱们也要加强运维人员的安全防护意识,对其进行安全培训,避免因冬季运维造成人身安全事故,在室外进行维护作业时,穿戴好安全防护用具,注意因冬季结冰造成的地面湿滑,尤其是一些强降雪地区,积雪对运维造成了比较大的影响,我们在完成运维工作的同时首先应当保证人员的安全健康。