简要叙述:企业的通讯机房,因多种制约因素(资金、企业认知、规划者意识、运维的技术或规范等)致使机房的合理性、可靠性、扩展性等出现良莠不齐,危机四伏等局面。
事件起因:单位办公楼因线路短路偶然非正常停电1个小时,致使机房非精密型空调停止运作,其余设备均接入UPS电源。
事件经过:
1、早晨7点左右停电,我8点左右进入办公楼得知停电原因、停电时间点、恢复时间点,断电持续1小时;
2、立即进入机房,温度计显示温度44度,抓狂;其中4台服务器因温度报警,崩溃边缘;
3、非精密型空调停止工作。
事件处理:
1、处理思路和顺序:降温,恢复受影响设备,全面核查设备和业务连续性,分析事故起因,规划应对措施。
2、首先,开启空调和门窗,快速降温;
3、受温度影响设备恢复正常状态;
4、核查设备运行日志,无硬件型报错;
5、核实业务连续性,其中数据,业务系统运行日志,均正常;
6、分析原因-企业双回路电源接入,稳定;空调功率大,直接接入公司市电线路;无联动报警设备;事件告知渠道不流畅。
7、应对措施
7.1、企业双回路电源接入,稳定-改动可能性非常小,直接放弃;
7.2、空调功率大,直接接入公司市电线路-资金受限,维持原状;
7.3、无联动报警设备-因资金预算和技术原因无法实现,无奈放弃;
7.4、事件告知渠道不流畅-非正式邮件或书面要求相关部门遇到此类事件需第一时间告知;
7.5、协商建立公司保卫人员非工作时间内巡检记录和报告体系。
回顾思考:
从这件事,让我思考了许多,别扔鸡蛋说为啥机房没值班人员?为啥没有报警联动装置?为啥没人告诉?为啥应对规划如此糟糕?等等问题。
企业机房有正式值班人员的多吗?-据我所了解,不多,为啥原因很多-最直接的就是未达到企业的战略高度。
为啥没联动报警装置和自动恢复等?-资金,企业的认知程度决定了,不是靠努力就能解决,好的时候没人想起你,出问题的时候你没做好。
为啥没人告诉?-企业的组织架构、理念和员工意识会对此结果产生很大影响。当然,第一责任人是我,我的风险识别未做好,更谈不上应对措施了,同时跨部门的协作工作未通畅,致使事件发生无人第一时间告知(其实以前每次都告诉了,就这次没告诉)。
为啥应对规划如此糟糕?-坦然承认,机房运维的风险识别、应对措施和沟通管理计划做的很不好,未全面校验其可靠程度。
想说几句:
初建机房或运维时,一是建立运维体制,以便审查日志发现问题;二是运维人员要定期识别风险,并评估其发生的概率和影响,并规划相应的应对措施,同时将不可控或一旦发生影响很大的风险书面或邮件告知相关领导且最好使他知道风险的结果(说直白点,就是责任转移),要不然知情不报,责任自己全抗,崩溃掉吧!
IT部门要善于思考和沟通,努力让业务与组织战略联系在一起,获得更多资源改善环境和获得更好技术支撑。
正确解决问题的思路会使效率事半功倍的。
本文出自 “乐途之旅” 博客,请务必保留此出处http://joyweb.blog.51cto.com/5793699/982320
评论