复发性的故障是可扩展的大敌,它浪费团队的时间,这些时间本可以用来创建新的功和为股东创造更大的价值 ----《架构即未来》
什么是故障
在ITIL(Information Technology Infrastructure Library)中, 故障是指:任何未能按照规定的服务级别来执行的事件,导致服务质量下降或者服务中断。故障可以是硬件故障、软件故障、网络故障或者其他引起服务中断的事件。
通常来讲,故障可划分为以下几个等级:
- P1级别(严重):
这类故障对业务产生了严重影响,可能导致服务完全中断,需要立即响应和解决。 - P2级别(高):
该等级的故障对业务有显著影响,虽然不像P1那样紧急,但仍需要快速解决。 - P3级别(中等):
这些故障对业务的影响较小,可能需要解决,但不需要立即处理。 - P4级别(低):
最低级别的故障对业务的影响很小或没有影响,可以按计划解决。
甚至,在一些要求特别高的企业或机构,例如:金融机构,还有
- P0级故障(灾难),即“给组织造成重大损失的突发性事件”。
建立故障管理机制
故障管理是运维组织的生命线,故障管理的关键目标是快速恢复服务或业务,降低故障所带来的影响。运维组织需要建立完备的故障管理机制,提升业务连续性。
故障管理闭环
故障管理可分为三个阶段:事前,事中,事后。
-
事前:故障预防
我们可以通过一些手断,来降低故障发生的概率,
比如:架构、容量、性能的评估与优化
比如:监控覆盖,监控准确性调化
比如:应急手册、应急工具的编写、可靠性验证
比如:应急演练,容灾演练
比如:比如可观测平台建设,混沌工程建设 -
事中:
-
故障发现
主要通过监控告警,拨测,日常巡检,客户及服务台反馈等手断 -
故障响应
故障响应考验运维人员的故障识别能力,以及他们的应急处理能力,运维人员对系统业务的深刻理解尤为重要。 -
故障定位
故障定位包括诊断定位和影响面分析,是建立在快速恢复的基础上,因此定位环节,不会进行根因分析。主要通过监控、日志、应急操作工具以及专家意见等来辅助定位。从DNS解析、到网关、到服务、到组件、到数据库,再到基础设施,全链路排查。 -
故障恢复
通常是在定位到原因后执行应急操作,而最常见的手断有:重启,限流,熔断,降级,KILL线程等等。
-
-
事后:故障复盘
复盘是故障管理中很重要的一环,没有故障复盘,故障有可能还会重复发生。
通常复盘包括以下几个通用步骤:- 回顾和梳理故障处理的全过程
从如何发现问题,到一步一步如何定位问题,以及解决问题的全过程。 - 根因分析
找出引发故障的根源,包括且不限于系统、硬件、流程、组织层面的问题。 - 处理过程优化
比如监控准确性,自动化应急工具,人员技能,应急手册等方面寻找优化点。 - 编写故障报告
对故障发生的过程、原因、处理方式、以及发现的优化整改项的总结,形成故障处理知识库。 - 例会
开展周、月、季度性的故障管理例会,对故障数据进行分析和总结
- 回顾和梳理故障处理的全过程
复盘是为了从故障中学习,找到组织、流程、工具、系统架构等方面的不足,推动组织应急能力的持续改进。
故障管理是稳定性建设的重要手断,旨在帮助我们找到影响系统稳定性的各种因素,并制定相应的解决方案,帮助我们提升系统稳定性。