IT系统稳定性建设之

IT系统稳定性建设之 - 故障管理

复发性的故障是可扩展的大敌，它浪费团队的时间，这些时间本可以用来创建新的功和为股东创造更大的价值 ----《架构即未来》

什么是故障

在ITIL（Information Technology Infrastructure Library）中, 故障是指：任何未能按照规定的服务级别来执行的事件，导致服务质量下降或者服务中断。故障可以是硬件故障、软件故障、网络故障或者其他引起服务中断的事件。

通常来讲，故障可划分为以下几个等级：

P1级别（严重）：
这类故障对业务产生了严重影响，可能导致服务完全中断，需要立即响应和解决。
P2级别（高）：
该等级的故障对业务有显著影响，虽然不像P1那样紧急，但仍需要快速解决。
P3级别（中等）：
这些故障对业务的影响较小，可能需要解决，但不需要立即处理。
P4级别（低）：
最低级别的故障对业务的影响很小或没有影响，可以按计划解决。

甚至，在一些要求特别高的企业或机构，例如：金融机构，还有

P0级故障（灾难），即“给组织造成重大损失的突发性事件”。

建立故障管理机制

故障管理是运维组织的生命线，故障管理的关键目标是快速恢复服务或业务，降低故障所带来的影响。运维组织需要建立完备的故障管理机制，提升业务连续性。

故障管理闭环

故障管理可分为三个阶段：事前，事中，事后。

事前：故障预防
我们可以通过一些手断，来降低故障发生的概率，
比如：架构、容量、性能的评估与优化
比如：监控覆盖，监控准确性调化
比如：应急手册、应急工具的编写、可靠性验证
比如：应急演练，容灾演练
比如：比如可观测平台建设，混沌工程建设
事中：
- 故障发现
  主要通过监控告警，拨测，日常巡检，客户及服务台反馈等手断
- 故障响应
  故障响应考验运维人员的故障识别能力，以及他们的应急处理能力，运维人员对系统业务的深刻理解尤为重要。
- 故障定位
  故障定位包括诊断定位和影响面分析，是建立在快速恢复的基础上，因此定位环节，不会进行根因分析。主要通过监控、日志、应急操作工具以及专家意见等来辅助定位。从DNS解析、到网关、到服务、到组件、到数据库，再到基础设施，全链路排查。
- 故障恢复
  通常是在定位到原因后执行应急操作，而最常见的手断有：重启，限流，熔断，降级，KILL线程等等。
事后：故障复盘
复盘是故障管理中很重要的一环，没有故障复盘，故障有可能还会重复发生。
通常复盘包括以下几个通用步骤：
- 回顾和梳理故障处理的全过程
  从如何发现问题，到一步一步如何定位问题，以及解决问题的全过程。
- 根因分析
  找出引发故障的根源，包括且不限于系统、硬件、流程、组织层面的问题。
- 处理过程优化
  比如监控准确性，自动化应急工具，人员技能，应急手册等方面寻找优化点。
- 编写故障报告
  对故障发生的过程、原因、处理方式、以及发现的优化整改项的总结，形成故障处理知识库。
- 例会
  开展周、月、季度性的故障管理例会，对故障数据进行分析和总结