インシデントから学習する理由
- 5 分
インシデントが発生した場合、最初の反応は "Hurray, a learning opportunity!" (学習の機会) ではない可能性があります。問題が発生した内容を把握し、できるだけ早く修正し、顧客とエンド ユーザーへの影響を減らすことが、最優先事項です。 これは、このラーニング パスの別のモジュールで説明したインシデント対応プロセスです。
ただし、インシデントが解決されたら、エクスペリエンスをフォローアップしてメリットを得る必要があります。 インシデントから学ぶ時間を取らないと、時間、お金、評判などが失われるだけです。しかし、そのインシデントが(他のソースではできない方法で)情報のソースになる可能性がある場合は、実際にそこから何らかの利点を引き出すことができます。
インシデント後のレビューは、インシデント対応ライフサイクルの分析フェーズの一部です。 インシデント後のすべてのレビューが等しく作成されるわけではありません。 プロセスにアプローチするさまざまな方法があり、問題の特定の側面に焦点を当て過ぎ、または間違った方法で質問をフレーミングすると、レビューの価値が低下する可能性があります。
このユニットでは、その理由だけでなく、インシデントからどのように学ぶかを考え始めます。 以降のユニットで "how" を拡張します。
複雑なシステムが失敗する
システムで障害が発生した場合ではなく、システムが失敗することが確実であるため、障害から「学習する」必要があります。
現代の世界では、現在、特にクラウド環境で使用されているシステムの大半は複雑です。 これらは、連携する必要がある多くの相互接続部分で構成されており、システムの全体的な動作は、個々のパーツ自体と同じくらいそれらの部分の相互作用から生じます。
信頼性 はこのラーニング パス全体で実行されるスレッドですが、複雑なシステムは 100% 信頼できることはありません。 このようなシステムは、興味深く直感に反する方法で動作します。 それらは多くの部分で構成されており、多くの場合、システムの動作は、パーツ自体と同じくらいそれらのパーツ間の相互作用から生じます。
このトピックについて詳しく説明する場合は、リチャード・I・クック博士の 「複雑なシステムの失敗」 というタイトルの論文をご覧ください。 彼は麻酔科医であり、数十年にわたり複雑なシステム、特に医療システムの患者の安全に取り組んできました。 このホワイト ペーパーでは、医療からソフトウェア運用まで、あらゆる分野の複雑なシステムに共通する点について説明します。
彼の重要なポイントの一部は、インシデント分析とインシデント後のレビュー プロセスに特に関連しています。
- 複雑なシステムには、その中に潜在的な障害の変化する混合物が含まれています。 複数の欠陥が存在せずにシステムを実行することは不可能です。 障害は、テクノロジ、作業組織、および障害を根絶するための取り組みが変化するため、絶えず変化します。 システムが完全に機能することはありません。
- 複雑なシステムは、機能低下モードで実行されます。 複雑なシステムは、常に "壊れた" システムとして実行されます。 多くの冗長性が含まれており、多くの欠陥が存在するにもかかわらず機能し続けることができるので、彼らはその状態で"働き続ける"。 システム操作は動的であり、コンポーネントは絶えず失敗し、置き換えられます。
- 大災害は常にすぐ近くにあります。 これらのシステムの複雑さは、システムの大きな障害が長期的には避けられないという意味です。 複雑なシステムは常に致命的な障害の可能性を持ち、いつでも発生する可能性があります。 システム固有の性質の一部であるため、この可能性を排除することは不可能です。
防止と対応
システムとサービスに必要なレベルの信頼性を実現するために、インシデントが発生するのを防ぐために可能な限りのことを行います。 ただし、前に説明したように、これらのシステムの複雑さのため、防止は必ずしも可能ではありません。
この実現のために、障害に対して 2 つのアプローチを取る必要があります。予防とそれが不可能な場合は、迅速かつ効果的に対応するための準備を行います。
防止と対応が相互にリンクされます。 これは、組織がほとんどの場合に機能する高度な自動化をデプロイしたときに発生した可能性があります。 それはほとんどの時間を働いたことは素晴らしいことですが、それが失敗したとき、それはおそらく壮大に失敗し、オペレーターが何が間違っていたのかを理解するのを難しくしました。
作業するシステムは、テクノロジを超えて構成されています。 実際には、システム「上」や「と一緒に」働くのではありません。システムの中で作業します。 あなたはシステムの一部です。 複雑なシステムには、技術コンポーネント (ハードウェア、ソフトウェア) と人間のコンポーネント (人とそのパーソナリティ、トレーニング、知識) の両方が含まれます。 私たちのシステムは人間を含むシステムであり、物事がうまくいかないときに人間がどのように反応するかは、最初に物事が間違うのを防ぐのと 同じくらい 重要です。
Language
言語は重要です。 このモジュールでは、使用する用語と意図的に使用しない用語について非常に具体的に説明します。
使用する言葉は、インシデントで何が起こったかについてどのように考えるかに影響し、学習内容と学習量を大幅に変更できます。 この発見は、航空、医療、捜索救助、消防など、安全性が重要な業界の研究に由来します。
この分野をまとめて、 回復性エンジニアリング (RE) と呼ばれるようになった。
技術部門の回復性エンジニアリングについては、多くのことを学ぶ必要があります。 このモジュールの後半では、失敗から学ぼうとしたときに人々が陥る最も一般的なトラップの4つを含め、RE文献から学んだ本当に有用なものを共有します。しかし、最初に、いくつかの用語を定義する必要があります。