回避する一般的なトラップ
- 7 分
インシデント後のレビュー プロセスを開始するために説明したロードマップは役立ちますが、この体験で発生する可能性のある障害について知ると便利な場合もあります。
このユニットでは、インシデント後のレビュー プロセス中に他のユーザーが陥った一般的なトラップとその回避方法について説明します。
トラップ 1: "人為的ミス" に起因
"パイロット エラー" ("ヒューマン エラー" とも呼ばれます) は、モジュールの紹介で開始した B-17 ストーリーで最初の調査担当者が到達した結論であることを思い出すかもしれません。 その話に戻りましょう。
そのイントロでは、導き出された結論があなたには満足できない可能性があることを示唆しました。 彼らは間違いなく、これらの事件を調査するためにアメリカ空軍から依頼された軍事心理学者アルフォンス・チャパニスに不満を持っていました。 特に、これらの事故はB-17と少量の他の航空機に固有であることに気付きました。 西ヨーロッパでは何千ものC-47輸送機が同時に使用されていましたが、C-47で同様の事件を経験したことはありませんでした。
そこで彼はパイロットにインタビューし、彼らから聞いたことに基づいて、B-17コックピットを見に行きました。 彼が見たのは、ギアスイッチとフラップスイッチの2つのスイッチでした。 スイッチはコックピット内で互いに約3インチ離れていました。 操作のモードは同じでした。 彼らは単に互いに混同するのが簡単すぎて、それがこれらのインシデントで起こったものです。 飛行機の着陸直後にフラップを引き出し、駐機する前に格納します。 そして、チャパニーは何か違うことを試しました。
彼はギアのスイッチに小さなゴムホイールを接着し、フラップ用のスイッチに硬い角度の「フラップ」を付けると、案の定、事故は起こらなくなりました。
彼は現在、人間工学分野の創設者の一人として知られており、人間のパフォーマンスにおける設計要因の研究であり、コックピットの設計が人為的ミスの可能性に影響を与える可能性があるという簡単な観察を受けた。 このアプローチは、最新のすべての航空機の設計に影響を与えてきました。 現在の飛行機の2つのスイッチは、現在、米国の連邦法によって義務付けられているように、非常に明確になっています。
では、なぜこの話をしたのでしょうか。
人間は間違いを犯す。 しかし、 人為的ミス は原因ではありません。それは症状です。 人為的ミスが障害の原因と見なされると、インシデントをさらに分析する代わりに、ユーザーはそこで停止します。
システム設計、組織コンテキスト、個人コンテキストはすべて、ユーザーが間違いを犯すタイミング、方法、影響に影響します。 "ヒューマン エラー" は、システムに関する興味深い情報を見つけ出す瞬間に、調査を終了するラベルです。
調査での "ヒューマン エラー" という結論に問題があるのは、その時点では本人にとって合理的な行動であった、という事実を見失ってしまうからです。 定義上、間違いは意図的でないため、間違いを犯すつもりはありませんでした。
"ヒューマン エラー" と表示または読み上げられると、より深く見る必要があることを示すシグナルです。 学習したい場合は、よくあるように、人為的なエラーが見つかると調査をやめてはなりません。 B-17の物語が示すように、ヒューマンエラーを超えて、私たちは私たちのシステムについて興味深いことを学ぶ場所です。
陥りやすい問題 2: 反事実的推論
反事実 とは「事実に反する」ことを意味し、 反正面的な推論 とは、発生したイベントを説明するために起こらなかった出来事に関する話を意味します。 これは、人々が常にそれを行う傾向があるにもかかわらず、あまり意味がありません。
カウンターファクト ステートメントは、キー フレーズで識別できます。
- かもしれません。
- ~すべきだった
- ~しただろう
- 失敗しました
- ~しなかった
- もし、そうだったならば~
インシデント後のレビューに関連する反ファクト ステートメントの例を次に示します。
"監視システムが問題を検出できませんでした。"
"エンジニアは、構成を適用する前に、構成の有効性を確認しませんでした。"
"これは、カナリア環境で気付けるものでした。"
インシデント後のレビューでこの種の推論の問題は、何が起こったのかを理解するために時間を取るのではなく、起こらなかったことを話しているということです。 この憶測から何も学ぶことはありません。
トラップ 3: 規範的言語
規範的な言語 は、多くの場合、演算子が行うべき「明らかに正しい」行動のコースがあったことを意味し、後見の利点を持つそれらの演算子の行動を判断します。
通常、規範的な言語は、"不十分"、"不注意"、"急いで"などの副詞によって識別できます。
規範的思考は、その結果に基づいて意思決定を判断するためにあなたを導きます。 この話し方は論理的ではありません。結果は、決定と判断を下した人が 利用できなかった唯一の情報 であるためです。
標準言語は逆の意味でも使用できます。 たとえば、オペレーターは「適切に」行動したことを称賛できます。 しかし、繰り返しになりますが、多くの場合、この判断は、問題の人々が持っていない情報の恩恵を受けることによって行われます。
規範的言語の問題は、反事実的推論の問題に似ています。インシデントの間に関係する人間が利用できなかった情報を使用して事実の後に判断を下すと、当時のオペレーターの行動がどのように意味を持っているかを理解することを怠ります。
トラップ 4: 機械論的推論
メカニズム的推論 とは、介入から特定の結果を推論できる概念を指します。 「meddling kids症候群」というのは(ジェシカ・デヴィタが命名)、時には「おせっかいな子供たちがいなければ、私たちのシステムは正常に動作していただろう」という前提に基づいています。
インシデント後のレビューでメカニズム的な推論を使用すると、使用するシステムとその内部のシステムが基本的に正常に動作するという誤りに関する結論を作成し、それらの "おせっかいな子供たち" だけが何もしなかった場合、失敗は発生しませんでした。
ただし、システムのしくみではありません。
この点を説明するために、実稼働サービスで作業するシナリオを想像してください。 これで、そのサービスに対するタッチや操作は許可されないというメッセージが表示されます。 チーム外のすべてが以前と同様に続きます。顧客はサービスを引き続き使用し、外部の依存関係は変化し続け、インターネットは正常に機能します。
ただし、コードまたは構成を変更することはできません。 デプロイなし、コントロール プレーン操作なし、何もありません。
1 日が経過しても、サービスは期待どおりに実行されると思いますか? 1 週間後? 1 か月後ですか? 1 年後? 人間の介入なしにサービスが実行され続けることは、どのくらい現実的に期待できますか? ほとんどの場合、そうはならないでしょう。
この思考演習は、次の重要な結論につながります。
システムを稼働させ続けるためには、人間の適応能力が必要です。
システムが最初に稼働し続ける唯一の理由は、制御ループ内の人間の行動によるものです。 システムが動作し続ける状況の変化に適応する人間の行動と能力によってのみ行われます。
そのため、システムが "邪魔な子供さえいなければ、基本的には動いていた" と結論付けるのは間違っています。実際には、サービスの信頼性は、作業している人間から独立しているものではありません。 代わりに、人間が毎日行う作業の直接的な結果です。
機械論的推論の問題は、欠陥のある人間を見つけることは問題を見つけるのと同等であると信じる道を導くということです。 しかし、その同じ欠陥のある人間は、数週間と数ヶ月間システムを実行し続けるために即興と適応しています。 おそらく、この役割はインシデント後のレビューに反映するのに十分な重要な役割です。
インシデント後のレビュー中に回避すべきいくつかのことを把握したので、次のユニットに進み、これらのレビューに役立つプラクティスをいくつか調べることができます。