連絡とコラボレーション
タイムリーで明瞭な情報共有は、インシデント対応ライフサイクル全体を通じて、インシデントに効果的に対応するための重要な要素です。 連絡はすべてのフェーズで重要です。
- 検出:インシデントが発生したことと、インシデントおよび影響の大まかな性質/重大度を適切な担当者に伝えます。
- 応答:診断プロセスの進行に応じてインシデントの詳細、問題を解決するために必要な手順、および誰が何を行うかを伝えます。
- 修復:サービスがいつどのようにして正常に復元されたか、および必要なフォローアップ アクションを伝えます。
- 分析:インシデントから学んだ教訓と、この問題が再発しないようにするための方法を伝えます。
- 対応性:このインシデントから学んだ教訓に基づく、インシデント対応計画、手順、およびシステムへの変更 (または必要な変更) を伝えます。
明確な連絡のための優先順位付け
このモジュールの前半で、エリート/高パフォーマンス組織では、事後対応型ではなく事前対応型のアプローチがとられていることに言及しました。 明確で正確な優れた連絡ができるように優先順位を付けると、その副産物として、インシデントに対する姿勢が反応から効果的対応に変わります。
明確な連絡のための優先順位付けにおいて重要な点は次のとおりです。
- 各段階で何が起こっているかについて、確実に情報を共有します。
- 情報を文書化して、誤解や忘れられる可能性を低くします。
- 情報は、それを必要とする全員がアクセスできる一元的な場所に配置します。
- 連絡の効果を高めるツールを使用します。
その時点で指摘はしませんでしたが、これらの行動はすべて最後のユニットで説明したものです。
コミュニケーション ツール:ChatOps
コミュニケーション ツールについて説明する前に、ChatOps について学習する必要があります。これは特定のツールではなく、会話駆動型コラボレーション モデルです。 人、ツール、プロセス、自動化を統合するために開発者に人気があります。 ChatOps では、チームで作業するためのより優れた新しい方法が提供されます。電子メールなどの古いテクノロジに依存することなく、グループチャットを利用して共同作業を行うことができます。
ChatOps の高度な形式では、カスタマイズされたボットや人工知能を使用して作業を自動化できます。 インシデント対応では、ChatOps を使用して、グループチャット ツールを会話に取り込むことができます。 このような作業方法によって、エンジニアは通常のエンジニアリング作業のほかに、グループ チャットに集まって問題やインシデントに関する共同作業を行うことを強く動機付けることができます。
グループ チャットを使用すると、組織的なナレッジの観点から、システム内で何が起こっているかについての情報を共有できます。情報が人々の頭からチャットに引き出され、ほかのメンバーが共有して使用できるようになります。
これにより、チーム全体の可視性と運用上の認識が向上し、ほかのメンバーは自分が何をどのように行うべきかを学ぶことができます。 コマンドを実行し、何を行っているかをチャットで共有すると、ほかのメンバーに何をどのように行うべきかを教えていることになります。
学習は、エンジニアリング部門の中で何が起こっているかについて、より多くの情報を共有することの副産物です。 同僚、仕事仲間、およびリーダーシップが何をしていて、何を考えているか、どのように意思決定を下しているかを含めてより深く理解すると、起きていることに関してさらに共感できるようになります。 作業をチャットに移行し始めると、このすべてがより自然に行われます。
ChatOps ソリューションで Microsoft Teams を使用する
インシデント中に Microsoft Teams がどのようにコミュニケーション ツールキットの重要な部分になることができるかについては、既に学習しました。 インシデントに専念するチャネルとの会話の架け橋を作ることができ、Logic Apps を使用してインシデントの詳細をチャネルに投稿する処理を自動化することさえできます。
Microsoft Teams は、エンジニアリング作業に関する多くの会話が行われる一元化された場所であるため、ステータスの更新や追加のコンテキストを提供するために ChatOps ソリューションの利用を開始するのに適した場所です。
たとえば、チームからの Webhook を使用して状態ページを更新することができます。 チャット内の特定のコマンドをリッスンし、受信した場合には別のアプリケーションに要求を送信するように Teams を構成できます。 このシンプルなアプリケーションは、Azure Blob Storage に格納されている静的な HTML ページを、進行中のインシデントに関する情報で更新する Azure 関数の場合があります。 最終結果として、チャットのシンプルなコマンドにより、チャットに参加していない追加の関係者に更新情報が提供されます。 この 1 つの簡単な手順で、その手順を利用しなければ、応答に関係していない事柄を更新するのに費やされる可能性がある時間が節約されます。
ここまでは、時間をかけて修復前のフェーズについて見てきました。 次は、そのフェーズを改善する方法に焦点を移しましょう。