オペレーショナル エクセレンス成熟度モデル

オペレーショナル エクセレンスの取り組みは継続的な改善の 1 つであり、各ステージは最後に構築され、ワークロードの設計、実装、サポート全体の効率と有効性を向上させます。

その中核となるのは、デプロイ、監視、テスト、自動化などの主要なプラクティスを合理化することです。 この取り組みは、共有ボキャブラリ、標準化されたプラクティス、コラボレーションと安定性を促進する DevOps の考え方という強力な基盤から始まります。 そこから標準化により、プロセスに一貫性と予測可能性が導入されます。 チームの能力が高まるにつれて、個々のタスクは統合ワークフローに進化し、自動化されたテスト、インテリジェントな監視、継続的インテグレーションなどの運用対応機能によってサポートされます。

システムが運用環境で稼働すると、運用がさらに高度になります。 Teams は、迅速かつ確実に変更を管理し、品質ベンチマークを満たして、自信を持って製品所有者からの機能要求を実装する機能を備えています。

最も成熟した段階は、最適化とイノベーションに関するすべてです。 ここでは、チームは大規模な運用を行い、進化するビジネス ニーズと技術シフトを満たすためにシステムをリアルタイムで継続的に適応させます。 ただし、これは固定の宛先ではありません。それは常に改善し、常に適応することの動的な考え方です。

モデルは 5 つの異なる成熟度レベルに構成され、それぞれが主な目標と一連のコア戦略を持ちます。 意味のある生産性の向上のために、最初から AI を運用に埋め込むことができる場所の評価を開始します。 各レベルを調べるには、以下のタブ付きビューを使用します。 また、読み進める中で、ハイライトされたトレードオフと関連するリスクも必ず確認してください。

目標アイコン AI 駆動型ツールを意図的に埋め込むことで業務プロセスを最新化し、手作業によるエラーが発生しやすい作業を減らし、測定可能な価値を実現します。

運用ワークフローをエンド ツー エンドで評価して、AI が一貫性と生産性を向上できる場所を特定し、コスト、リスク、価値までの時間を実際にバランスを取ります。

購入: 既製の GenAI ソリューション

既製の GenAI ツールには、組み込みの AI 機能があります。 これらは、意図によって大まかに分類できます。 カテゴリの 1 つは、コンテキストに依存し、さまざまなタスクに使用できる、GitHub Copilotなどの一般的な対話型支援ツールです。 これらのツールは、ほとんどまたはまったくセットアップを必要とせず、既存の開発者ワークフローに直接埋め込まれたコンテキスト対応の支援を提供します。 もう 1 つのカテゴリは、特定の機能用に設計された、展開エージェントや Site Reliability Engineering (SRE) エージェントなどの専用のツールとエージェントです。 IDE および CLI アシスタントを使用して、開発者の生産性のために統合できます。

一部のAzure サービスには AI 機能も統合されており、追加コストが発生する可能性があります。

カスタムの実装を用いたGenAIを構築する

Custom GenAI は、特定のワークロードに合わせて調整された運用および開発ワークフローに AI を直接埋め込みます。 カスタム エージェントは、チケット、コード リポジトリ、メトリック、監視システムからコンテキストをプルして、操作の現在の状態を反映し、定義された境界内で動作する分析情報を生成できます。

より高度な実装では、内部標準に対してコードまたはインフラストラクチャを生成して検証し、専門知識や可用性に基づいて作業をルーティングし、特殊な予測にカスタム 機械学習モデルを適用できます。 このアプローチにより、自動化が深まり、組織のプロセスとの連携が強化されますが、エンジニアリング、データ品質、ガバナンス、セキュリティ、メンテナンスへの継続的な投資が必要です。

AI の機能パターン

実際に使用される最も一般的で近い AI 機能の一部を次に示しますが、この一覧は網羅的ではありません。 この一覧を使用して、生産性を向上させるために AI を挿入できる操作の場所を評価します。

導入は時間の経過とともに意図的に進行する必要があります。 概要作成やコンテンツ生成などの重点的なユース ケースから始めて、機能と信頼度が高まるにつれてタスクやワークフローを推論するエージェント インターフェイスを導入します。 より高いレベルの成熟度では、マルチエージェント システムは統合システムとデータ全体で動作し、より複雑な運用シナリオをサポートします。

  • 要約。 ドキュメント、レポート、ログ、または会話から情報を読み取って圧縮し、ユーザーが理解する言語と用語を使用する簡潔な概要と重要なポイントを生成する AI ツール。
  • 推奨事項。 複数のデータ ソースを一緒に分析してパターンを検出し、運用上の意思決定のためのコンテキストに対応した推奨事項を提供する AI ツール。
  • 成果物の生成。 定義された標準に準拠しながら、記述された要件を実行可能コード、インフラストラクチャ定義、自動テストに変換する AI ツール。
  • ポリシーの検証。 ポリシー、標準に照らしてコード、構成、ワークフローを確認し、ドキュメントを設計してコンプライアンスを適用する AI ツール。
  • 最適化アクション。 アーティファクト間で分析情報を使用して作業をルーティングし、意思決定に対するアクションを実行する AI ツール。

注意事項

エージェントを使用する場合、セーフガードは架空ではありません。 1 つのチェックされていないモデル、1 つの不適切な自動化、または 1 つの制限を超えるアクセス設定によって、エラーの伝達、機密データの漏えい、大規模な運用の整合性の侵害が発生する可能性があります。

機密データを保護するには、すべてのプラットフォームで、厳密な個人データ マスクとセキュリティ トリミングを適用する必要があります。 ユーザーは、アクセスが許可されている出力のみを表示する必要があります。 その結果、AI の出力は不完全である可能性がありますが、潜在的な露出のコストによって完全な可視性が得られます。

ヒューマン レビューは、特にアーキテクチャ、セキュリティ、運用上の問題に関する要件のままです。 レビューでは、意図とリスクに焦点を当て、低レベルの構文ではなく組織の標準に適合する必要があります。 プロンプト、テンプレート、標準を継続的に改善できるように、レビューからのフィードバックを取り込む必要があります。

✓ 要約エージェント

要約エージェントは、通常、単純なCopilotスタイルのアーキテクチャを使用し、簡単な取得と応答の生成を行います。これにより、比較的簡単に実装および操作できます。

リスク: 要約には本質的に正確性のリスクがあり、特にエージェントが複数の文書にまたがる情報を統合する場合にその傾向が強まります。 エラーを完全に排除することはできませんが、説明可能性と増分ナビゲーションを実装することで運用上のリスクを軽減できます。 システムは、要約されたコンテンツを明確に示し、ユーザーが検証のためにソース マテリアルにドリルダウンできるようにする必要があります。

推論コストは時間の経過と同時に蓄積される可能性があります。 単純な要求をより小規模で低コストのモデルにルーティングし、複雑なマルチドキュメント合成のためにより高度なモデルを予約します。このアプローチで必要になる可能性がある追加のオーケストレーションを受け入れます。 簡潔な初期概要を提供し、ユーザーがサポートの詳細とソース コンテンツにドリルダウンできるようにします。

データ管理では、追加の非表示コストが発生します。 古いドキュメントや冗長バージョンによってインデックスが肥大化するのを防ぐために、データライフ サイクルを積極的に管理します。 履歴コンテキストが必要な場合は、制御されていない重複ではなく、意図的なバージョン管理によって以前のコンテンツを保持します。

ユーザーからの直接のフィードバックは貴重です。 概要の品質と有用性に関する入力をキャプチャし、それを使用して、モデル ルーティングの決定、インデックスの有効性、およびキャッシュまたは前処理戦略の影響を評価します。

例示
  • OE:01 DevOps 文化。 非構造化ドキュメントから、アクション アイテム、所有者、期限、リスク ステートメントなどの構造化された要素を抽出します。
  • OE:08 インシデント対応。 インシデント、事後分析、セキュリティ結果、監査レポートを要約して、スコープ、影響、結果をすばやく理解します。

推奨エージェント

推奨事項を提供する AI エージェントは、複数のデータ ソースを分析できる推論指向モデルに依存します。 これらのモデルには、軽量または純粋な生成アプローチに依存するのではなく、ソース間の相関関係をサポートするのに十分な分析深度が必要です。

トレードオフ: より広い範囲で価値を生み出すことができますが、相互参照されるソースの重み付けが間違ったり、元の意図に誤りがある可能性があります。 このような AI によって生成された応答に過度に依存すると、エラーが増幅され、問題が反復的な呼び出しと複合化する可能性があります。

クロスリファレンス ソースでは、通常、要求ごとのコストと推論の待機時間が増加します。 多くのきめ細かいクエリよりも、より少なくリッチなクエリを優先して、外部呼び出しを最小限に抑えます。 実行時に複数の外部ソースにアクセスして関連付けるのはコストがかかる可能性があるため、データ アクセスを並列化し、可能な場合は共有インデックスにデータを事前に読み込みます。

複数のソースを操作すると、統合が複雑になります。 1 つのソースのエラーは、推奨事項パイプラインを通じて伝達される可能性があります。 入力を組み合わせるときに検証とセキュリティ ガードレールを適用します。 低待機時間が必要な場合は、クエリ ソースを並列で実行します。 分類、エンリッチメント、ルックアップなど、特定の要求に依存しない手順を前処理します。 中間結果と頻繁に使用される機能をキャッシュして、繰り返し計算を減らします。

推奨エンジンは、ブラック ボックスではなく意思決定サポート システムとして扱います。 説明可能性は、信頼と運用上の信頼性を構築する上で中心的な役割を担います。 システムは、推奨事項の明確な根拠を提供し、主要なシグナルを強調し、データ ソースを提供する必要があります。 ダウンストリーム システムまたはユーザーが信頼性を測定するのに役立つ信頼度インジケーター (たとえば、0 ~ 100%) を含めるとします。

例示
  • OE:06 ワークロードサプライチェーンの設計。 検出が困難で、テスト スイートに含めるのが見落とされることが多い、顧客中心のエッジ ケースとシナリオを見つけます。
  • OE:08 インシデント管理。 AI を使用してベンダー移行計画を検証し、提供されているドキュメント、プレイブック、正常性モデル、エスカレーション パスのみを使用してベンダー サポート チームをシミュレートします。 シミュレーションでは、ハンドオフの前にギャップと非表示の依存関係が強調表示されます。
  • OE:10 オートメーション設計。 自動化コード、テレメトリ、インシデント データを評価して、どの自動化を改善、廃止、または拡張するかを推奨します。

✓ アーティファクト生成エージェント

AI エージェントは、コード、インフラストラクチャ定義、テストを生成するのに役立ちますが、その出力が運用環境のワークロードの一部になる可能性があります。 コード生成は本質的に非決定的であり、自然言語の要件を実行可能な成果物に変換すると、元の意図とは異なる結果が生成される可能性があります。 このため、明確な所有権、明示的な制御、既存のエンジニアリング プラクティスへの統合が不可欠です。 AI は、問題領域が十分に理解されていて、バリエーションが限られている場合 (たとえば、反復的または標準化されたコーディング タスク)、出力を導くためにガードレールを適用する必要がある場合に最も効果的です。

適切なモデルを選択することは重要です。 コードの生成とツールの実行に適したモデルを使用し、必要に応じてそれらを組み合わせます。 推論モデルは、システム分析、計画、または分解に役立ちます。コードに重点を置いたモデルは成果物自体を生成でき、追加のモデルはテストまたはデプロイの手順をサポートできます。

生成は、テンプレート、参照実装、コーディングガイドライン、および組織および業界標準を反映した例に基づく必要があります。 明確な標準は、ドリフトを検出し、一貫性を強制するのに役立ちます。 テンプレートを使用すると、AI の出力がより予測可能になります。

ほとんどのエージェントと同様に、コード ジェネレーターは複数のソースから描画できます。 すべての出力は、検証されるまで信頼されていないものとして扱う必要があります。 最小特権の原則を適用して、ツールの実行のアクセス許可とスコープを制限します。 エージェントは、明示的な承認なしに運用リソースをデプロイまたは変更しないでください。

生成された成果物を標準の開発者ライフ サイクルに統合します。 このサイクルには、プル要求、コード レビュー、自動テスト、セキュリティ スキャンが含まれます。 信頼性とコンプライアンスを確保するために、依存関係チェックやコードとしてのインフラストラクチャ (IaC) スキャンなど、人間が作成したコードに適用するのと同じ厳しさを適用します。

トレードオフ: ヒューマン レビューは引き続きコスト モデルの一部であり、ROI に組み込む必要があります。 さらに、アーティファクトの生成が増加すると、スループットの負荷が下流に移ります。 新しいボトルネックが発生しないように、テスト、検証、デプロイのワークフローを適宜スケーリングする必要があります。 リンター、テスト、静的分析、ポリシー チェックを使用して検証を可能な限り自動化することは、エンドツーエンドのフローと価値への時間を維持するために不可欠です。

例示
  • OE:02 業務を標準化する。 組織の標準に準拠したコード成果物とドキュメント成果物を生成し、資産の進化に合わせて標準ドキュメントを更新し続けます。
  • OE:07 監視システムを設計する。 ソース間で適切なメトリックを自動的に選択することで、エンジニアリング メトリックをビジネス成果に合わせた統合ダッシュボード構成を生成します。
  • OE:10 オートメーション設計。 運用環境で構成ドリフトを自律的に監視し、意図した状態を推測し、ブートストラップ定義を更新して、時間の経過と同時にシステムを調整します。

✓ ポリシー検証エージェント

AI エージェントは、ポリシーと標準に対する資産の確認と検証に役立ちます。 彼らの役割は、意思決定をサポートし、逸脱にフラグを設定し、コンプライアンスを適用することです。 人間は最終的な監視を維持します。

検証は、ロールアウト前に慎重な評価とテストから始まります。 標準はバージョン管理する必要があり、各資産は適用可能なポリシーを明確に参照する必要があります。これにより、追跡可能性が確保されます。 ポリシーが進化するにつれて、メンテナンスのオーバーヘッドを考慮し、それに応じて検証プロセスを更新する必要があります。 可能であれば、レビューをバッチ処理して並列化し、すべての資産を再スキャンするのではなく、変更に対する増分チェックに焦点を当てます。

コストとパフォーマンスのバランスを慎重に取る必要があります。 正確な予測を行うために必要な履歴データの量を考慮しますが、ストレージ、処理、待機時間への影響も考慮してください。 データが少なすぎると信頼性が低下しますが、コストが大きすぎます。

セキュリティは引き続き重要な要素です。 機密情報が確実に保護されるように、検証出力へのアクセスは、セキュリティ レビュー担当者などの承認されたユーザーに制限する必要があります。

有効性は、想定されずに測定されます。 ダッシュボードを使用して、検出された問題と運用環境の問題、誤検知、カバレッジなどのメトリックを追跡します。 これらの分析情報を検証ロジック、プロンプト、運用プロセスにフィードバックして、エージェントの貢献度を継続的に調整します。

例示

✓ アクション最適化エージェント

アクションの最適化エージェントは、直接的な運用アクションを実行することで、分析と推奨事項を超えて拡張されます。 出力によってシステムまたはプロセスが変更される可能性があるため、これらのエージェントには、ワークフローへの慎重な設計、監視、統合が必要です。

リスク: セキュリティは主な懸念事項です。 エージェントは、運用環境で実行する前に提案されたアクションをレビューして承認する、ループ内の人間のワークフロー内で動作するのが理想的です。 ツールとシステムへのアクセスは、最小限の特権の原則に従い、エージェントをタスクの実行に必要なアクセス許可のみに制限する必要があります。 詳細な監査は不可欠であり、提案されたアクション、承認者、および追跡可能な実行ログをキャプチャします。

各変更の範囲を制限することで、最小のブラスト半径を適用するガードレールを実装します。 ツールの実行は、安全な再試行を可能にするためにべき等である必要があり、システムには検証とロールバックのメカニズムが含まれている必要があります。 チェックポイント、バックアップ、またはその他の復旧戦略は、意図しない変更の安全な修正をサポートできます。

例示
  • OE:08 インシデント管理。 アラートが発生するとすぐに、コンテキストを自動的に収集し、データを関連付け、初期トリアージを実行します。 これにより、エンジニアは、手動でデータを収集する代わりに、明確なインシデント画像から開始できます。
  • OE:10 オートメーション設計。 監視データの分析から推論された値を使用して、人間が定義した境界内で、キャッシュ サイズやタイムアウト値などのリスクの低い運用設定を継続的に最適化します。
  • OE:11 安全な展開のプラクティス。 最適なロールアウトのタイミングと、カナリア デプロイの適切なターゲット セグメントと割合を自律的に識別することで、プログレッシブ 露出デプロイ戦略を自動化します。

次のステップ