信頼性の高い監視およびアラート戦略を設計するための推奨事項

2025-01-15

この Power Platform Well-Architected 信頼性チェックリストのレコメンデーションに適用されます:

RE:08	ソリューションの正常性指標を測定して公開します。ワークロード全体、また個々のコンポーネントや主要なフローから、稼働時間やその他の信頼性データを継続的にキャプチャします。

このガイドでは、信頼性の高い監視およびアラート戦略を設計するための推奨事項について説明します。この戦略を実装すると、運用チームに環境の正常性状態を常に通知し、ワークロードに対して確立された信頼性目標を確実に満たすことができます。

定義

用語	定義
メトリック	一定の間隔で収集される数値。メトリックは、特定の時点におけるシステムのいくつかの側面を説明します。
リソースログ	システムがシステムの状態に関して生成するデータ。
トレース	要求がサービスとコンポーネントを通過するパスに関する情報を提供するデータ。

主要な設計戦略

監視およびアラート戦略を作成する前に、信頼性計画の一環としてワークロードに対して次のタスクを実行します。

重要なフローと重要でないフローを特定します。
フローに故障モード解析 (FMA) を実行します。
信頼性の目標を特定します。
堅牢なテスト戦略を設計します。

監視およびアラート戦略を作成して運用チームに認識を提供し、ワークロードの状態の変化を通知して問題を迅速に解決できるようにします。クリティカルフローおよびクリティカルフローを含むワークロードの正常性モデルでは、正常状態、劣化状態、および異常状態を定義する必要があります。これらの状態の変化をすぐにキャッチできるように監視体制を設計します。ヘルス状態が健全から劣化または異常に変化した場合、アラートメカニズムで自動復旧措置をトリガーし、担当チームにアラートを送信する必要があります。

ビジネスの要件を満たす監視およびアラート戦略を設計するには、次の推奨事項を実装してください。

一般的なガイダンス

メトリック、ログ、およびトレースの違いを理解します。

すべてのクラウドリソースのログを有効にします。導入で自動化とガバナンスを使用して、環境全体で診断ログを有効にします。

すべての診断ログを、Log Analytics ワークスペースなどの集中データシンクおよび分析プラットフォームに転送します。地域のデータ主権要件がある場合は、その要件の対象となる地域でローカルデータシンクを使用する必要があります。

トレードオフ: ログの保存と照会にはコストがかかります。ログの分析と保持が予算にどのような影響を与えるかに注目し、要件を満たす最適な使用バランスを決定します。

ワークロードが 1 つ以上のコンプライアンスフレームワークの対象となる場合、機密情報を処理するコンポーネントログの一部もそれらのフレームワークの対象になります。関連するコンポーネントログを、Microsoft Sentinel などのセキュリティ情報イベント管理 (SIEM) システムに送信します。

コンプライアンスフレームワークがワークロードに課す長期保有要件を組み込んだログ保有ポリシーを作成します。

ログデータのクエリを最適化するには、すべてのログメッセージに構造化されたログを使用します。

緑から黄や赤のように、値が正常性モデルの状態の変化に関連するクリティカルしきい値を超えたときにトリガーされるようにアラートを構成します。しきい値の設定は、継続的な改善のプラクティスです。ワークロードが進化するにつれて、定義したしきい値が変わる可能性があります。

運用チームが将来の参照用にこれらのイベントを追跡できるように、状態が改善した場合 (赤から黄や赤から緑など) にアラートを使用することを検討してください。

カスタムダッシュボードを使用して、環境のリアルタイム正常性を視覚化します。

インシデント発生時に収集されたデータを使用して、正常性モデルを継続的に改善します。

プラットフォームレベルの正常性などの、クラウドプラットフォームの監視およびアラートサービスを組み込みます。

Azure Monitor インサイトツールなど、クラウドプロバイダーが提供する専用の高度な監視と分析を組み込みます。

次の情報を取得するためにバックアップと復旧の監視を実装します。

ワークロードがターゲットの復旧ポイント目標 (RPO) 内で復旧を達成できるようにするためのデータレプリケーションステータス。
バックアップと復旧の成功と失敗。
ディザスターリカバリー計画の報告に必要な復旧期間。

アプリケーションとエージェントの監視

アプリケーションまたはエージェントを運用環境で実行している間のデータを記録します。運用状態における問題の原因を診断するには、十分な情報が必要です。

サービス境界でのイベントをログに記録します。サービス境界を越えて流れる関連付け ID を含めます。トランザクションが複数のサービスを経由して流れ、そのうちの 1 つが失敗した場合、関連付け ID を使用すると、アプリケーション全体の要求を追跡し、トランザクションが失敗した理由を正確に特定できます。

アプリケーションとエージェントのログ記録を監査から分離します。監査記録は通常、コンプライアンスまたは規制要件のために保持され、完全である必要があります。トランザクションのドロップを回避するには、監査ログを診断ログとは別に管理します。

ホワイトボックステストを使用して、アプリケーションまたはエージェントにセマンティックログとメトリクスを組み込みます。アプリケーションまたはエージェントから、メモリ消費量や要求の待機時間など、アプリケーションレベルとエージェントレベルのメトリックとログを収集して、正常性モデルに通知し、問題を検出および予測します。

ブラックボックスモニタリングを使用して、プラットフォームサービスとその結果生じる顧客エクスペリエンスを測定します。ブラックボックス監視は、システムの内部に関する知識がなくても、外部から見えるアプリケーションやエージェントの動作をテストします。このアプローチは、顧客中心のサービスレベル指標 (SLI)、サービスレベル目標 (SLO)、およびサービスレベル契約 (SLA) を測定する場合によく使用されます。

データとストレージの監視

ストレージコンテナーの可用性メトリックを監視します。このメトリックが 100% を下回った場合、書き込みが失敗したことを示します。可用性の一時的な低下は、クラウドプロバイダーで負荷を管理する場合に発生する可能性があります。可用性の傾向を追跡して、ワークロードに問題があるかどうかを判断します。場合によっては、ストレージコンテナーの可用性メトリックの低下は、ストレージコンテナーに関連付けられているコンピューティングレイヤーのボトルネックを示していることがあります。

データベースを監視するためのメトリックは多数あります。信頼性の観点から、監視すべき重要な指標には次のものがあります。

クエリ期間
タイムアウト
待機時間
メモリ不足
ロック

Power Platform の促進

Power Platform は、Azure Monitor エコシステムの一部である Application Insights と統合します。このアプリケーションを使用して、次のことができます。

アプリケーションが Dataverse データベースおよびモデル駆動型アプリ内で実行する診断、パフォーマンス、操作に関する Application Insights の Dataverse プラットフォームによってキャプチャされたテレメトリを受信するようにサブスクライブします。このテレメトリは、エラーとパフォーマンスに関連する問題の診断とトラブルシューティングに使用できる情報を提供します。
キャンバスアプリから Application Insights に接続して、これらの分析を使用して問題を診断し、ユーザーが実際にアプリで何をしているかを把握し、より適切なビジネス上の意思決定を促進し、アプリの品質を向上させることができます。
Power Automate テレメトリを Application Insights へとフローするように構成します。このテレメトリを、クラウドフローの実行を監視し、クラウドフローの実行失敗に関するアラートを作成できます。
Microsoft Copilot Studio エージェントから Azure Application Insightsで使用するためのテレメトリデータをキャプチャします。このテレメトリを使用して、エージェントとの間で送受信されるログに記録されたメッセージとイベント、ユーザーの会話中にトリガーされるトピック、およびトピックから送信できるカスタムテレメトリイベントを監視できます。

Power Platform は、Microsoft Purview コンプライアンスポータルでログの活動をリソースします。ほとんどのイベントはアクティビティの 24 時間以内に利用可能になります。この情報をリアルタイム監視に使用しないでください。 Power Platform でのログ活動についての情報は、次を参照してください。

Power Platform ワークロードに Azure リソースを含めることができます。 Azure リソースの監視に関する推奨事項の詳細については、監視システムの設計と作成に関する推奨事項を参照してください。

Power PlatformCoE スターターキットは、Power Platform の採用とサポートのための戦略開発に役立つように設計されたコンポーネントおよびツールのコレクションを含む参照実装です。キットは、チームが CoE をサポートするために必要な監視と自動化を構築するのに役立つ自動化とツールを提供します。

オンラインサービス正常性はどのようにしてチェックしますか。

信頼性チェックリスト

完全なレコメンデーションのセットを参照してください。

信頼性チェックリスト

次の方法で共有

信頼性の高い監視およびアラート戦略を設計するための推奨事項

主要な設計戦略

一般的なガイダンス

アプリケーションとエージェントの監視

データとストレージの監視

Power Platform の促進

関連情報

信頼性チェックリスト

フィードバック

その他のリソース