AI エージェント コンポーネント
AI エージェントは、インテリジェントな動作を可能にするために連携する一連の基本コンポーネントから構築されています。
エージェント アーキテクチャ
一般に、すべてのエージェントは次のコンポーネントを共有しますが、実装方法と強調方法は、エージェントの目的と複雑さによって異なります。
- 基盤モデル (LLM): 大きな言語モデル (LLM) には、生成機能と推論機能が用意されています。 これにより、自然言語の理解、生成、コンテキスト認識が可能になります。
- オーケストレーター: オーケストレーターは、エージェントの動作を調整し、知識を取得するタイミング、スキルを呼び出すタイミング、または人間にエスカレートするタイミングを決定します。 ワークフロー、メモリ、意思決定ロジックを管理します。
- ナレッジ: これは、エージェントが環境を理解し、意思決定を行うために使用する情報を指します。 これには、エージェントに対して定義された 手順 と、構造化データ、非構造化コンテンツ、ドキュメント、データベース、リアルタイム入力など、アクセスできる 接地 データが含まれます。 エージェントはこの知識を使用して、コンテキストに関連する応答とアクションを提供します。
- スキルとツール: これらは、メッセージの送信、データベースのクエリ、自動化されたワークフローのトリガーなどのアクションを実行するためにエージェントが使用できるアクション、機能、ワークフローです。 これには、電子メールの送信、データの取得、レコードの更新、自動プロセスのトリガーなどがあります。 スキルは、多くの場合、エージェントがタスクを完了するために呼び出すことができる API、サービス、または自動化ツールに関連付けられています。
- 自律性: これは、エージェントが情報を解釈してアクションを選択する方法をガイドするロジックです。 これには、意思決定フレームワーク、ルールベースのロジック、自律機能のトリガー、およびエージェントが時間の経過とともに適応および改善できるようにする機械学習モデルがますます含まれています。
リフレクション:
自動化するプロセスまたはタスクについて考えます。 エージェントがそのプロセスを正常に処理できるようにするために最も重要なカスタム コンポーネント (知識、スキル、推論) はどれですか?
LLM と AI エージェント: 違いは何ですか?
大規模言語モデル (LLM) は、ジェネレーティブ AI の 背後にあるコア エンジン です。 エージェントは、人間のような言語を理解して生成したり、コンテンツを要約したり、テキストを翻訳したりできます。
ただし、 LLM だけではエージェントではありません。
AI エージェント は、追加のコンポーネントを統合することで、LLM の機能を拡張 します。
- 対話の間でコンテキストを保持するメモリ。
- 実際のアクションを実行するスキル。
- 複雑なワークフローを管理するための推論とオーケストレーション。
- ユーザーやシステムと対話するためのインターフェイス。
要するに、LLM はインテリジェンスを生成します。 エージェントは、そのインテリジェンスを適用して目標を達成します。
AI エージェントのしくみ
一般的な AI エージェントの動作を次に示します。
- 入力: ユーザーが質問するか、タスクを開始します。
- 理解: LLM は入力を解釈し、意図を決定し、関連情報を抽出します。
- 計画: オーケストレーターは、多くの場合、LLM の助けを借りて、知識の取得、スキルの呼び出し、説明の要求など、実行する手順を決定します。
- アクション: エージェントは、プランに従ってスキルまたはツールを使用して必要なアクションを実行します。
- 応答の生成: LLM は、アクションの結果と現在のコンテキストに基づいて自然言語応答を生成します。
- 通信: エージェントは、選択したインターフェイスを介してユーザーに応答を配信します。
- 学習: エージェントは、関連するコンテキストまたはフィードバックを格納して、将来の対話を改善します。
例:
ある従業員がエージェントに「会社の旅行ポリシーは何ですか。来週シアトル行きのフライトを予約できますか?」
- エージェントは、組織のガイドラインと従業員の役割を理解して、社内のドキュメントまたはサポート情報から最新の会社の旅行ポリシーを取得します。
- 次に、外部フライト予約 API を呼び出して、会社の旅行ポリシー (優先航空会社、予算制限、承認要件など) に準拠するシアトルへの利用可能なフライトを検索します。
- エージェントは、関連する旅行ポリシーの概要、フライトオプションの提案、予約要求がすべて自然言語で開始または完了したことを確認して従業員に応答します。
自律エージェント
自律エージェントは、多くの場合、人間の介入を最小限に抑えて、複数のステップまたはセッションで目標を追求し、より独立して動作します。 自律エージェントの重要な要素は、直接ユーザー入力なしで 動作するようにエージェント に求めるトリガー イベントまたはデータの変更に応答できることです。 トリガーには、スケジュールされた時刻、データ更新、外部システム イベント、またはユーザー コンテキストの変更を含めることができます。
通常、ワークフローは次のようになります。
- 目標設定: エージェントは、(ユーザーまたはシステムから) 高レベルの目標を受け取ります。
- トリガーの監視: エージェントは、期限、データの変更、アクションを必要とする可能性がある外部イベントなどの関連するトリガーを継続的に監視します。
- 自己計画: トリガーを検出したり目標を受け取ったりすると、エージェントは自律的に目的をサブタスクに分割し、計画を作成します。多くの場合、反復的に調整します。
- 反復アクション: エージェントはアクションを実行し、結果を監視し、計画とアクションを複数回ループする可能性がある場合に、その計画を調整します。 これらのアクションには、ワークフローをトリガーし、自律動作の力と自動化された決定論的ワークフローを組み合わせることが含まれる場合があります。
- 自己評価: エージェントは、目標に向けた進捗状況を評価し、続行するか、アプローチを調整するか、完了を宣言するかを決定します。
- レポート/通信: エージェントは、必要な場合にのみ結果または要求の入力を要約します。
- 継続的な学習: エージェントは、将来の自律性を向上させるために、結果に基づいてメモリと戦略を更新します。
自律エージェントは、自己指向の計画、トリガー ベースの実行、およびステップ バイ ステップのユーザー入力への依存を最小限に抑え、より複雑なマルチステップ タスクを処理できるようにします。
例:
財務organizationでは、Copilot Studio エージェント フローを使用して構築された税補正エージェントを使用します。
- エージェントは、監査の必要性を示す可能性がある異常がないか財務データを継続的に監視します。
- 異常が検出されると、構造化された監査ワークフローが自律的にトリガーされ、必要なドキュメントが収集され、重要な結果が要約されます。
- その後、エージェントは監査結果を適切な人間のレビュー担当者にルーティングして承認を受け、コンプライアンスと透明性を確保します。
- プロセス全体を通じて、エージェントは新しいデータまたはフィードバックに基づいてアクションを適応させ、自律的な意思決定と決定論的ワークフローを組み合わせて、柔軟性と規制コンプライアンスの両方を維持します。
このトリガー駆動型サイクルにより、エージェントは動的な環境で動作し、ユーザーのニーズに適応し、ますますパーソナライズされた効果的な結果を提供できます。
AI エージェントの構築
AI エージェントを構築するには、基本的なテクノロジ、インフラストラクチャ、開発ツールの組み合わせが必要になる場合があります。
- 基盤モデル (LLM): 自然言語の理解、推論、および生成用。
- オーケストレーション レイヤー: アクションの計画、意思決定、調整を管理します。
- スキルとツール: エージェントが呼び出してタスクを完了できる API、プラグイン、サービスのライブラリ。
- メモリとコンテキスト ストア: 短期および長期のメモリを保持し、パーソナル化と継続性を有効にします。
- データ インフラストラクチャ: 構造化データ ソースと非構造化データ ソースへのセキュリティで保護されたスケーラブルなアクセス。
- セキュリティとガバナンス: ID 管理、アクセス制御、コンプライアンスの監視。
- デプロイ環境: エージェントをホストおよびスケーリングするためのクラウドネイティブ インフラストラクチャ (Azure Kubernetes Service、Azure Functionsなど)。
ただし、AI スタックのこれらのレイヤーで必要な開発レベルは、エージェントの目的と複雑さによって大きく異なる場合があります。 取得とタスク ベースのエージェントのシナリオでは、スタックの残りの部分の既存のインフラストラクチャを活用しながら、知識、スキル、手順を追加するだけで済む場合があります (たとえば、Microsoft 365 Copilotを拡張するエージェントの構築)。 より高度で複雑なシナリオでは、カスタム モデル、オーケストレーション、ロジック、アクション、セキュリティ、ガバナンスなど、ソリューションを完全にカスタマイズできます。
Microsoft AI エージェント ソリューション
Microsoft では、完全にカスタムの AI スタックを使用してソリューションを構築する場合でも、エンタープライズ データ、API、ビジネス ロジックと共に既存のコンポーネントを活用する場合でも、AI 変革の過程を支援するためのさまざまなツールとソリューションを提供しています。
- 採用: Microsoft 365 Copilot、Copilot Chat、および一連のファースト パーティ エージェントは、組み込みのセキュリティとガバナンス制御を備えた、すぐに AI を活用した生産性をサポートする強力な機能を提供します。
- 拡張: Microsoft 365 Copilotは、Copilot のモデル、オーケストレーター、およびユーザー インターフェイスを利用するエージェントで拡張できますが、ビジネス プロセスの自動化のためにカスタム ビジネス ロジック、データ、システムに合わせて調整されます。
- ビルド: Copilot Studio、Microsoft 365 Agents Toolkit、Microsoft Foundry など、さまざまな Microsoft ツールとサービスを使用して、より高度なシナリオや複雑なシナリオに合わせてカスタム エージェントと商用ジェネレーティブ AI アプリケーションを構築できます。
Microsoft は、次のようなこの範囲で使用できる AI エージェントに最適なソリューションを提供します。
- Microsoft 365 Copilotと lite バージョンのCopilot Studio: ビジネス ユーザーは、コードなしのインターフェイスで自然言語を使用して AI エージェントを開発できます。
- Copilot Studio (完全): 作成者は、ローコード インターフェイスを使用してカスタム AI エージェントを構築し、Microsoft 365 Copilotを拡張できます。
- Visual Studio/GitHub/Microsoft Foundry: 開発者は、Microsoft Agent Framework、Foundry Agent Service、Microsoft 365 エージェント SDK、Microsoft 365 Agents Toolkit などの SDK、フレームワーク、サービスと共にこれらのプロコード ツールを使用して、エンタープライズ レベルの AI エージェント ソリューションを設計、構築、カスタマイズ、発行、管理できます。