組織は、Microsoft 365 Copilot チューニングを使用して、固有の用語、コミュニケーション スタイル、ビジネス プロセスを反映するように AI モデルを調整できます。 独自のデータを使用して大きな言語モデル (LLM) を微調整すると、テナント全体の Copilot 応答の精度、トーン、関連性を向上させることができます。
Copilot チューニングは、保持と取得を超えて、堅牢なエンタープライズ セキュリティ、コンプライアンス、ガバナンス、管理コントロールを維持しながら、organizationのデータに対するテナント固有の LLM をトレーニングします。 LLM は、ドキュメントの要約、ドキュメントの作成、専門家の回答、スタイル編集、ドキュメントの検証、最適化などの特定のタスクに合わせて調整されます。
この記事では、organizationのMicrosoft 365 Copilotでタスク固有のエージェントをチューニングするプロセスについて説明します。
重要
Microsoft 365 Copilot チューニングは、現在、早期アクセス プログラムを通じて、限られた一連の顧客が利用できます。 フロンティア経由のアクセスは、2026 年 4 月に予定されています。 機能と要件は変更される可能性があります。
微調整プロセスの概要
Copilot チューニングを使用してorganizationの AI モデルを微調整するには、次のトレーニングとチューニングの手順に従います。
タスク固有の適応 - トレーニング用のデータを準備します。 各タスクには、微調整のために適切なorganizationデータを準備するための独自のレシピがあります。
微調整トレーニング - 各タスクには、organization データを使用して最適な結果を得るための独自のレシピと微調整手法があります。 これらの手法には、教師あり微調整 (SFT)、強化学習 (RL)、推論微調整 (RFT) が含まれますが、これらに限定されません。 これらのレシピと手法も時間の経過と共に進化します。
評価 - 各タスクには、organizationによって定義されたルーブリックを使用して出力を評価する方法に関する独自のレシピがあります。
注:
チューニングするモデルはプライベートです。 データは、他のテナントの一般的なモデルをトレーニングするために使用されません。 データの処理はすべて、承認されたユーザーのみがトレーニングと使用にアクセスできるテナントで行われます。 特定の個人 (通常は管理者) は、トレーニング プロセスを制御できます。
タスク固有の適応
タスク固有の適応は、コーパスを取り込んだ後に発生します。 この適応には、元の形式から 1 行に 1 つのステートメントを含むプレーン テキスト形式にorganizationのコンテンツを処理することが含まれます。
監視対象の微調整
教師あり微調整を使用して、ラベル付き入出力ペアでトレーニングすることで、事前トレーニング済みのモデルを特定のタスクまたは組織の要件に適応させます。 このプロセスは、モデルが、organizationの優先する形式、トーン、コンプライアンスのニーズに合った応答を生成する方法を学習するのに役立ちます。 監視対象の微調整:
- 構造とトーンについて説明する - モデルは、organizationの声を反映する方法で応答する方法を学習します。
- タスクの精度を向上させる - 高品質の例に対するトレーニングによって、エンタープライズ ユース ケースのモデルの信頼性が高まります。
- コンプライアンスのサポート - 規制言語と内部分類を認識して対応するモデルをトレーニングできます。
強化学習
強化学習をトレーニング後の手法として使用して、ORGANIZATION固有のコミュニケーション スタイル、トーン、ツールの使用設定に合わせて LLM を調整します。 ラベル付けされた例から正しい出力を生成するモデルを教える教師あり微調整とは異なり、強化学習はフィードバック信号から学習することで主観的な性質に合わせて最適化します。
強化学習は、モデルで次を行う場合に役立ちます。
- 特定の音声のトーン (共感的、正式、簡潔) を反映します。
- 特定のツール (RAG ベースの取得よりも Microsoft Graph API など) を優先します。
- 機密性の高いソース (ACL タグ付けされたドキュメントなど) からコンテンツを取得しないようにします。
- ユーザーからのフィードバックから学習し、継続的に改善します。
強化学習では、人間と自動の両方のフィードバックを使用して、学習をガイドし、組織の好みに基づいて出力をスコア付けすることで、モデルを改良します。 たとえば、Copilot が休暇ポリシーの質問に対する回答に対して肯定的なフィードバックを受け取った場合、モデルはその応答を強化し、同様のコンテキストで再利用します。 逆に、応答にトーンまたはコンテンツのフラグが設定されている場合、モデルはそのパターンを回避することを学習します。
高度な適応とメンテナンス
さまざまな微調整手法を組み合わせることで、organizationのトーン、タスク完了パターン、Microsoft Purview データ ガバナンス要件を反映したモデルを作成できます。 これらの基になるモデルは、organization固有の音声と運用に関する知識を次に適用します。
- タスク間で一貫したトーンと書式設定を維持します。
- ドキュメントの作成、要約、質問に対する専門家の回答の提供などのタスクに対するドメイン固有の知識を埋め込みます。
- トレーニングと推論中にアクセス制御とデータ分類ポリシーを尊重します。
- 内部標準とユーザーの期待に合わせて正確な応答を生成します。
すべての評価は機密であり、Microsoft の責任ある AI 原則によって管理されます。
新しいデータが利用可能になると、エージェントを引き続き進化させ、次の方法でモデルを調整できます。
- 新しいデータのアップロード。
- 目標と評価メトリックを更新して、新しいタスクの種類や規制の変更に適応させます。