Microsoft 365 Copilot チューニングを使用すると、組織は独自の用語、コミュニケーション スタイル、ビジネス プロセスを反映するように AI モデルを調整できます。 独自のデータを使用して大きな言語モデル (LLM) を微調整することで、テナント全体の Copilot 応答の精度、トーン、関連性を向上させることができます。
Copilot チューニングは、保持と取得を超えて、堅牢なエンタープライズ セキュリティ、コンプライアンス、ガバナンス、管理コントロールを維持しながら、organizationのデータに対するテナント固有の LLM をトレーニングします。 LLM は、概要作成、ドキュメント生成、エキスパート Q&A などの特定のタスクに合わせて調整されます。
この記事では、organizationのMicrosoft 365 Copilotをカスタマイズするためのモデルのトレーニングとチューニングのプロセスについて説明します。
注:
Copilot チューニングは現在、早期Access Preview (EAP) で使用できます。 要件と登録方法の詳細については、 管理者ガイドを参照してください。
チューニング プロセスの概要
Copilot Tuning を使用して、organization用に微調整された AI モデルを作成するには、次のトレーニングとチューニングの手順が必要です。
- ドメイン固有の適応は 、Copilot に取り込む組織データを処理することによって LLM をトレーニングします。
- 教師あり微調整 は、入力と出力のペアでモデルをトレーニングすることで、モデルを特定のタスクに適応させます。
- 強化学習は、モデルがorganizationのスタイル、トーン、好みを採用して、Copilot の応答をさらに最適化するのに役立ちます。
注:
チューニングするモデルはプライベートです。 データは、他のテナントの一般的なモデルのトレーニングには使用されません。 データのすべての処理は、承認されたユーザーのみがアクセスできるテナントで行われ、特定の個人 (通常は管理者) がトレーニング プロセスを制御できます。
ドメイン固有の適応
ドメイン固有の適応は、コーパスが取り込まれた後に発生します。 この適応には、元の形式から 1 行に 1 つのステートメントを含むプレーン テキスト形式にorganizationのコンテンツを処理することが含まれます。 この形式により、AI モデルが元のデータへの参照を持たないようにします。
ドメイン固有の適応の間、モデルは、テナントの LLM にドメインの知識を提供するために、organizationからのラベル付けされていないデータの大規模なコーパスで事前トレーニングされます。 正確で正確な回答を得るためにモデルを教える教師あり微調整とは異なり、ドメイン固有の適応は、organization内のデータの種類を認識し、適切に対応するようにモデルをトレーニングします。
ドメイン適応は、ビジネス ドメインに対するモデルの理解を深め、Copilot が行う作業の種類を理解するのに役立ちます。 これにより、Copilot は、迅速なエンジニアリング中にモデルを取得するための複数の手順を学習または実行するのではなく、関連する知識を迅速に取得できます。
クライアント側のプロンプト エンジニアリングにより、結果をさらに改善できます。 インテリジェント プロンプトとドメイン固有の適応を組み合わせることで、Microsoft Search、SharePoint などのソースからのエンタープライズリテンション期間と取得を有効にすることができます。
監視対象の微調整
教師あり微調整は、ラベル付き入出力ペアでトレーニングすることで、事前トレーニング済みのモデルを特定のタスクまたは組織の要件に適応させるために使用される手法です。 このプロセスは、モデルが、organizationの優先する形式、トーン、コンプライアンスのニーズに合った応答を生成する方法を学習するのに役立ちます。 監視対象の微調整:
- 構造とトーンについて説明する - モデルは、organizationの声を反映する方法で応答する方法を学習します。
- タスクの精度を向上させる - 高品質の例に対するトレーニングによって、エンタープライズ ユース ケースのモデルの信頼性が高まります。
- コンプライアンスのサポート - 規制言語と内部分類を認識して対応するモデルをトレーニングできます。
監視による微調整は、モデルを次の対象にする必要がある場合に役立ちます。
- 特定の Q&A 形式に従います。
- 会社の法的または人事的なコミュニケーション スタイルを反映します。
- ドメイン固有の用語 (GDPR やセキュリティ分類など) を認識して対応します。
たとえば、法務チームは、GDPR や内部分類などのデータ管轄区域用語への参照を含む、キュレーションされた応答を使用してモデルを微調整する場合があります。
ACL: This document is important to the DSR database and should be given utmost priority.
ACL: Access and Confidentiality Level - High
ACL: Data Classification Level - Medium
これにより、モデルが法的正確性を反映するだけでなく、内部ドキュメント標準にも準拠する応答を生成できます。
監視による微調整は、次の例に示すように、モデルが組織のテンプレートに合わせて構造化された出力を生成し、法的および内部ガバナンス プロトコルを適用するのに役立ちます。
プロンプト: このドキュメントに適用する必要があるセキュリティ保護は何ですか?
応答: このドキュメントには、法律およびコンプライアンスに関する機密情報と特権情報が含まれています。 不正アクセスを防止するには、暗号化、アクセス制御、および定期的な監査が必要です。 アクセス制御に対する変更は、上級管理者によって承認される必要があります。
監視による微調整は、次の例に示すように、応答が正確で、organizationのトーンと一致するようにするのにも役立ちます。
プロンプト: 従業員が上限を超える前に発生できる休暇時間はいくつですか?
応答: 最大休暇残高は 200 時間に制限されます。 この制限に達すると、従業員は追加の時間の発生を停止します。 仕事と生活のバランスを維持するために、定期的に休暇を取ることをお勧めします。 詳細については、上司または人事部にお問い合わせください。
強化学習
強化学習は、トレーニング後の手法であり、ORGANIZATION固有のコミュニケーション スタイル、トーン、ツールの使用設定に合わせて LLM を調整するのに役立ちます。 ラベル付けされた例から正しい出力を生成するモデルを教える教師あり微調整とは異なり、強化学習はフィードバック信号から学習することで主観的な性質に合わせて最適化します。
強化学習は、モデルで次を行う場合に役立ちます。
- 特定の音声のトーン (共感的、正式、簡潔) を反映します。
- 特定のツール (RAG ベースの取得よりも Microsoft Graph API など) を優先します。
- 機密性の高いソース (ACL タグ付けされたドキュメントなど) からコンテンツを取得しないようにします。
- ユーザーからのフィードバックから学習し、継続的に改善します。
強化学習では、人間と自動の両方のフィードバックを使用して、学習をガイドし、組織の好みに基づいて出力をスコア付けすることで、モデルを改良します。 たとえば、Copilot が休暇ポリシーの質問に対する回答に対して肯定的なフィードバックを受け取った場合、その応答は強化され、同様のコンテキストで再利用されます。 逆に、応答にトーンまたはコンテンツのフラグが設定されている場合、モデルはそのパターンを回避することを学習します。
高度な適応とメンテナンス
教師あり学習と強化学習の微調整を組み合わせることで、organizationのトーン、タスク完了パターン、データ ガバナンス要件を反映したモデルを作成できます。 これらのモデルは、organization固有の音声と運用に関する知識を次に適用します。
- タスク間で一貫したトーンと書式設定を維持します。
- ドキュメントの生成、要約、エキスパート Q&A にドメイン固有の知識を埋め込みます。
- トレーニングと推論中にアクセス制御とデータ分類ポリシーを尊重します。
- 内部標準とユーザーの期待に合わせて正確な応答を生成します。
モデルをチューニングするときにいくつかの課題が発生する可能性があります。 たとえば、トレーニングに十分な高品質のラベル付きデータを見つけることは、課題になる可能性があります。 ChatGPTなどのモデルを使用して参照出力を生成することで、シミュレートされたデータを作成できます。 また、トレーニング データが十分に多様であることを確認する必要もあります。 トレーニング データは、実際のシナリオをカバーし、潜在的なバイアスを軽減するために、広範なユース ケースをカバーする必要があります。
モデルの品質とコンプライアンスを最大限に確保するには:
- Azure OpenAI Service などの手動レビューまたは自動ツールを使用して評価を実施します。
- 見えない入力をテストし、必要に応じて学習率を調整することで、オーバーフィットを監視します。
- トレーニング ライフサイクル全体を通じて、厳格なアクセス制御と監査証跡を維持します。
すべての評価は機密であり、Microsoft の責任ある AI 原則によって管理されます。
次の方法でモデルを引き続き進化させることができます。
- 継続的な微調整のために、強化サイクル間で新しいデータをアップロードします。
- プロンプト エンジニアリングを適用して、新しいタスクの種類や規制の変更に適応する。
- Copilot Studioのローコード ツールを使用して、微調整されたモデルに基づいてエージェントをデプロイおよび管理します。