使用 Copilot 优化自定义智能 Microsoft 365 Copilot 副驾驶®

2025-06-17

智能 Microsoft 365 Copilot 副驾驶®优化使组织能够定制 AI 模型，以反映其独特的术语、通信风格和业务流程。通过微调大型语言模型 (LLM) 自己的数据，可以提高整个租户中 Copilot 响应的准确性、语气和相关性。

Copilot 优化超越保留和检索，可针对组织数据训练特定于租户的 LLM，同时保持可靠的企业安全性、合规性、治理和管理控制。 LLM 针对特定任务（如摘要、文档生成和专家 Q&A）进行了优化。

本文介绍训练和优化模型的过程，以便为组织自定义智能 Microsoft 365 Copilot 副驾驶®。

注意

Copilot 优化目前可用于早期Access 预览版 (EAP) 。有关要求以及如何注册的详细信息，请参阅管理员指南。

优化过程概述

使用 Copilot 优化为组织创建微调的 AI 模型涉及以下训练和优化步骤：

域特定适应 通过处理你引入 Copilot 中的组织数据来训练 LLM。
监督式微调 通过在输入输出对上训练模型来使模型适应特定任务。
强化学习 可帮助模型采用组织的风格、语气和偏好，以进一步优化 Copilot 响应。

注意

你调整的模型是专用的。数据不用于训练其他租户的常规模型。所有数据处理都在只有授权用户有权访问的租户中完成，并且特定个人（通常是管理员）可以控制训练过程。

特定于域的适应

引入企业料库后，将进行特定于域的改编。此改编涉及将组织内容从其原始格式处理为纯文本格式，每行一条语句。此格式可确保 AI 模型没有对原始数据的引用。

在特定于域的适应期间，使用组织的大量未标记数据预先训练模型，以便向租户的 LLM 提供域知识。与监督式微调不同，该优化涉及教授模型以提供精确和准确的答案，特定于域的适应训练模型，以感知组织内的数据类型并做出适当的响应。

域适应丰富了模型对业务领域的理解，帮助 Copilot 了解你所做的工作类型。这使 Copilot 能够快速检索相关知识，而不是在快速工程期间学习或采取多个步骤来检索模型。

客户端提示工程可以进一步改进结果。通过将智能提示与特定于域的适应相结合，可以启用企业保留和从Microsoft搜索、SharePoint 等源进行检索。

监督式微调

监督式微调是一种技术，用于通过在标记的输入输出对上训练预先训练的模型，使其适应特定任务或组织要求。此过程可帮助模型了解如何生成符合组织首选格式、语气和合规性需求的响应。监督式微调：

教授结构和语气 - 模型了解如何以反映组织声音的方式做出响应。
提高任务准确性 - 通过针对高质量示例进行训练，模型在企业用例中变得更加可靠。
支持合规性 - 可以训练模型以识别和响应法规语言和内部分类。

需要模型用于以下作时，监督式微调非常有用：

遵循特定的 Q&A 格式。
反映公司的法律或人力资源沟通风格。
识别并响应特定于域的术语 (，例如 GDPR 或安全分类) 。

例如，法律团队可能会使用特选响应（包括引用 GDPR 和内部分类等数据司法管辖区术语）来微调模型。

ACL: This document is important to the DSR database and should be given utmost priority.
ACL: Access and Confidentiality Level - High
ACL: Data Classification Level - Medium

这可确保模型可以生成不仅反映法律准确性，而且符合内部文档标准的响应。

监督式微调可帮助模型生成与组织模板一致的结构化输出，并应用法律和内部治理协议，如以下示例所示。

提示： 应对本文档应用哪些安全保护？

响应： 本文档包含与法律和合规性事项相关的敏感信息和特权信息。它需要加密、访问控制和定期审核，以防止未经授权的访问。对访问控制的任何更改都必须得到高级管理层的批准。

监督式微调还有助于确保响应准确且符合组织的语气，如以下示例所示。

提示： 在对总数进行上限之前，员工可以累积多少个休假小时数？

响应： 最大休假余额上限为 200 小时。达到此限制后，员工将停止增加工时。我们鼓励定期休假，以保持工作与生活的健康平衡。有关更多详细信息，请联系主管或人力资源部门。

强化学习

强化学习是一种培训后技术，可帮助根据组织独特的通信风格、语气和工具使用偏好定制 LLM。与监督式微调不同，监督式微调教授模型从标记的示例生成正确的输出，强化学习通过从反馈信号中学习来优化主观质量。

当你希望模型：

(同理心、正式、简洁的) 反映特定的语气。
首选某些工具 (，例如Microsoft Graph API，而不是基于 RAG 的检索) 。
避免从敏感源检索内容， (如) ACL 标记的文档。
从用户反馈中吸取教训，不断改进。

强化学习根据组织偏好对输出进行评分，使用人工和自动反馈来指导学习，从而优化模型。例如，如果 Copilot 收到对休假策略问题的响应的积极反馈，则会在类似的上下文中加强和重用该响应。相反，如果响应标记为语气或内容，则模型将学会避免该模式。

高级适应和维护

通过结合监督学习和强化学习微调，可以创建反映组织的语气、任务完成模式和数据治理要求的模型。这些模型将组织独特的语音和作知识应用于：

在任务之间保持一致的语气和格式设置。
为文档生成、摘要和专家 Q&A 嵌入特定于域的知识。
在训练和推理期间遵守访问控制和数据分类策略。
生成符合内部标准和用户期望的准确响应。

优化模型时可能会遇到一些挑战。例如，为训练找到足够的高质量标记数据可能会带来挑战。可以使用 ChatGPT 等模型来生成引用输出，从而创建模拟数据。你还希望确保训练数据具有足够的多样性。训练数据应涵盖广泛的用例，以涵盖真实场景并缓解潜在的偏见。

为了最好地确保模型质量和合规性：

使用手动评审或自动工具（如 Azure OpenAI 服务）进行评估。
通过测试不可见的输入并根据需要调整学习速率来监视过度拟合。
在整个训练生命周期中保持严格的访问控制和审核跟踪。

所有评估都是机密的，并受Microsoft负责任 AI 原则的约束。

可以通过以下方式继续改进模型：

在加固周期之间上传新数据，以便持续微调。
应用即时工程以适应新的任务类型或法规更改。
使用 Copilot Studio 的低代码工具根据微调的模型部署和管理代理。

通过