使用Copilot 调整 (抢先体验预览) 自定义智能 智能 Microsoft 365 Copilot 副驾驶® 副驾驶®

通过使用智能 Microsoft 365 Copilot 副驾驶® Tuning,组织可以定制 AI 模型,以反映其独特的术语、通信风格和业务流程。 微调大型语言模型 (LLM) 自己的数据时,可以改进整个租户中 Copilot 响应的准确性、语气和相关性。

Copilot 调整不仅仅是保留和检索,还可以针对组织的数据训练特定于租户的 LLM,同时保持可靠的企业安全性、合规性、治理和管理控制。 LLM 针对文档摘要、文档编写、专家答案、样式编辑、文档验证和优化等特定任务进行了优化。

本文介绍为组织优化智能 智能 Microsoft 365 Copilot 副驾驶® 副驾驶®中特定于任务的代理的过程。

重要

智能 Microsoft 365 Copilot 副驾驶® Tuning目前通过早期访问计划提供给有限的一组客户。 通过 边境 的访问计划于 2026 年 4 月进行。 功能和要求可能会更改。

微调过程概述

若要使用 Copilot 调整 优化模型为组织优化 AI 模型,请按照以下训练和优化步骤操作:

  • 特定于任务的适应 - 准备用于训练的数据。 每个任务都有自己的方案,用于准备正确的组织数据进行微调。

  • 微调训练 - 每个任务都有自己的配方和微调技术,以便使用组织数据获得最佳结果。 这些技术包括但不限于监督式微调 (SFT) 、强化学习 (RL) 和推理微调 (RFT) 。 这些食谱和技术也会随着时间的推移而发展。

  • 评估 - 每个任务都有自己的方案,用于如何使用组织定义的评分标准来评估输出。

显示微调过程的屏幕截图。

注意

你调整的模型是专用的。 你的数据不用于为其他租户训练常规模型。 所有数据处理都在租户中完成,只有你的授权用户有权训练和使用。 特定个人(通常是管理员)可以控制培训过程。

特定于任务的适应

引入 corpora 后,将进行特定于任务的适应。 此改编涉及将组织内容从其原始格式处理为纯文本格式,每行一条语句。

监督式微调

使用监督式微调,通过在标记的输入输出对上进行训练,使预先训练的模型适应特定任务或组织要求。 此过程可帮助模型了解如何生成符合组织首选格式、语气和合规性需求的响应。 监督式微调:

  • 教授结构和语气 - 模型了解如何以反映组织声音的方式做出响应。
  • 提高任务准确性 - 通过针对高质量示例进行训练,模型在企业用例中变得更加可靠。
  • 支持合规性 - 可以训练模型以识别和响应法规语言和内部分类。

强化学习

使用强化学习作为培训后技术,根据组织独特的沟通风格、语气和工具使用偏好定制 LLM。 与监督式微调不同,监督式微调教授模型从标记的示例生成正确的输出,强化学习通过从反馈信号中学习来优化主观质量。

当你希望模型:

  • (同理心、正式、简洁的) 反映特定的语气。
  • 首选某些工具 (,例如Microsoft Graph API,而不是基于 RAG 的检索) 。
  • 避免从敏感源检索内容, (如) ACL 标记的文档。
  • 从用户反馈中吸取教训,不断改进。

强化学习根据组织偏好对输出进行评分,使用人工和自动反馈来指导学习,从而优化模型。 例如,如果 Copilot 收到对休假策略问题的响应的积极反馈,则模型会加强该响应并在类似的上下文中重复使用该响应。 相反,如果响应标记为语气或内容,则模型将学会避免该模式。

高级适应和维护

通过组合各种微调技术,可以创建反映组织的语气、任务完成模式和Microsoft Purview 数据治理要求的模型。 这些基础模型将组织独特的语音和操作知识应用于:

  • 在任务之间保持一致的语气和格式设置。
  • 为文档编写、摘要和提供问题专家解答等任务嵌入特定于域的知识。
  • 在训练和推理期间遵守访问控制和数据分类策略。
  • 生成符合内部标准和用户期望的准确响应。

所有评估都是机密的,并受Microsoft负责任 AI 原则的约束。

在新数据可用时,可以继续改进代理,并通过以下方式优化模型:

  • 正在上传新数据。
  • 更新目标和评估指标,以适应新的任务类型或法规更改。