智能 Microsoft 365 Copilot 副驾驶®优化使组织能够定制 AI 模型,以反映其独特的术语、通信风格和业务流程。 通过微调大型语言模型 (LLM) 自己的数据,可以提高整个租户中 Copilot 响应的准确性、语气和相关性。
Copilot 优化超越保留和检索,可针对组织数据训练特定于租户的 LLM,同时保持可靠的企业安全性、合规性、治理和管理控制。 LLM 针对特定任务(如摘要、文档生成和专家 Q&A)进行了优化。
本文介绍训练和优化模型的过程,以便为组织自定义智能 Microsoft 365 Copilot 副驾驶®。
注意
Copilot 优化目前可用于早期Access 预览版 (EAP) 。 有关要求以及如何注册的详细信息,请参阅 管理员指南。
优化过程概述
使用 Copilot 优化为组织创建微调的 AI 模型涉及以下训练和优化步骤:
- 域特定适应 通过处理你引入 Copilot 中的组织数据来训练 LLM。
- 监督式微调 通过在输入输出对上训练模型来使模型适应特定任务。
- 强化学习 可帮助模型采用组织的风格、语气和偏好,以进一步优化 Copilot 响应。
注意
你调整的模型是专用的。 数据不用于训练其他租户的常规模型。 所有数据处理都在只有授权用户有权访问的租户中完成,并且特定个人(通常是管理员)可以控制训练过程。
特定于域的适应
引入企业料库后,将进行特定于域的改编。 此改编涉及将组织内容从其原始格式处理为纯文本格式,每行一条语句。 此格式可确保 AI 模型没有对原始数据的引用。
在特定于域的适应期间,使用组织的大量未标记数据预先训练模型,以便向租户的 LLM 提供域知识。 与监督式微调不同,该优化涉及教授模型以提供精确和准确的答案,特定于域的适应训练模型,以感知组织内的数据类型并做出适当的响应。
域适应丰富了模型对业务领域的理解,帮助 Copilot 了解你所做的工作类型。 这使 Copilot 能够快速检索相关知识,而不是在快速工程期间学习或采取多个步骤来检索模型。
客户端提示工程可以进一步改进结果。 通过将智能提示与特定于域的适应相结合,可以启用企业保留和从Microsoft搜索、SharePoint 等源进行检索。
监督式微调
监督式微调是一种技术,用于通过在标记的输入输出对上训练预先训练的模型,使其适应特定任务或组织要求。 此过程可帮助模型了解如何生成符合组织首选格式、语气和合规性需求的响应。 监督式微调:
- 教授结构和语气 - 模型了解如何以反映组织声音的方式做出响应。
- 提高任务准确性 - 通过针对高质量示例进行训练,模型在企业用例中变得更加可靠。
- 支持合规性 - 可以训练模型以识别和响应法规语言和内部分类。
需要模型用于以下作时,监督式微调非常有用:
- 遵循特定的 Q&A 格式。
- 反映公司的法律或人力资源沟通风格。
- 识别并响应特定于域的术语 (,例如 GDPR 或安全分类) 。
例如,法律团队可能会使用特选响应(包括引用 GDPR 和内部分类等数据司法管辖区术语)来微调模型。
ACL: This document is important to the DSR database and should be given utmost priority.
ACL: Access and Confidentiality Level - High
ACL: Data Classification Level - Medium
这可确保模型可以生成不仅反映法律准确性,而且符合内部文档标准的响应。
监督式微调可帮助模型生成与组织模板一致的结构化输出,并应用法律和内部治理协议,如以下示例所示。
提示: 应对本文档应用哪些安全保护?
响应: 本文档包含与法律和合规性事项相关的敏感信息和特权信息。 它需要加密、访问控制和定期审核,以防止未经授权的访问。 对访问控制的任何更改都必须得到高级管理层的批准。
监督式微调还有助于确保响应准确且符合组织的语气,如以下示例所示。
提示: 在对总数进行上限之前,员工可以累积多少个休假小时数?
响应: 最大休假余额上限为 200 小时。 达到此限制后,员工将停止增加工时。 我们鼓励定期休假,以保持工作与生活的健康平衡。 有关更多详细信息,请联系主管或人力资源部门。
强化学习
强化学习是一种培训后技术,可帮助根据组织独特的通信风格、语气和工具使用偏好定制 LLM。 与监督式微调不同,监督式微调教授模型从标记的示例生成正确的输出,强化学习通过从反馈信号中学习来优化主观质量。
当你希望模型:
- (同理心、正式、简洁的) 反映特定的语气。
- 首选某些工具 (,例如Microsoft Graph API,而不是基于 RAG 的检索) 。
- 避免从敏感源检索内容, (如) ACL 标记的文档。
- 从用户反馈中吸取教训,不断改进。
强化学习根据组织偏好对输出进行评分,使用人工和自动反馈来指导学习,从而优化模型。 例如,如果 Copilot 收到对休假策略问题的响应的积极反馈,则会在类似的上下文中加强和重用该响应。 相反,如果响应标记为语气或内容,则模型将学会避免该模式。
高级适应和维护
通过结合监督学习和强化学习微调,可以创建反映组织的语气、任务完成模式和数据治理要求的模型。 这些模型将组织独特的语音和作知识应用于:
- 在任务之间保持一致的语气和格式设置。
- 为文档生成、摘要和专家 Q&A 嵌入特定于域的知识。
- 在训练和推理期间遵守访问控制和数据分类策略。
- 生成符合内部标准和用户期望的准确响应。
优化模型时可能会遇到一些挑战。 例如,为训练找到足够的高质量标记数据可能会带来挑战。 可以使用 ChatGPT 等模型来生成引用输出,从而创建模拟数据。 你还希望确保训练数据具有足够的多样性。 训练数据应涵盖广泛的用例,以涵盖真实场景并缓解潜在的偏见。
为了最好地确保模型质量和合规性:
- 使用手动评审或自动工具(如 Azure OpenAI 服务)进行评估。
- 通过测试不可见的输入并根据需要调整学习速率来监视过度拟合。
- 在整个训练生命周期中保持严格的访问控制和审核跟踪。
所有评估都是机密的,并受Microsoft负责任 AI 原则的约束。
可以通过以下方式继续改进模型:
- 在加固周期之间上传新数据,以便持续微调。
- 应用即时工程以适应新的任务类型或法规更改。
- 使用 Copilot Studio 的低代码工具根据微调的模型部署和管理代理。