你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

使用 Azure AI Foundry 微调模型

微调可自定义预先训练的 AI 模型,并针对特定任务或数据集进行其他训练,以提高性能、添加新技能或增强准确性。 结果是基于提供的示例的全新优化 GenAI 模型。 本文逐步讲解在微调之前要做出的关键概念和决策,包括适合用例的微调类型,以及基于用于微调的训练技术用例的模型选择条件,以及它在 GenAI 旅程中如何帮助你。

如果你刚开始进行微调,我们推荐使用 GPT-4.1 来处理语言翻译、领域适应或高级代码生成等复杂技能。 对于更集中的任务(如分类、情绪分析或内容审查),或者从更复杂的模型中提取知识时,请从 GPT-4.1-mini 开始,以加快迭代和降低成本。

微调的主要用例

微调非常适合用于为特定应用程序和领域自定义语言模型。 一些关键用例包括:

  • 域专用化: 为医学、金融或法律等专业领域调整语言模型 , 其中域特定的知识和术语非常重要。 教模型了解技术行话并提供更准确的响应。
  • 任务性能: 针对特定任务(如情绪分析、代码生成、翻译或摘要)优化模型。 与常规用途模型相比,可以显著提高特定应用程序上较小模型的性能。
  • 样式和音调: 教授模型以匹配你喜欢的通信风格 - 例如,根据正式的业务写作、品牌特定的语音或技术写作来调整模型。
  • 说明如下: 提高模型遵循特定格式要求、多步骤说明或结构化输出的能力。 在多代理框架中,教模型为正确的任务调用正确的代理。
  • 合规性和安全性: 训练经过微调的模型,以遵守应用程序特有的组织策略、法规要求或其他准则。
  • 语言或文化适应: 为训练数据中可能未很好地表示的特定语言、方言或文化上下文定制语言模型。 当常规用途模型不满足特定要求时,微调尤其有用,但你想要避免从头开始训练模型的成本和复杂性。

无服务器或托管计算?

在选取模型之前,请务必选择符合需求的微调产品。 Azure 的 AI Foundry 提供了两种用于微调的主要形式:无服务器计算和托管计算。

  • 通过“无服务器”可使用我们的容量自定义模型,基于消耗定价,起价为每百万个输入标记 1.70 美元。 我们在进行所有基础架构管理的同时,优化训练的速度和可扩展性。 此方法不需要 GPU 配额,并提供对 OpenAI 模型的独占访问权限,但使用比托管计算更少的超参数选项。
  • 托管计算 通过 AzureML 提供更广泛的模型和高级自定义,但需要提供自己的 VM 来训练和托管。 虽然这可以完全控制资源,但它需要许多客户缺少的高配额,不包括 OpenAI 模型,并且无法使用我们的多租户优化。

对于大多数客户,无服务器提供易于使用、成本效益和对高级模型的访问的最佳平衡。 本文档重点介绍无服务器选项。

若要查找在 AI Foundry 中微调模型的步骤,请参阅AI Foundry 中的模型微调使用托管计算的模型微调。 有关 OpenAI 微调的详细指南,请参阅 微调 Azure OpenAI 模型

培训技术

确定用例后,需要选择适当的训练技术-引导你为训练选择的模型。 我们提供了三种训练技术来优化模型:

  • 监督微调 (SFT):一种基础技术,基于输入-输出对训练模型,教导模型对特定输入做出预期响应

    • 最适合:大多数用例,包括领域专业化、任务执行、风格和语气、遵循说明以及语言适应
    • 何时使用: 对于大多数项目,请从此处开始。 SFT 可解决最广泛的微调方案,并提供可靠的结果以及清晰的输入输出训练数据。
    • 支持的模型: GPT 4o、4o-mini、4.1、4.1-mini、4.1-nano;Llama 2 和 Llama 3.1;Phi 4、Phi-4-mini-instruct;Mistral Nemo、Ministral-3B、Mistral Large (2411);NTT Tsuzumi-7b
  • 直接首选项优化(DPO): 通过从比较反馈中学习,训练模型以优先于某些类型的响应,而无需单独的奖励模型。

    • 最适合: 提高响应质量、安全性和与人类偏好的一致性。
    • 何时使用: 如果有首选输出与非首选输出的示例,或者需要针对有用性、无害性或风格等主观品质进行优化时。 用例包括将模型适应特定的风格和语气,或将模型适应文化偏好。
    • 支持的模型: GPT 4o、4.1、4.1-mini、4.1-nano
  • 强化 Fine-Tuning(RFT): 使用强化学习基于奖励信号优化模型,从而实现更复杂的优化目标。

    • 最适合:简单的输入输出对不足以满足需求的复杂优化场景
    • 何时使用: RFT 非常适合数学、化学和物理等客观领域,其中有明确的正确和错误的答案,模型已经显示了一些能力。 当幸运猜测变得困难,并且专家评估者一致同意一个明确且正确的答案时,它效果最佳。 需要更多 ML 专业知识才能有效地实施。
    • 支持的模型: o4-mini

大多数客户应从 SFT 开始,因为它解决了最广泛的微调用例。

按照此链接查看和下载 示例数据集 ,尝试微调。

训练形式

  • 文本转文本(所有模型): 我们所有的模型都支持对基于语言的任务进行标准的文本转文本微调。
  • 视觉 + 文本 (GPT 4o, 4.1): 某些模型支持视觉微调,同时接受图像和文本输入,同时生成文本输出。 视觉微调的用例包括解释图表、图形和视觉数据;内容审查;视觉质量评估;使用混合文本和图像处理文档;和照片中的产品目录。

模型比较表

此表概述了可用的模型

型号 方式 方法 优势
GPT 4.1 文本、视觉 SFT、DPO 在复杂任务中表现出色,理解细致入微
GPT 4.1-mini 文本 SFT、DPO 快速迭代,经济高效,适用于简单任务
GPT 4.1-nano 文本 SFT、DPO 快速、经济高效且最少的资源使用量
o4-mini 文本 RFT 适用于复杂逻辑任务的推理模型
Phi 4 文本 SFT 适用于较简单任务的高性价比选择
Ministral 3B 文本 SFT 用于更快迭代的低成本选项
Mistral Nemo 文本 SFT 大小与功能之间的平衡
Mistral Large (2411) 文本 SFT 最有能力的 Mistral 模型,更适合复杂的任务

微调入门

  1. 定义用例: 确定是需要一个功能很强的常规用途模型(例如 GPT 4.1)、特定任务(GPT 4.1-mini 还是 nano)的较小经济高效模型,还是复杂的推理模型(o4-mini)。
  2. 准备数据: 从 50-100 个高质量示例开始进行初始测试,扩展到生产模型的 500 多个示例。
  3. 选择技术:从监督微调 (SFT) 开始,除非对推理模型/RFT 有特定要求。
  4. 循环访问和评估: 微调是一个迭代过程-从基线开始,衡量性能,并根据结果优化方法。

若要查找在 AI Foundry 中微调模型的步骤,请参阅在 AI Foundry 中微调模型微调 Azure OpenAI 模型使用托管计算微调模型

微调可用性

现在,你已了解何时为用例使用微调,接下来可以前往 Azure AI Foundry 查找可用于微调的模型。

若要使用无服务器微调 AI Foundry 模型 ,必须在模型可用于微调的区域中有一个中心/项目。 有关模型和区域可用性的详细信息,请参阅 标准部署中的模型的区域可用性 ,以及如何 创建基于中心的项目 来创建项目。

若要微调 OpenAI 模型 ,可以使用 Azure OpenAI 资源、Foundry 资源或默认项目或中心/项目。 GPT 4.1、4.1-mini 和 4.1-nano 在支持全球训练的所有地区可用。 有关区域可用性,请参阅 Azure OpenAI 微调的区域可用性和限制。 有关创建新项目的说明,请参阅 “为 Azure AI Foundry 创建项目 ”。

若要使用托管计算微调模型 ,必须具有用于训练和推理的中心/项目和可用的 VM 配额。 有关如何使用托管计算微调的详细详情,请参阅使用托管计算(预览版)微调模型,并参阅如何创建基于中心的项目来创建你的项目。