你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

自定义大型语言模型 (LLM) 入门

有多种技术可用于调整预先训练的语言模型以适应特定任务或域。其中包括提示工程、RAG（检索增强生成）和微调。这三种技术不是互斥的，而是可组合在一起的互补方法，适用于特定的用例。在本文中，我们将探讨这些技术、说明性用例、注意事项，并提供资源链接，以了解更多信息并开始使用每种技术。

提示工程

提示工程是一种既是艺术又是科学的技术，涉及设计生成式 AI 模型的提示。此过程利用上下文中学习（零样本和少样本），并且迭代可提高响应的准确性和相关性，从而优化模型的性能。

环保公司的营销经理可以使用提示工程来帮助引导模型生成更符合其品牌语气和风格的描述。例如，他们可以向输入添加一个提示“为一系列新的环保清洁产品编写产品说明，强调质量，有效性，并突出使用的是环保成分”。这将有助于模型生成与其品牌价值和消息传送保持一致的说明。

RAG（检索增强生成）是将外部数据集成到大型语言模型提示中以生成相关响应的方法。使用基于不同主题的大型非结构化文本库时，此方法尤其有用。它允许在组织的知识库 (KB) 中获取答案，从而提供更定制化和准确的响应。

当根据组织的私有数据或模型训练的公共数据可能已过时时，RAG 也非常有优势。这有助于确保无论数据布局中的更改如何，响应始终保持最新且相关。

公司人力资源部门正在寻找一个智能助理，回答特定的员工医疗保险相关问题，如“眼镜是否在承保范围内？”RAG 用于引入与保险计划政策相关的大量文档，以便回答这些特定类型的问题。

微调（特别是在此上下文中的监督微调）是一个迭代过程，它将现有大型语言模型适应所提供的训练集，以提高性能、教授模型新技能或降低延迟。当模型需要在特定主题进行学习和归纳时，特别是当这些主题的范围通常较小时，就会使用此方法。

微调需要使用高质量的基于特殊示例的格式的训练数据，以创建新的经过微调的大型语言模型。通过专注于特定主题，微调使模型能够在这些重点领域提供更准确和相关的响应。

IT 部门一直在使用 GPT-4o 将自然语言查询转换为 SQL，但他们发现，响应并不总是可靠地基于其架构生成，而且成本过高。

他们使用数百个请求和正确的响应微调 GPT-4o mini，得到了比基本模型成本更低、延迟更低、性能更好的模型。

微调是一项高级功能；它通过截止日期后的知识和/或域特定知识增强了 LLM。首先，根据标准模型的要求评估标准模型的基线性能，然后再考虑此选项。
获得在没有微调的情况下的性能基准是了解微调是否能够带来更强的模型性能的关键。使用错误数据进行微调会让基础模型变得更差，但如果没有基准则很难检测到回归。
好的微调案例包括引导模型输出特定的自定义样式、语气或格式的内容，或者需要引导模型输出的信息过长或过于复杂，提示窗口无法容纳得下的情况。
微调成本：
- 微调可以降低两个维度的成本：(1) 根据任务使用更少的标记；(2) 使用较小的模型（例如，GPT-4o mini 可能通过微调在特定任务上达到与 GPT-4 相同的质量水平）。
- 微调模型的训练过程需要一些前期成本。以及部署自定义模型后，还需要额外的每小时托管费用。