你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
注释
本文档指的是 Microsoft Foundry(新) 门户网站。
模型路由器是经过训练的语言模型,可实时将提示路由到最合适的大型语言模型(LLM)。 部署模型路由器就像其他任何 Foundry 模型一样。 因此,它在节省成本、降低延迟和增加响应的同时提供高性能,同时保持可比质量,全部打包为单个模型部署。
注释
除了 Claude 模型之外,无需单独部署支持的 LLM 以用于模型路由器。 若要将模型路由器用于 Claude 模型,请先从模型目录中部署它们。 如果选择了这些部署进行路由,则模型路由器将调用它们。
小窍门
Microsoft Foundry (new) 门户为模型路由器提供了增强的配置选项。 切换到 Microsoft Foundry (新) 文档 以查看最新功能。
模型路由器的工作原理
作为训练有素的语言模型,模型路由器在实时应用智能分析您的提示,包括提示的复杂性、推理、任务类型及其他特性。 它不会存储提示。 此外,它仅根据访问和部署类型路由到符合条件的模型,从而遵循数据区域边界。
- 在默认
Balanced模式下,它考虑在较小的质量范围内的所有基础模型,例如 1-2% 与该提示的最高质量模型相比,并选取最经济高效的模型。 - 选择
Cost路由模式时,它会考虑一个更大的质量范围(例如,相较于某提示的最高质量模型的 5-6% 范围),并选择最具性价比的模型。 -
Quality选择路由模式后,它会为提示选取质量最高的分级模型,忽略成本。
为什么使用模型路由器?
模型路由器优化成本和延迟,同时保持可比的质量。 当模型足够用于任务时,会使用更小、更便宜的模型,但更大型且更昂贵的模型可用于更复杂的任务。 此外,推理模型可用于需要复杂推理的任务,否则使用非推理模型。 模型路由器提供单个部署和聊天体验,该体验结合了所有基础聊天模型的最佳功能。
2025-11-18最新版本添加了多项功能:
- 支持全局标准和数据区域标准部署。
- 添加了对新模型的支持:
grok-4、grok-4-fast-reasoningDeepSeek-V3.1gpt-oss-120bLlama-4-Maverick-17B-128E-Instruct-FP8gpt-4ogpt-4o-mini、claude-haiku-4-5、、claude-opus-4-1和。claude-sonnet-4-5 - 使用 路由模式 和 模型子集 选项快速部署或自定义部署。
-
路由模式:根据需要优化路由逻辑。 支持的选项:
Quality、、CostBalanced(默认值)。 - 模型子集:选择首选模型以创建用于路由的模型子集。
- 支持代理方案,包括工具,以便现在可以在 Foundry 智能体服务中使用它。
版本控制
每个版本的模型路由器都与一组特定的基础模型及其版本相关联。 此集是固定的 - 只有较新版本的模型路由器才能公开新的基础模型。
如果在部署步骤中选择 自动更新 (请参阅 “管理模型”),则当新版本可用时,模型路由器模型会自动更新。 发生这种情况时,基础模型集也会更改,这可能会影响模型的整体性能和成本。
基础模型
在 2025-11-18 版本中,模型路由器增加了 9 个新模型,包括 Anthropic 的 Claude、DeepSeek、Llama、Grok 模型,以支持总共 18 个模型,可用于路由你的提示。
| 模型路由器版本 | 基础模型 | 基础模型版本 |
|---|---|---|
2025-11-18 |
gpt-4.1
gpt-4.1-mini
gpt-4.1-nano
o4-mini
gpt-5-nano gpt-5-mini gpt-5 gpt-5-chat Deepseek-v3.1 gpt-oss-120b llama4-maverick-instruct grok-4 grok-4-fast gpt-4o gpt-4o-mini claude-haiku-4-5 claude-opus-4-1 claude-sonnet-4-5 |
2025-04-14 2025-04-14 2025-04-14 2025-04-16 2025-08-07 2025-08-07 2025-08-07 2025-08-07 空值 空值 空值 空值 空值 2024-11-20 2024-07-18 2025-10-01 2025-08-05 2025-09-29 |
2025-08-07 |
gpt-4.1
gpt-4.1-mini
gpt-4.1-nano
o4-mini
gpt-5
gpt-5-mini gpt-5-nano gpt-5-chat |
2025-04-14 2025-04-14 2025-04-14 2025-04-16 2025-08-07 2025-08-07 2025-08-07 2025-08-07 |
2025-05-19 |
gpt-4.1
gpt-4.1-mini
gpt-4.1-nano
o4-mini
|
2025-04-14 2025-04-14 2025-04-14 2025-04-16 |
路由模式
使用最新版本时,如果选择自定义部署,可以选择 路由模式 以优化质量或成本,同时保持基线性能级别。 设置路由模式是可选的,如果未设置路由模式,则部署默认为模式 balanced 。
可用的路由模式:
| 模式 | Description |
|---|---|
| 平衡(默认值) | 动态考虑成本和质量。 非常适合通用用途 |
| 质量 | 优先考虑以确保最高准确性。 最适合复杂的推理或关键输出 |
| 成本 | 优先考虑节省更多成本。 适用于大量预算敏感型工作负荷 |
模型子集
最新版本的模型路由器支持模型子集:对于自定义部署,可以指定要包括在路由决策中的基础模型。 这样可以更好地控制成本、合规性和性能特征。
当新的基本模型可用时,除非将它们显式添加到部署的包含列表中,否则它们不会包括在你的选择中。
局限性
资源限制
| 区域 | 支持的部署类型 |
|---|---|
| 美国东部 2 | 全局标准、数据区域标准 |
| 瑞典中部 | 全局标准、数据区域标准 |
另请参阅模型路由器的区域可用性和部署类型的 “模型 ”页。
速率限制
| 型号 | 部署类型 | 默认 RPM | 默认 TPM | 企业和 MCA-E RPM | 企业和 MCA-E TPM |
|---|---|---|---|---|---|
model-router (2025-11-18) |
数据区标准 | 150 | 150,000 | 300 | 300,000 |
model-router (2025-11-18) |
GlobalStandard | 250 | 250,000 | 400 | 400,000 |
另请参阅 配额与限制,以获取有关速率限制的信息。
若要克服上下文窗口和参数的限制,请使用模型子集功能选择支持所需属性的路由模型。
注释
“ 模型 ”页上列出的上下文窗口限制是最小基础模型的限制。 其他基础模型与较大的上下文窗口兼容,这意味着仅当提示被路由到正确的模型时,具有较大上下文的 API 调用才会成功,否则调用将失败。 若要缩短上下文窗口,可以执行以下作之一:
- 在将提示传递给模型之前汇总提示
- 将提示截断为更相关的部分
- 使用文档嵌入并让聊天模型检索相关部分:请参阅 Azure AI 搜索
模型路由器接受 启用了视觉的聊天 的图像输入(所有基础模型都可以接受图像输入),但路由决策仅基于文本输入。
模型路由器不处理音频输入。
计费信息
从 2025 年 11 月开始,模型路由器的输入提示使用量将按照定价页上列出的费率收费。
可以在 Azure 门户中监视模型路由器部署的成本。