你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

预配吞吐量单位加入

本文介绍加入到预配吞吐量单位 (PTU) 的过程。 完成初始加入后,建议参考 PTU 入门指南

何时使用预配的吞吐量单位 (PTU)

当你有明确定义的、可预测的吞吐量需求时,你应该考虑从即用即付切换到预配的吞吐量。 通常,当应用程序已就绪且可用于生产环境中,或已在生产环境中部署,并且你了解预期的流量时,就会发生这种情况。 这使得用户可以准确预测所需的容量,并避免被意外收费。

典型的 PTU 方案

  • 已就绪可用于生产环境或已在生产环境中使用的应用程序。
  • 应用程序具有可预测的容量/使用情况预期。
  • 应用程序具有实时性/延迟等敏感要求。

注意

在函数调用和代理用例中,令牌的使用量可能会变化。 在将工作负载迁移到 PTU 之前,应详细了解预期的每分钟令牌数 (TPM) 使用情况。

大小调整和估算:预配和全局预配

确定工作负载所需的适量预配吞吐量 (PTU) 是优化性能和成本的重要步骤。 本部分介绍如何使用 Azure OpenAI 容量计划工具。 该工具提供满足工作负载需求所需的 PTU 的估计值。

估算预配吞吐量和成本

若要针对工作负荷进行快速估算,请在 Azure AI Studio 中打开容量规划器。 容量计算器位于“共享资源”>“模型配额”>“Azure OpenAI Provisioned”下。

“已预配”选项和容量规划器仅在某些区域的“配额”窗格中可用,如果没有看到此选项,则将配额区域设置为“瑞典中部”会使此选项可用。 根据工作负载输入以下参数。

输入 说明
型号 计划使用的 OpenAI 模型。 例如:GPT-4
版本 计划使用的模型版本,例如 0614
每分钟的峰值调用数 预期发送到模型的每分钟调用数
提示调用中的令牌 每次调用模型时提示中的令牌数。 具有较大提示的调用会耗费更多 PTU 部署。 目前,该计算器会假设一个提示值,以便处理差异很大的工作负载。 建议根据你的流量对部署进​​行基准测试,以确定部署所需的 PTU 最准确的估计值。
模型响应中的令牌 每次调用模型时生成的令牌数。 生成规模较大的调用将耗费更多 PTU 部署。 目前,该计算器会假设一个提示值,以便处理差异很大的工作负载。 建议根据你的流量对部署进​​行基准测试,以确定部署所需的 PTU 最准确的估计值。

填写所需详细信息后,在输出列中选择“计算”按钮。

输出列中的值是提供的工作负载输入所需的 PTU 单元的估计值。 第一个输出值表示工作负载所需的预估 PTU 单元数,舍入为最近的 PTU 缩放增量。 第二个输出值表示工作负载所需的原始估计 PTU 单元数。 使用以下公式计算令牌总数:Total = Peak calls per minute * (Tokens in prompt call + Tokens in model response)

容量计算器的屏幕截图

注意

容量计算器根据简单的输入条件提供预估值。 确定容量的最准确方法是使用用例的代表性工作负载对部署进行基准测试。

了解预配吞吐量购买模型

可以根据已部署 PTU 的数量按小时按需购买 Azure OpenAI Provisioned 和 Global Provisioned,购买 Azure 预留可在一段期限内获得大幅折扣。

按小时计费的模型对于短期部署需求很有用,例如验证新模型或提升黑客马拉松的容量。  但是,Azure 预留为 Azure OpenAI 预配和全局预配产品提供的折扣相当可观,并且大多数长期持续使用的客户会发现预留模型具有更好的价值主张。

注意

在 8 月自助服务更新之前加入的 Azure OpenAI Provisioned 客户使用一种称为承诺模型的购买模型。 这些客户可以继续将此旧购买模型与按小时计费/预留购买模型一起使用。 承诺模型不适用于新客户。 有关承诺购买模型和共存与迁移选项的详细信息,请参阅 Azure OpenAI Provisioned 八月更新

每小时使用情况

预配和全局预配产品部署将根据已部署的 PTU 数量按小时费率($/PTU/小时)收费。  例如,部署 300 PTU 时将按小时费率乘以 300 收费。  Azure 定价计算器中提供了所有 Azure OpenAI 定价。

如果部署时间不足一小时,则会根据该小时内部署的分钟数按比例收取费用。  例如,如果部署在一小时内持续了 15 分钟,则会按 1/4 的小时费用收费。 

如果部署规模发生变化,则部署成本将会调整以匹配新的 PTU 数量。

显示按小时计费的关系图。

对于短期部署方案来说,按小时支付预配和全局预配产品部署费用是理想的选择。  例如:对新模型的质量和性能进行基准测试,或暂时增加 PTU 容量以承载诸如黑客马拉松之类​​的活动。 

但是,需要长期使用预配和全局预配产品的客户可以通过 Azure 预留购买期限折扣(如下一部分所述)来大幅减少每月支付的费用。

注意

不建议根据传入流量缩放生产部署并仅按小时付费。 原因有两点:

  • 通过购买 Azure OpenAI Provisioned 的 Azure 预留可以节省大量成本,而且在许多情况下,与通过传入流量缩放部署相比,通过预留支付来维护一个适合全生产量规模的部署所需的成本更低。
  • 拥有未使用的预配置配额 (PTU) 并不能保证在需要时有足够的容量来支持增加部署规模。 配额限制了可部署的最大 PTU 数量,但这并不是容量保证。 每个区域和模式的配置容量全天动态变化,并且可能在需要时不可用。 因此,建议保留永久部署以满足流量需求(通过预留付费)。
  • 在清除资源之前,对已删除的资源的部署收费将继续进行。 若要防止此情况,请先删除资源的部署,然后再删除资源。 有关详细信息,请参阅恢复或清除已删除的 Azure AI 服务资源

Azure OpenAI 预配和全局预配产品的 Azure 预留

通过购买 Azure OpenAI 预配和全局预配产品的 Azure 预留,可以在每小时使用价格的基础上获享折扣。 Azure 预留是许多 Azure 产品共享的期限折扣机制。 例如,计算和 Cosmos DB。 对于 Azure OpenAI 预配和全局预配产品,预留会提供一个折扣,用于在一个月或一年内为固定数量的 PTU 付费。 

  • Azure 预留通过 Azure 门户购买,而不是通过 Azure AI Studio 链接前往 Azure 预留门户购买。

  • 预留是按区域购买的,并且可以灵活地调整范围以覆盖一组部署的使用。 预留范围包括:

    • 单个资源组或订阅

    • 管理组中的一组订阅

    • 计费帐户中的所有订阅

  • 这意味着新的预留可以覆盖与当前预留相同的范围,从而可以针对新计划部署获取折扣。 也可以在不受到处罚的情况下随时更新现有预留的范围,例如覆盖新的订阅。

  • 可以在购买后取消预留,但额度有限。

  • 如果预留范围内配置的部署规模超出预留量,则超出部分将按小时费率收费。 例如,如果在 200 PTU 预留范围内存在总计 250 PTU 的部署,则每小时将收取 50 PTU 的费用,直到部署规模减少到 200 PTU,或者创建新的预留以容纳余下的 50 PTU。

  • 预留可保证在选定期限内享受折扣价格。  预留不会保留服务容量,也不会保证在创建部署时可用。 强烈建议客户在购买预留之前创建部署,以防止过度购买预留。

重要

  • 模型部署的容量可用性是动态的,并且会在区域和模型间频繁变化。 若要防止购买比可以使用的 PTU 更多的预留,请先创建部署,然后购买 Azure 预留,以覆盖你已部署的 PTU。 此最佳做法将确保你可以充分利用预留折扣,并防止购买你无法使用的期限套餐。

  • 购买预留的 Azure 角色和租户策略要求与创建部署或 Azure OpenAI 资源所需的要求不同。 在需要之前验证购买预留的授权。 有关更多详细信息,请参阅 Azure OpenAI 预配的预留文档

重要说明:调整 Azure OpenAI 预配和全局预配产品预留的大小

预留购买中的 PTU 数量与配额中分配的或部署中使用的 PTU 数量无关。 可以购买超出配额的 PTU 预留,或者可以为所需的区域、模型或版本进行部署。 过度购买预留的额度有限,客户必须采取措施,确保其预留大小符合已部署的 PTU。

最佳做法是在创建部署后始终购买预留。 这可以避免出现在购买预留后发现所需的容量不适用于所需的区域或模型的情况。

协助客户购买正确的预留数量。 Azure AI Studio 的“配额”页上列出了订阅和区域中可通过预留覆盖的 PTU 总数。 请参阅消息“可用于预留的 PTU。”

显示可用 PTU 配额的屏幕截图。

管理 Azure 预留

创建预留后,最佳做法是对其进行监视,以确保其达到预期的使用效果。 这可以通过 Azure 预留门户或 Azure Monitor 来完成。 关于这些主题和其他主题的详细信息可以在这里找到:

后续步骤