你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Azure OpenAI 部署类型
Azure OpenAI 为客户提供了适合其业务和使用模式的托管结构选择。 该服务提供两种主要部署类型:标准和预配。 对于给定的部署类型,客户可以通过选择 Azure 地理(Standard
或 Provisioned
)、Microsoft指定的数据区域(DataZone-Standard
)或全局(Global-Standard
或 Global Provisioned-Managed
)处理选项,使其工作负载与其数据处理要求保持一致。
所有部署都可以执行完全相同的推理操作,但计费、规模和性能却大不相同。 作为解决方案设计的一部分,需要做出两个关键决策:
- 数据处理位置
- 调用量
对于标准部署,有三种部署类型选项可供选择 - 全局、数据区域和 Azure 地理位置。 对于预配部署,有两种部署类型选项可供选择 - 全局和 Azure 地理位置。 建议以全球标准为起点。
全球部署利用 Azure 的全球基础结构,将客户流量动态路由到可用性最好的数据中心,以满足客户的推理请求。 这意味着,你将获得全局最高的初始吞吐量限制和最佳模型可用性,同时仍提供运行时间 SLA 和低延迟。 对于标准层和全局标准上指定使用层以上的大容量工作负荷,可能会遇到延迟差异增加的情况。 对于在大型工作负荷使用量上需要较小的延迟差异的客户,我们建议利用预配的部署类型。
我们的全球部署将是所有新模型和功能的首发地。 根据呼叫量,具有大量和低延迟差异要求的客户应考虑我们的预配部署类型。
数据区域部署利用 Azure 的全球基础结构,将客户流量动态路由到 Microsoft 定义的数据区域中可用性最好的数据中心,以满足客户的推理请求。 数据区域部署位于 Azure 地理位置和全局部署产品/服务之间,提供提升的配额限制,同时在 Microsoft 指定数据区域中保留数据处理。 静态存储的数据将继续保留在 Azure OpenAI 资源的地理位置(例如,对于在瑞典中部 Azure 区域中创建的 Azure OpenAI 资源,Azure 地理为瑞典)。
如果数据区域部署中使用的 Azure OpenAI 资源位于美国,则数据将在美国进行处理。 如果数据区域部署中使用的 Azure OpenAI 资源位于欧盟成员国,则会在欧盟成员国家/地区内处理数据。 对于所有 Azure OpenAI 服务部署类型,静态存储的任何数据将继续保留在 Azure OpenAI 资源的地理位置中。 Azure 数据处理和合规性承诺仍然适用。
对于任何标记为“全球”的部署类型,可以在部署相关 Azure OpenAI 模型的任何地理位置处理提示和响应(详细了解模型的区域可用性)。 对于任何标记为“DataZone”的部署类型,可以在 Microsoft 定义的指定数据区域内的任何地理位置处理提示和响应。 如果在位于美国的 Azure OpenAI 资源中创建 DataZone 部署,则可以在美国境内的任何地方处理提示和响应。 如果在位于某个欧盟成员国的 Azure OpenAI 资源中创建 DataZone 部署,则可以在该欧盟成员国或任何其他欧盟成员国处理提示和响应。 不管是“全球”部署类型还是“DataZone”部署类型,任何静态存储的数据(例如上传的数据)都存储在客户指定的地理位置。 当客户在 Azure OpenAI 服务中使用“全球”部署类型或“DataZone”部署类型时,仅处理位置受影响;Azure 数据处理和合规性承诺仍然适用。
Azure OpenAI 提供三种类型的部署。 它们提供各种级别的功能,可在吞吐量、SLA 和价格方面进行权衡。 下面是选项的摘要,后跟每个选项的深入介绍。
产品/服务 | 全局-批处理 | 全球-标准 | Global-Provisioned | 标准 | 已预配 |
---|---|---|---|---|---|
最适用于 | 脱机评分 对延迟不敏感且可在数小时内完成的工作负载。 |
建议的客户起点。 全局-标准版将具有比标准版更高的默认配额和更多的可用模型。 |
适用于稳定大流量的实时评分。 包含最高的承诺使用量和限制。 | 针对有数据驻留需求的客户。 针对低到中等流量进行了优化。 | 适用于稳定大流量的实时评分。 包含最高的承诺使用量和限制。 针对有数据驻留要求的用例 |
工作原理 | 通过文件脱机处理 | 流量可以路由到世界上任何地方 | 流量可以路由到世界上任何地方 | ||
入门 | 全局-批处理 | 模型部署 | 预配加入 | 模型部署 | 预配加入 |
成本 | 成本最低的选项 与全局标准版价格相比,成本低了 50%。 有权访问配额分配较大的所有新模型。 |
全球部署定价 | 稳定使用可节省成本 | 区域定价 | 稳定使用可节省成本 |
提供的服务 | 与全局标准版相比有大幅折扣 | 轻松访问具有最高默认按调用付费限制的所有新模型。 使用量较高的客户可能会遇到更大的延迟变化 |
跨 Azure 全局基础结构访问高可预测吞吐量。 使用提供的容量计算器确定每个 PTU 的吞吐量。 | 有关可用性的 SLA。 针对低到中等流量、高突发性的工作负荷进行了优化。 具有稳定大流量的客户可能会遇到更大的延迟变化。 |
具有非常高且可预测的吞吐量的区域访问。 使用提供的容量计算器确定每个 PTU 的吞吐量 |
无法提供 | ❌实时调用性能 ❌数据处理保证 静态存储的数据仍保留在指定的 Azure 地理位置中,而数据可能会被处理,以便在任何 Azure OpenAI 位置进行推理。 详细了解数据驻留 |
❌数据处理保证 静态存储的数据仍保留在指定的 Azure 地理位置中,而数据可能会被处理,以便在任何 Azure OpenAI 位置进行推理。 详细了解数据驻留 |
❌按调用付费的灵活性 ❌数据处理保证 静态存储的数据仍保留在指定的 Azure 地理位置中,而数据可能会被处理,以便在任何 Azure OpenAI 位置进行推理。 详细了解数据驻留 |
❌高流量及稳定低延迟 | ❌按调用付费的灵活性 |
每次调用的延迟 | 不适用(基于文件的异步进程) | 针对实时调用和低到中等流量使用量进行了优化。 使用量较高的客户可能会遇到更大的延迟变化。 每个模型设置的阈值 | 针对实时调用和高流量使用量进行了优化。 | 针对实时调用和低到中等流量使用量进行了优化。 使用量较高的客户可能会遇到更大的延迟变化。 每个模型设置的阈值 | 针对实时调用和高流量使用量进行了优化。 |
代码中的 SKU 名称 | GlobalBatch |
GlobalStandard |
GlobalProvisionedManaged |
Standard |
ProvisionedManaged |
计费模式 | 按令牌付费 | 按令牌付费 | 按小时计费,可以选择购买每月或每年购买 | 按令牌付费 | 按小时计费,可以选择购买每月或每年购买 |
重要
静态存储的数据仍保留在指定的 Azure 地理位置中,而数据可能会被处理,以便在任何 Azure OpenAI 位置进行推理。 详细了解数据驻留。
全球部署可在与非全球部署类型相同的 Azure OpenAI 资源中使用,但前者允许利用 Azure 的全球基础结构将流量动态路由到可为每个请求提供最佳可用性的数据中心。 全球标准提供最高的默认配额,且无需跨多个资源进行负载均衡。
具有稳定大流量的客户可能会遇到更大的延迟变化。 为每个模型设置阈值。 有关详细信息,请参阅“配额”页。 对于在大型工作负载使用中需要较小的延迟差异的应用程序,我们建议购买预配的吞吐量。
重要
静态存储的数据仍保留在指定的 Azure 地理位置中,而数据可能会被处理,以便在任何 Azure OpenAI 位置进行推理。 详细了解数据驻留。
全球部署可在与非全球部署类型相同的 Azure OpenAI 资源中使用,但前者允许利用 Azure 的全球基础结构将流量动态路由到可为每个请求提供最佳可用性的数据中心。 全局预配部署使用 Azure 全局基础结构为高吞吐量和可预测的吞吐量提供预留模型处理容量。
重要
静态存储的数据仍保留在指定的 Azure 地理位置中,而数据可能会被处理,以便在任何 Azure OpenAI 位置进行推理。 详细了解数据驻留。
全局批处理的设计是为了高效处理大规模和大容量处理任务。 处理具有单独配额的异步请求组,目标周转时间为 24 小时,成本比全局标准低 50%。 使用批处理,你可以在单个文件中发送大量请求,而不是一次发送一个请求。 全局批处理请求具有单独的入队令牌配额,避免对你的在线工作负载造成任何中断。
关键用例包括:
大规模数据处理:并行快速分析广泛的数据集。
内容生成:创建大量文本,例如产品说明或文章。
文档审查和总结:自动执行对长篇文档的审查和总结。
客户支持自动化:同时处理大量查询,以提高响应速度。
数据提取和分析:从大量非结构化数据中提取和分析信息。
自然语言处理 (NLP) 任务:对大型数据集执行情绪分析或翻译等任务。
营销和个性化:大规模生成个性化内容和建议。
重要
静态存储的数据仍保留在指定的 Azure 地理位置中,而数据可能会被处理,以便在 Microsoft 指定数据区域中的任何 Azure OpenAI 位置进行推理。 详细了解数据驻留。
数据区域标准部署可在与非全球部署类型相同的 Azure OpenAI 资源中使用,但前者允许利用 Azure 的全球基础结构将流量动态路由到 Microsoft 定义的数据区域中的数据中心,并为每个请求提供最佳可用性。 数据区域标准提供的默认配额高于基于 Azure 地理的部署类型。
具有稳定大流量的客户可能会遇到更大的延迟变化。 为每个模型设置阈值。 有关详细信息,请参阅“配额和限制”页。 对于需要大量低延迟差异的工作负荷,我们建议利用预配的部署产品/服务。
标准部署针对所选模型提供按调用付费的计费模型。 提供最快速的入门方法,因为只需为使用的内容付费。 每个区域中可用的模型以及吞吐量可能很有限。
标准部署针对低到中等流量、高突发性的工作负荷进行优化。 具有稳定大流量的客户可能会遇到更大的延迟变化。
借助预配的部署,可以指定部署中需要的吞吐量。 然后该服务会分配必要的模型处理容量,并确保随时可用。 吞吐量是根据预配的吞吐量单位 (PTU) 定义的,是表示部署吞吐量的规范化方式。 每个模型版本对需要不同的 PTU 量来部署,并提供不同的每 PTU 吞吐量。 从我们的预配吞吐量概念文章中了解详细信息。
Azure Policy 可帮助实施组织标准并大规模评估合规性。 Azure Policy 通过其合规性仪表板提供一个聚合视图来评估环境的整体状态,并允许用户按资源、按策略粒度向下钻取。 它还通过对现有资源的批量修正以及对新资源的自动修正,帮助资源符合规范。 详细了解 Azure Policy 和 AI 服务的特定内置控件。
可以使用以下策略来禁用对 Azure OpenAI 全球标准部署的访问。 若要禁用对 Azure 全局预配或全局批处理部署的访问,请将 GlobalStandard
替换为预期 SKU 名称的 GlobalProvisionedManaged
或 GlobalBatch
。
{
"mode": "All",
"policyRule": {
"if": {
"allOf": [
{
"field": "type",
"equals": "Microsoft.CognitiveServices/accounts/deployments"
},
{
"field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
"equals": "GlobalStandard"
}
]
}
}
}
若要了解如何创建资源和部署模型,请参阅资源创建指南。