模型服务限制和区域
本文总结了 Mosaic AI 模型服务的限制和区域可用性,以及支持的终结点类型。
资源和有效负载限制
Mosaic AI 模型服务施加了默认限制,以确保可靠的性能。 如果对这些限制有反馈,请联系 Databricks 帐户团队。
下表汇总了模型服务终结点的资源和有效负载限制。
功能 | 粒度 | 限制 |
---|---|---|
有效负载大小 | 每请求 | 16 MB。 对于为基础模型或外部模型提供服务的终结点,限制为 4 MB。 |
每秒查询次数 (QPS) | 每工作区 | 200,但可以通过联系 Databricks 帐户团队增加到 25,000 或更多。 |
模型执行持续时间 | 每请求 | 120 秒 |
CPU 终结点模型内存使用 | /终结点 | 4GB |
GPU 终结点模型内存使用 | /终结点 | 大于或等于分配的 GPU 内存,取决于 GPU 工作负载大小 |
预配的并发 | 每个模型和每个工作区 | 200 并发。 可以通过联系 Databricks 帐户团队来增加。 |
开销延迟 | 每请求 | 小于 50 毫秒 |
初始化脚本 | 不支持 init 脚本。 | |
基础模型 API(按令牌付费)费率限制 | 每工作区 | 如果以下限制不足以满足你的用例,Databricks 建议使用预配的吞吐量。 - Llama 3.1 70B Instruct 的每秒查询数限制为 2 个,每小时查询数限制为 1200 个。 - Llama 3.1 405B Instruct 的每秒查询数限制为 1 个,每小时查询数限制为 1200 个。 - DBRX Instruct 模型限制为每秒 1 个查询。 - Mixtral-8x 7B 指示的默认速率限制为每秒 2 个查询。 - GTE Large (En) 的速率限制为每秒 150 个查询 - BGE Large (En) 的速率限制为每秒 600 个查询。 |
基础模型 API(预配吞吐量)速率限制 | 每工作区 | 200 |
网络和安全限制
- 模型服务终结点受到访问控制保护,遵守工作区上配置的与网络相关的流入量规则,例如 IP 允许列表和专用链接。
- 专用连接(例如Azure 专用链接)仅支持使用预配吞吐量的终结点的模型服务终结点或提供自定义模型的终结点。
- 默认情况下,模型服务不支持指向外部终结点(例如 Azure OpenAI)的专用链接。 基于每个区域评估并实现对此功能的支持。 有关详细信息,请联系 Azure Databricks 帐户团队。
- 由于生产部署存在不稳定的风险,模型服务不提供现有模型映像的安全修补程序。 从新模型版本创建的新模型映像将包含最新的修补程序。 有关详细信息,请联系 Databricks 帐户团队。
基础模型 API 限制
注意
作为提供基础模型 API 的一部分,Databricks 可能会处理数据的来源区域以外的数据,但不在相关 地理位置之外。
对于按令牌付费和预配的吞吐量工作负荷:
- 只有工作区管理员可以更改治理设置,例如基础模型 API 终结点的速率限制。 若要更改速率限制,请执行以下步骤:
- 在工作区中打开服务 UI 以查看服务终结点。
- 在要编辑的基础模型 API 终结点的串形菜单中选择“查看详细信息”。
- 在终结点详细信息页右上角的串形菜单中,选择“更改速率限制”。
- GTE 大型 (En) 嵌入模型不生成规范化嵌入。
按令牌付费限制
以下是与基础模型 API 按令牌 付费工作负荷相关的限制:
- 按令牌付费工作负载不符合 HIPAA 和合规性安全配置文件。
- GTE 大型(En) 和 Meta Llama 3.1 70B 指示 模型在每令牌 欧盟和美国支持的区域中提供。
- 以下按令牌付费模型仅在基础模型 API 按令牌付费支持的美国区域可以使用:
- Meta Llama 3.1 405B 指示
- DBRX Instruct
- Mixtral-8x7B Instruct
- BGE 大型(英语)
预配的吞吐量限制
以下是与基础模型 API 预配的吞吐量 工作负荷相关的限制:
- 预配的吞吐量 支持 HIPAA 符合性配置文件,建议用于需要合规性认证的工作负荷。
- 若要将 DBRX 模型体系结构用于预配吞吐量工作负载,服务终结点必须位于以下区域之一:
eastus
eastus2
westus
centralus
westeurope
northeurope
australiaeast
canadacentral
brazilsouth
- 下表显示了受支持的 Meta Llama 3.1 和 3.2 模型的区域可用性。 有关如何部署优化模型的指导,请参阅 部署微调的基础模型 。
Meta Llama 模型变体 | 区域 |
---|---|
meta-llama/Llama-3.1-8B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.1-8B-Instruct | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.1-70B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.1-70B-Instruct | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.2-1B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.2-1B-Instruct | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.2-3B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.2-3B-Instruct | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
区域可用性
注意
如果需要在不受支持的区域中使用终结点,请联系 Azure Databricks 帐户团队。
如果工作区部署在支持模型服务但由 不受支持的区域中的控制平面 提供服务的区域,则工作区不支持模型服务。 如果尝试在此类工作区中使用模型服务,则会看到一条错误消息,指出不支持工作区。 有关详细信息,请联系 Azure Databricks 帐户团队。
有关功能的区域可用性的详细信息,请参阅模型服务区域可用性。