模型服務限制和區域

本文摘要說明馬賽克 AI 模型服務和支援的端點類型的限制和區域可用性。

限制

馬賽克 AI 模型服務會強制執行預設限制，以確保可靠的效能。如果您有這些限制的意見反應，請連絡您的 Databricks 帳戶小組。

下表摘要說明服務端點模型的資源和承載限制。

功能	細微性	限制
承載大小	依據要求	16 MB。對於服務基礎模型或外部模型的端點，限制為4 MB。
每秒查詢數（QPS）	每個工作區	200 QPS。您可以連絡 Databricks 帳戶小組，以增加到 3000 或更多。
模型執行持續時間	依據要求	120 秒
CPU 端點模型記憶體使用量	每個端點	4GB
GPU 端點模型記憶體使用量	每個端點	大於或等於指派的 GPU 記憶體，取決於 GPU 工作負載大小
已布建的並行存取	每個工作區	200 並行。您可以透過連絡您的 Databricks 帳戶來增加。
額外負荷延遲	依據要求	小於 50 毫秒
基礎模型 API （按令牌付費）費率限制	每個工作區	請連絡您的 Databricks 帳戶小組，以增加下列限制。 * DBRX 指示模型每秒有 1 個查詢的限制。 * 其他聊天和完成模型的預設速率限製為每秒 2 個查詢。 * 內嵌模型每秒有預設 300 個內嵌輸入。
基礎模型 API（布建輸送量）速率限制	每個工作區	與上面所列的模型服務 QPS 限制相同。

模型服務端點受到訪問控制的保護，並遵守工作區上設定的網路相關輸入規則，例如IP允許清單和 Private Link。

其他限制也存在：

工作區可以部署在支持的區域中，但可由不同區域中的控制平面提供服務。這些工作區不支援模型服務，併產生錯誤訊息，指出您的工作區不受支援。如需詳細資訊，請連絡您的 Azure Databricks 帳戶小組。
模型服務不支援 init 腳本。
根據預設，模型服務不支援外部端點的私人連結（例如 Azure OpenAI）。這項功能的支援會根據每個區域進行評估和實作。如需詳細資訊，請連絡您的 Azure Databricks 帳戶小組。

注意

作為提供基礎模型 API 的一部分，Databricks 可能會處理數據來源區域以外的數據，但不在相關地理位置之外。

以下是與基礎模型 API 工作負載相關的限制：

布建的輸送量 支援 HIPAA 合規性配置檔，而且應該用於需要合規性認證的工作負載。
按令牌 付費工作負載 不符合 HIPAA 或合規性安全性配置文件規範。
針對基礎模型 API 端點，只有工作區管理員可以變更治理設定，例如速率限制。若要變更速率限制，請使用下列步驟：
1. 開啟工作區中的 [服務 UI] 以查看您的服務端點。
2. 從您要編輯的基礎模型 API 端點的 Kebab 選單中，選取 [ 檢視詳細數據]。
3. 從端點詳細數據頁面右上角的Kebab功能表中，選取 [ 變更速率限制]。
若要針對 布建的輸送量 工作負載使用 DBRX 模型架構，您的服務端點必須位於下列其中一個區域：
- eastus
- eastus2
- westus
- centralus
- westeurope
- northeurope
- australiaeast
- canadacentral
- brazilsouth
只有 GTE Large （En） 和 Meta Llama 3.1 70B 指示模型可在每個令牌歐盟和美國支援的區域中使用。
只有基礎模型 API 支援每個令牌付費區域才支援下列按令牌付費模型模型：
- Meta Llama 3.1 405B 指示
- DBRX 指示
- Mixtral-8x7B 指示
- BGE 大型（En）
- Llama 2 70B Chat

注意

如果您需要位於不支持區域中的端點，請連絡您的 Azure Databricks 帳戶小組。

如需功能區域可用性的詳細資訊，請參閱提供區域可用性的模型。