Model Serving の制限とリージョン
この記事では、Mosaic AI Model Serving の制限および利用可能なリージョンと、サポートされるエンドポイントの種類についてまとめます。
制限事項
Mosaic AI Model Serving では、信頼性の高いパフォーマンスを確保するために既定の制限事項が適用されます。 これらの制限事項についてフィードバックがある場合は、Databricks アカウント チームにお問い合わせください。
次の表は、モデル提供エンドポイントのリソースとペイロードの制限事項をまとめたものです。
機能 | 細分性 | Limit |
---|---|---|
ペイロードのサイズ | 要求ごと | 16 MB。 基礎モデルまたは外部モデルを提供するエンドポイントの場合、制限は 4 MB です。 |
秒間クエリ (QPS) | ワークスペースごと | 200 QPS。 Databricks アカウント チームに連絡することにより、3000 以上に増やすことができます。 |
モデルの実行時間 | 要求ごと | 120 秒 |
CPU エンドポイント モデルのメモリ使用量 | エンドポイントあたり | 4GB |
GPU エンドポイント モデルのメモリ使用量 | エンドポイントあたり | 割り当てられた GPU メモリ以上 (GPU ワークロードのサイズによって異なります) |
プロビジョニング済みコンカレンシー | モデルごとおよびワークスペースごと | 200 個のコンカレンシー。 あなたの Databricks アカウントに連絡することで増やすことができます。 |
オーバーヘッド待機時間 | 要求ごと | 50 ミリ秒未満 |
Foundation Model API (トークンごとの支払い) のレート制限 | ワークスペースごと | ユース ケースに対して次の制限が不十分な場合は、プロビジョニングされたスループットを使用することをお勧めします。 - Llama 3.1 70B Instruct には、1 秒あたり 2 つのクエリと 1 時間あたり 1200 クエリの制限があります。 - Llama 3.1 405B Instruct には、1 秒あたり 1 クエリと 1 時間あたり 1200 クエリの制限があります。 - DBRX Instruct モデルには、1 秒あたり 1 クエリという制限があります。 - Mixtral-8x 7B Instruct の既定のレート制限は、1 秒あたり 2 クエリです。 - GTE Large (En) のレート制限は 1 秒あたり 150 クエリです - BGE Large (En) のレート制限は、1 秒あたり 600 クエリです。 |
Foundation Model API (プロビジョニングされたスループット) のレート制限 | ワークスペースごと | 上記の Model Serving QPS の制限と同じです。 |
Model Serving エンドポイントは、アクセス制御によって保護され、IP 許可リストや PrivateLink など、ワークスペース上に構成されたネットワーク関連のイングレス ルールを尊重します。
その他の制限事項もあります。
- ワークスペースはサポートされているリージョンにデプロイできますが、別のリージョンのコントロール プレーンによって提供できます。 これらのワークスペースは Model Serving をサポートしていないため、ワークスペースがサポートされていないことを示すエラー メッセージが表示されます。 詳細については、Azure Databricks アカウント チームにお問い合わせください。
- Model Serving では、init スクリプトはサポートされていません。
- 既定では、Model Serving は外部エンドポイント (Azure OpenAI など) への Private Link をサポートしていません。 この機能のサポートは、リージョンごとに評価され、実装されます。 詳細については、Azure Databricks アカウント チームにお問い合わせください。
Foundation Model API の制限
Note
Foundation Model API の提供の一環として、Databricks がお客様のデータを元々のリージョンの外で処理する可能性はありますが、関連する地理的な場所の外でこれを行うことはありません。
Foundation Model API ワークロードに関連する制限を以下に示します。
- プロビジョニングされたスループットは HIPAA コンプライアンス プロファイルをサポートしており、コンプライアンス認定を必要とするワークロードに使用する必要があります。
- トークン単位の支払いのワークロードは、HIPAA やコンプライアンス セキュリティ プロファイル準拠ではありません。
- Foundation Model API エンドポイントでは、レート制限などのガバナンス設定を変更できるのはワークスペース管理者だけです。 レート制限を変更するには、以下の手順を使用します。
- ワークスペースで Serving UI を開き、提供エンドポイントを表示します。
- 編集したい Foundation Model API エンドポイントのケバブ メニューから、[詳細の表示] を選択します。
- エンドポイントの詳細ページの右上にあるケバブ メニューから、[レート制限の変更] を選択します。
- プロビジョニングされたスループットのワークロードに DBRX モデル アーキテクチャを使用するには、提供エンドポイントが次のいずれかのリージョンに存在する必要があります。
eastus
eastus2
westus
centralus
westeurope
northeurope
australiaeast
canadacentral
brazilsouth
- GTE Large (En) および Meta Llama 3.1 70B Instruct モデルのみが、トークン単位の支払いをサポートしている EU と米国のリージョンで利用可能です。
- 次のトークン単位の支払いモデルは、トークン単位の支払いをサポートしている米国リージョンでのみサポートされます。
- Meta Llama 3.1 405B Instruct
- DBRX Instruct
- Mixtral-8x7B Instruct
- BGE Large (英語版)
利用可能なリージョン
Note
サポートされていないリージョンにエンドポイントが必要な場合は、Azure Databricks アカウントチームにお問い合わせください。
機能のリージョン可用性の詳細については、「リージョンの可用性に対応するモデル」を参照してください。