Model Serving の制限とリージョン

[アーティクル]
10/31/2024

この記事では、Mosaic AI Model Serving の制限および利用可能なリージョンと、サポートされるエンドポイントの種類についてまとめます。

制限事項

Mosaic AI Model Serving では、信頼性の高いパフォーマンスを確保するために既定の制限事項が適用されます。これらの制限事項についてフィードバックがある場合は、Databricks アカウントチームにお問い合わせください。

次の表は、モデル提供エンドポイントのリソースとペイロードの制限事項をまとめたものです。

機能	細分性	Limit
ペイロードのサイズ	要求ごと	16 MB。基礎モデルまたは外部モデルを提供するエンドポイントの場合、制限は 4 MB です。
秒間クエリ (QPS)	ワークスペースごと	200 QPS。 Databricks アカウントチームに連絡することにより、3000 以上に増やすことができます。
モデルの実行時間	要求ごと	120 秒
CPU エンドポイントモデルのメモリ使用量	エンドポイントあたり	4GB
GPU エンドポイントモデルのメモリ使用量	エンドポイントあたり	割り当てられた GPU メモリ以上 (GPU ワークロードのサイズによって異なります)
プロビジョニング済みコンカレンシー	モデルごとおよびワークスペースごと	200 個のコンカレンシー。あなたの Databricks アカウントに連絡することで増やすことができます。
オーバーヘッド待機時間	要求ごと	50 ミリ秒未満
Foundation Model API (トークンごとの支払い) のレート制限	ワークスペースごと	ユースケースに対して次の制限が不十分な場合は、プロビジョニングされたスループットを使用することをお勧めします。 - Llama 3.1 70B Instruct には、1 秒あたり 2 つのクエリと 1 時間あたり 1200 クエリの制限があります。 - Llama 3.1 405B Instruct には、1 秒あたり 1 クエリと 1 時間あたり 1200 クエリの制限があります。 - DBRX Instruct モデルには、1 秒あたり 1 クエリという制限があります。 - Mixtral-8x 7B Instruct の既定のレート制限は、1 秒あたり 2 クエリです。 - GTE Large (En) のレート制限は 1 秒あたり 150 クエリです - BGE Large (En) のレート制限は、1 秒あたり 600 クエリです。
Foundation Model API (プロビジョニングされたスループット) のレート制限	ワークスペースごと	上記の Model Serving QPS の制限と同じです。

Model Serving エンドポイントは、アクセス制御によって保護され、IP 許可リストや PrivateLink など、ワークスペース上に構成されたネットワーク関連のイングレスルールを尊重します。

その他の制限事項もあります。

ワークスペースはサポートされているリージョンにデプロイできますが、別のリージョンのコントロールプレーンによって提供できます。これらのワークスペースは Model Serving をサポートしていないため、ワークスペースがサポートされていないことを示すエラーメッセージが表示されます。詳細については、Azure Databricks アカウントチームにお問い合わせください。
Model Serving では、init スクリプトはサポートされていません。
既定では、Model Serving は外部エンドポイント (Azure OpenAI など) への Private Link をサポートしていません。この機能のサポートは、リージョンごとに評価され、実装されます。詳細については、Azure Databricks アカウントチームにお問い合わせください。

Foundation Model API の制限

Note

Foundation Model API の提供の一環として、Databricks がお客様のデータを元々のリージョンの外で処理する可能性はありますが、関連する地理的な場所の外でこれを行うことはありません。

Foundation Model API ワークロードに関連する制限を以下に示します。

プロビジョニングされたスループットは HIPAA コンプライアンスプロファイルをサポートしており、コンプライアンス認定を必要とするワークロードに使用する必要があります。
トークン単位の支払いのワークロードは、HIPAA やコンプライアンスセキュリティプロファイル準拠ではありません。
Foundation Model API エンドポイントでは、レート制限などのガバナンス設定を変更できるのはワークスペース管理者だけです。レート制限を変更するには、以下の手順を使用します。
1. ワークスペースで Serving UI を開き、提供エンドポイントを表示します。
2. 編集したい Foundation Model API エンドポイントのケバブメニューから、[詳細の表示] を選択します。
3. エンドポイントの詳細ページの右上にあるケバブメニューから、[レート制限の変更] を選択します。
プロビジョニングされたスループットのワークロードに DBRX モデルアーキテクチャを使用するには、提供エンドポイントが次のいずれかのリージョンに存在する必要があります。
- eastus
- eastus2
- westus
- centralus
- westeurope
- northeurope
- australiaeast
- canadacentral
- brazilsouth
GTE Large (En) および Meta Llama 3.1 70B Instruct モデルのみが、トークン単位の支払いをサポートしている EU と米国のリージョンで利用可能です。
次のトークン単位の支払いモデルは、トークン単位の支払いをサポートしている米国リージョンでのみサポートされます。
- Meta Llama 3.1 405B Instruct
- DBRX Instruct
- Mixtral-8x7B Instruct
- BGE Large (英語版)

利用可能なリージョン

Note

サポートされていないリージョンにエンドポイントが必要な場合は、Azure Databricks アカウントチームにお問い合わせください。

機能のリージョン可用性の詳細については、「リージョンの可用性に対応するモデル」を参照してください。

次の方法で共有

Model Serving の制限とリージョン

制限事項

Foundation Model API の制限

利用可能なリージョン

フィードバック

その他のリソース