Model Serving の制限とリージョン
この記事では、Mosaic AI Model Serving の制限および利用可能なリージョンと、サポートされるエンドポイントの種類についてまとめます。
制限事項
Mosaic AI Model Serving では、信頼性の高いパフォーマンスを確保するために既定の制限事項が適用されます。 これらの制限事項についてフィードバックがある場合は、Databricks アカウント チームにお問い合わせください。
次の表は、モデル提供エンドポイントのリソースとペイロードの制限事項をまとめたものです。
機能 | 細分性 | Limit |
---|---|---|
ペイロードのサイズ | 要求ごと | 16 MB |
秒間クエリ (QPS) | ワークスペースごと | 200 ですが、あなたの Databricks アカウントに連絡することで 3000 以上に増やすことができます |
モデルの実行時間 | 要求ごと | 120 秒 |
CPU エンドポイント モデルのメモリ使用量 | エンドポイントあたり | 4GB |
GPU エンドポイント モデルのメモリ使用量 | エンドポイントあたり | 割り当てられた GPU メモリ以上 (GPU ワークロードのサイズによって異なります) |
プロビジョニング済みコンカレンシー | ワークスペースごと | 200 個のコンカレンシー。 あなたの Databricks アカウントに連絡することで増やすことができます。 |
オーバーヘッド待機時間 | 要求ごと | 50 ミリ秒未満 |
Foundation Model API (トークンごとの支払い) のレート制限 | ワークスペースごと | 次の制限を引き上げるには、Databricks アカウント チームにお問い合わせください。 * DBRX Instruct モデルには、1 秒あたり 1 クエリという制限があります。 * その他のチャットおよび入力候補のモデルには、1 秒あたり 2 クエリという既定のレート制限があります。 * 埋め込みモデルには、1 秒あたり 300 個の埋め込み入力という既定値があります。 |
Foundation Model API (プロビジョニングされたスループット) のレート制限 | ワークスペースごと | 上記の Model Serving QPS の制限と同じです。 |
Model Serving エンドポイントは、アクセス制御によって保護され、IP 許可リストや PrivateLink など、ワークスペース上に構成されたネットワーク関連のイングレス ルールを尊重します。
その他の制限事項もあります。
- ワークスペースはサポートされているリージョンにデプロイできますが、別のリージョンのコントロール プレーンによって提供できます。 これらのワークスペースは Model Serving をサポートしていないため、ワークスペースがサポートされていないことを示すエラー メッセージが表示されます。 詳細については、Azure Databricks アカウント チームにお問い合わせください。
- Model Serving では、init スクリプトはサポートされていません。
- 既定では、Model Serving は外部エンドポイント (Azure OpenAI など) への Private Link をサポートしていません。 この機能のサポートは、リージョンごとに評価され、実装されます。 詳細については、Azure Databricks アカウント チームにお問い合わせください。
Foundation Model API の制限
Note
Foundation Model API の提供の一環として、Databricks がお客様のデータを元々のリージョンの外で処理する可能性はありますが、関連する地理的な場所の外でこれを行うことはありません。
Foundation Model API ワークロードに関連する制限を以下に示します。
- プロビジョニングされたスループットは HIPAA コンプライアンス プロファイルをサポートしており、コンプライアンス認定を必要とするワークロードに使用する必要があります。 トークン単位の支払いのワークロードは、HIPAA やコンプライアンス セキュリティ プロファイル準拠ではありません。
- Foundation Model API エンドポイントでは、レート制限などのガバナンス設定を変更できるのはワークスペース管理者だけです。 レート制限を変更するには、以下の手順を使用します。
- ワークスペースで Serving UI を開き、提供エンドポイントを表示します。
- 編集したい Foundation Model API エンドポイントのケバブ メニューから、[詳細の表示] を選択します。
- エンドポイントの詳細ページの右上にあるケバブ メニューから、[レート制限の変更] を選択します。
- プロビジョニングされたスループットのワークロードに DBRX モデル アーキテクチャを使用するには、提供エンドポイントが次のいずれかのリージョンに存在する必要があります。
eastus
eastus2
westus
centralus
westeurope
northeurope
australiaeast
canadacentral
brazilsouth
利用可能なリージョン
Note
サポートされていないリージョンにエンドポイントが必要な場合は、Azure Databricks アカウントチームにお問い合わせください。
DBRX モデルを使用するプロビジョニングされたスループットのワークロードについては、「Foundation Model API の制限」を参照して利用可能なリージョンを確認してください。
リージョン | 場所 | Model Serving のコア機能 | Foundation Model API (プロビジョニングされたスループット) ** | Foundation Model API (トークンごとの支払い) | 外部モデル |
---|---|---|---|---|---|
australiacentral |
オーストラリア中部 | ||||
australiacentral2 |
オーストラリア中部 2 | ||||
australiaeast |
オーストラリア東部 | X | X | X | |
australiasoutheast |
オーストラリア南東部 | ||||
brazilsouth |
ブラジル南部 | X | X | X | |
canadacentral |
カナダ中部 | X | X | X | |
canadaeast |
カナダ東部 | ||||
centralindia |
インド中部 | X | X | X | |
centralus |
米国中部 | X | X | X | X |
chinaeast2 |
中国東部 2 | ||||
chinaeast3 |
China East 3 | ||||
chinanorth2 |
中国北部 2 | ||||
chinanorth3 |
China North 3 | ||||
eastasia |
東アジア | ||||
eastus |
米国東部 | X | X | X | X |
eastus2 |
米国東部 2 | X | X | X | X |
eastus2euap |
米国東部 2 EUAP | ||||
francecentral |
フランス中部 | ||||
germanywestcentral |
ドイツ中西部 | ||||
japaneast |
東日本 | ||||
japanwest |
西日本 | ||||
koreacentral |
韓国中部 | ||||
northcentralus |
米国中北部 | X | X | X | |
northeurope |
北ヨーロッパ | X | X | X | |
norwayeast |
ノルウェー東部 | ||||
qatarcentral |
カタール中部 | ||||
southafricanorth |
南アフリカ北部 | ||||
southcentralus |
米国中南部 | ||||
southeastasia |
東南アジア | X | X | ||
southindia |
インド南部 | ||||
swedencentral |
スウェーデン中部 | ||||
switzerlandnorth |
スイス北部 | ||||
switzerlandwest |
スイス西部 | ||||
uaenorth |
アラブ首長国連邦北部 | ||||
uksouth |
英国南部 | ||||
ukwest |
英国西部 | ||||
westcentralus |
米国中西部 | ||||
westeurope |
西ヨーロッパ | X | X | X | |
westindia |
インド西部 | ||||
westus |
米国西部 | X | X | X | X |
westus2 |
米国西部 2 | X | X | ||
westus3 |
米国西部 3 | X | x |
- CPU コンピューティングのみ
** GPU サポートを含む
フィードバック
https://aka.ms/ContentUserFeedback」を参照してください。
以下は間もなく提供いたします。2024 年を通じて、コンテンツのフィードバック メカニズムとして GitHub の issue を段階的に廃止し、新しいフィードバック システムに置き換えます。 詳細については、「フィードバックの送信と表示