次の方法で共有


Model Serving の制限とリージョン

この記事では、Mosaic AI Model Serving の制限および利用可能なリージョンと、サポートされるエンドポイントの種類についてまとめます。

制限事項

Mosaic AI Model Serving では、信頼性の高いパフォーマンスを確保するために既定の制限事項が適用されます。 これらの制限事項についてフィードバックがある場合は、Databricks アカウント チームにお問い合わせください。

次の表は、モデル提供エンドポイントのリソースとペイロードの制限事項をまとめたものです。

機能 細分性 Limit
ペイロードのサイズ 要求ごと 16 MB
秒間クエリ (QPS) ワークスペースごと 200 ですが、あなたの Databricks アカウントに連絡することで 3000 以上に増やすことができます
モデルの実行時間 要求ごと 120 秒
CPU エンドポイント モデルのメモリ使用量 エンドポイントあたり 4GB
GPU エンドポイント モデルのメモリ使用量 エンドポイントあたり 割り当てられた GPU メモリ以上 (GPU ワークロードのサイズによって異なります)
プロビジョニング済みコンカレンシー ワークスペースごと 200 個のコンカレンシー。 あなたの Databricks アカウントに連絡することで増やすことができます。
オーバーヘッド待機時間 要求ごと 50 ミリ秒未満
Foundation Model API (トークンごとの支払い) のレート制限 ワークスペースごと 次の制限を引き上げるには、Databricks アカウント チームにお問い合わせください。

* DBRX Instruct モデルには、1 秒あたり 1 クエリという制限があります。
* その他のチャットおよび入力候補のモデルには、1 秒あたり 2 クエリという既定のレート制限があります。
* 埋め込みモデルには、1 秒あたり 300 個の埋め込み入力という既定値があります。
Foundation Model API (プロビジョニングされたスループット) のレート制限 ワークスペースごと 上記の Model Serving QPS の制限と同じです。

Model Serving エンドポイントは、アクセス制御によって保護され、IP 許可リストや PrivateLink など、ワークスペース上に構成されたネットワーク関連のイングレス ルールを尊重します。

その他の制限事項もあります。

  • ワークスペースはサポートされているリージョンにデプロイできますが、別のリージョンのコントロール プレーンによって提供できます。 これらのワークスペースは Model Serving をサポートしていないため、ワークスペースがサポートされていないことを示すエラー メッセージが表示されます。 詳細については、Azure Databricks アカウント チームにお問い合わせください。
  • Model Serving では、init スクリプトはサポートされていません。
  • 既定では、Model Serving は外部エンドポイント (Azure OpenAI など) への Private Link をサポートしていません。 この機能のサポートは、リージョンごとに評価され、実装されます。 詳細については、Azure Databricks アカウント チームにお問い合わせください。

Foundation Model API の制限

Note

Foundation Model API の提供の一環として、Databricks がお客様のデータを元々のリージョンの外で処理する可能性はありますが、関連する地理的な場所の外でこれを行うことはありません。

Foundation Model API ワークロードに関連する制限を以下に示します。

  • プロビジョニングされたスループットは HIPAA コンプライアンス プロファイルをサポートしており、コンプライアンス認定を必要とするワークロードに使用する必要があります。 トークン単位の支払いのワークロードは、HIPAA やコンプライアンス セキュリティ プロファイル準拠ではありません
  • Foundation Model API エンドポイントでは、レート制限などのガバナンス設定を変更できるのはワークスペース管理者だけです。 レート制限を変更するには、以下の手順を使用します。
    1. ワークスペースで Serving UI を開き、提供エンドポイントを表示します。
    2. 編集したい Foundation Model API エンドポイントのケバブ メニューから、[詳細の表示] を選択します。
    3. エンドポイントの詳細ページの右上にあるケバブ メニューから、[レート制限の変更] を選択します。
  • プロビジョニングされたスループットのワークロードに DBRX モデル アーキテクチャを使用するには、提供エンドポイントが次のいずれかのリージョンに存在する必要があります。
    • eastus
    • eastus2
    • westus
    • centralus
    • westeurope
    • northeurope
    • australiaeast
    • canadacentral
    • brazilsouth

利用可能なリージョン

Note

サポートされていないリージョンにエンドポイントが必要な場合は、Azure Databricks アカウントチームにお問い合わせください。

DBRX モデルを使用するプロビジョニングされたスループットのワークロードについては、「Foundation Model API の制限」を参照して利用可能なリージョンを確認してください。

リージョン 場所 Model Serving のコア機能 Foundation Model API (プロビジョニングされたスループット) ** Foundation Model API (トークンごとの支払い) 外部モデル
australiacentral オーストラリア中部
australiacentral2 オーストラリア中部 2
australiaeast オーストラリア東部 X X X
australiasoutheast オーストラリア南東部
brazilsouth ブラジル南部 X X X
canadacentral カナダ中部 X X X
canadaeast カナダ東部
centralindia インド中部 X X X
centralus 米国中部 X X X X
chinaeast2 中国東部 2
chinaeast3 China East 3
chinanorth2 中国北部 2
chinanorth3 China North 3
eastasia 東アジア
eastus 米国東部 X X X X
eastus2 米国東部 2 X X X X
eastus2euap 米国東部 2 EUAP
francecentral フランス中部
germanywestcentral ドイツ中西部
japaneast 東日本
japanwest 西日本
koreacentral 韓国中部
northcentralus 米国中北部 X X X
northeurope 北ヨーロッパ X X X
norwayeast ノルウェー東部
qatarcentral カタール中部
southafricanorth 南アフリカ北部
southcentralus 米国中南部
southeastasia 東南アジア X X
southindia インド南部
swedencentral スウェーデン中部
switzerlandnorth スイス北部
switzerlandwest スイス西部
uaenorth アラブ首長国連邦北部
uksouth 英国南部
ukwest 英国西部
westcentralus 米国中西部
westeurope 西ヨーロッパ X X X
westindia インド西部
westus 米国西部 X X X X
westus2 米国西部 2 X X
westus3 米国西部 3 X x
  • CPU コンピューティングのみ

** GPU サポートを含む