次の方法で共有


Azure OpenAI のデプロイの種類

Azure OpenAI では、お客様はビジネスと使用のパターンに合ったホスティング構造を選択できます。 このサービスで提供されるデプロイの 2 つの主要な種類は、標準プロビジョニング済みです。 標準にはグローバル デプロイ オプションが用意されており、トラフィックをグローバルにルーティングしてスループットを向上させます。 実行される推論操作はどのデプロイもまったく同じですが、課金、スケール、パフォーマンスは大きく異なります。 ソリューション設計の一環として、2 つの重要な決定を行う必要があります。

  • データ所在地のニーズ: グローバル リソースまたはリージョン リソース
  • 呼び出しボリューム: 標準またはプロビジョニング済み

グローバルとリージョンのデプロイの種類

標準デプロイの場合、リソース内でグローバルまたはリージョンの 2 種類の構成を選択できます。 グローバル標準は、開発と実験で初めて使用する場合に推奨されます。 グローバル デプロイでは、Azure のグローバル インフラストラクチャが利用され、お客様のトラフィックはお客様の推論要求に最適な可用性を持つデータ センターに動的にルーティングされます。 グローバル デプロイでは、初期スループットの制限は高くなりますが、待ち時間は高い使用レベルで異なる場合があります。 大規模なワークロードを使って変化の小さい待ち時間を必要とするお客様には、プロビジョニング済みスループットを購入することをお勧めします。

グローバル デプロイは、すべての新しいモデルと特徴の最初の場所になります。 非常に大きいスループットが必要なお客様は、プロビジョニングされたデプロイ オファリングを検討する必要があります。

デプロイのタイプ

Azure OpenAI には、3 種類のデプロイが用意されています。 これらで提供される異なるレベルの機能の間には、スループット、SLA、価格に関するトレードオフがあります。 オプションの概要と、それぞれの詳細な説明を次に示します。

サービス グローバル標準1 Standard プロビジョニング済み
最適な用途 データ所在地を必要としないアプリケーション。 お客様に推奨される出発点。 データ所在地の要件があるお客様向け。 中程度以下のボリューム用に最適化。 大きくて一貫したボリューム用のリアルタイム スコアリング。 最高のコミットメントと制限が含まれます。
動作のしくみ 世界中のどこにでもトラフィックをルーティングできます
作業の開始 モデル デプロイ モデル デプロイ プロビジョニング済みのオンボード
原価 ベースライン リージョンごとの価格 一貫した使用ではコストを節約できる可能性があります
取得内容 最も高い既定の呼び出し単位の支払い制限で、すべての新しいモデルに簡単にアクセスできます。

使用量が多いお客様は、待ち時間の変動が大きくなる可能性があります
可用性に関するSLA で簡単にアクセスできます。 バースト性が高い中程度以下のボリューム用に最適化。

一貫して使用量が多いお客様は、待ち時間の変動が大きくなる可能性があります。
非常に高く予測可能なスループットでのリージョン アクセス。 提供されている容量計算ツールを使用して PTU あたりのスループットを決定します
得られないもの ❌データ所在地の保証 ❌一貫した低遅延での高いボリューム ❌呼び出し単位の支払いの柔軟性
呼び出しごとの待ち時間 リアルタイムの呼び出しと、中程度以下の使用量に最適化。 使用量が多いお客様は、待ち時間の変動が大きくなる可能性があります。 モデルごとに設定されたしきい値 リアルタイムの呼び出しと、中程度以下の使用量に最適化。 使用量が多いお客様は、待ち時間の変動が大きくなる可能性があります。 モデルごとに設定されたしきい値 リアルタイム用に最適化。
コード内の SKU 名 GlobalStandard Standard ProvisionedManaged
課金モデル トークン単位の支払い トークン単位の支払い 月単位のコミットメント

1 グローバル標準デプロイの種類は現在プレビュー段階です。

プロビジョニング済み

プロビジョニング済みデプロイを使うと、デプロイで必要なスループットの量を指定できます。 その後、サービスは必要なモデル処理容量を割り当て、その準備が整っていることを確認します。 スループットは、デプロイのスループットを表す正規化された方法であるプロビジョニング スループット ユニット (PTU) という観点で定義されます。 各モデルバージョン ペアでは、デプロイして PTU ごとにさまざまな量のスループットを提供するために、さまざまな量の PTU が必要となります。 詳しくは、プロビジョニング済みスループットの概念に関する記事をご覧ください。

Standard

標準デプロイでは、選択されたモデルで呼び出し単位の支払いの課金モデルが提供されます。 消費した分だけ支払うので、最も早く使い始めることができます。 各リージョンで使用できるモデルとスループットは、制限される場合があります。

標準デプロイは、バースト性が高い中程度以下のボリューム用に最適化されています。 一貫して使用量が多いお客様は、待ち時間の変動が大きくなる可能性があります。

グローバル標準 (プレビュー)

Global デプロイは、非グローバル オファーと同じ Azure OpenAI リソースで利用できます。ただし、Azure のグローバル インフラストラクチャを利用して、トラフィックを要求ごとに最適な可用性のデータ センターに動的にルーティングできます。 グローバル標準では、新しいモデルに対して最大の既定クォータが提供され、複数のリソース間での負荷分散の必要がなくなります。

このデプロイの種類は、バースト性が高い中程度以下のボリューム用に最適化されています。 一貫して使用量が多いお客様は、待ち時間の変動が大きくなる可能性があります。 しきい値はモデルごとに設定されます。 詳しくはクォータに関するページを参照してください。

大規模なワークロードを使って変化の小さい待ち時間を必要とするお客様には、プロビジョニング済みスループットを購入することをお勧めします。

サブスクリプションでグローバル デプロイへのアクセスを無効にする方法

Azure Policy は、組織の標準を適用し、コンプライアンスを大規模に評価するのに役立ちます。 コンプライアンス ダッシュボードを通じて、環境の全体的な状態を評価するための集計ビューを提供します。これには、リソースごと、およびポリシーごとの粒度でドリルダウンできる機能が備わっています。 既存のリソースの一括修復と新しいリソースの自動修復を使用して、お客様のリソースでコンプライアンスを実現するのにも便利です。 AI サービスに関する Azure Policy と具体的な組み込みコントロールの詳細を参照してください

次のポリシーを使用して、Azure OpenAI のグローバル標準デプロイへのアクセスを無効にできます。

{
    "mode": "All",
    "policyRule": {
        "if": {
            "allOf": [
                {
                    "field": "type",
                    "equals": "Microsoft.CognitiveServices/accounts/deployments"
                },
                {
                    "field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
                    "equals": "GlobalStandard"
                }
            ]
        }
    }
}

モデルをデプロイする

3 種類のデプロイが強調されている、Azure OpenAI Studio のモデルのデプロイ ダイアログを示すスクリーンショット。

リソースの作成とモデルのデプロイについては、リソース作成ガイドに関する記事をご覧ください。

関連項目