プロビジョニング スループット ユニットのオンボード

この記事では、プロビジョニング スループット ユニット (PTU) にオンボードするプロセスについて説明します。 最初のオンボードを完了したら、PTU の概要ガイドを参照することをお勧めします。

Note

プロビジョニングされたスループット ユニット (PTU) は、Azure OpenAI の標準クォータとは異なり、既定では利用できません。 このオファリングの詳細については、Microsoft アカウント チームにお問い合わせください。

プロビジョニングされたスループット ユニット (PTU) を使用する場合

明確に定義され、予測可能なスループット要件がある場合は、従量課金制からプロビジョニングされたスループットへの切り替えを検討する必要があります。 通常、これは、アプリケーションが本格運用するための準備ができている場合、または運用環境に既にデプロイされていて、予想されるトラフィックを理解している場合に発生します。 これにより、ユーザーは必要な容量を正確に予測し、予想外の課金を回避できます。

一般的な PTU シナリオ

  • 本格運用するための準備ができている、または実稼働中のアプリケーション。
  • アプリケーションには、予測可能な容量/使用量の想定があります。
  • アプリケーションには、リアルタイム/待機時間に機微な要件があります。

Note

関数呼び出しとエージェントのユース ケースでは、トークンの使用法が変わる可能性があります。 ワークロードを PTU に移行する前に、予想される 1 分あたりのトークン数 (TPM) の使用について詳しく理解しておく必要があります。

サイズ設定と見積もり: プロビジョニング マネージドのみ

ワークロードに必要なプロビジョニング スループット (PTU) の適切な量を決定することは、パフォーマンスとコストを最適化するために不可欠な手順です。 このセクションでは、Azure OpenAI 容量計画ツールの使用方法について説明します。 このツールを使うと、ワークロードのニーズを満たすために必要な PTU の見積もりがわかります。

プロビジョニング スループットとコストを見積もる

ワークロードの見積もりを簡単に取得するには、Azure OpenAI Studio で Capacity Planner を開きます。 Capacity Planner は、[管理]>[クォータ]>[準備済み] の下にあります。

[準備済み] オプションと Capacity Planner は、特定のリージョンの場合にのみ、[クォータ] ペイン内で使用できます。このオプション設定が表示されない場合、クォータのリージョンを [スウェーデン中部] に設定すると、このオプションを使用できるようになります。 ワークロードに基づいて次のパラメーターを入力します。

入力 説明
モデル 使う予定の OpenAI モデル。 例: GPT-4
バージョン 使う予定のモデルのバージョン (例: 0614)
プロンプト トークン 各呼び出しのプロンプト内のトークン数
世代トークン 各呼び出しに対してモデルによって生成されたトークン数
1 分あたりのピーク呼び出し数 1 分あたりの呼び出し数で測定されたエンドポイントに対するピーク同時負荷

必要な詳細を入力してから [計算] を選ぶと、シナリオに推奨される PTU が表示されます。

Azure OpenAI Studio のランディング ページのスクリーンショット。

Note

Capacity Planner は、単純な入力条件に基づいた見積もりです。 容量を判断する最も正確な方法は、実際のユース ケースを代表するワークロードを使ってデプロイをベンチマークすることです。

プロビジョニング スループットの購入モデルの概要

使用量に基づいて課金される Azure サービスとは異なり、Azure OpenAI プロビジョニング スループット機能は、更新可能な毎月のコミットメントとして購入します。 このコミットメントは、サブスクリプションの作成時と毎月の更新時に課金されます。 プロビジョニング スループットにオンボードするときは、プロビジョニングされたデプロイを作成する予定の各 Azure OpenAI リソースに対してコミットメントを作成する必要があります。 この方法で購入した PTU は、それらのリソース上でデプロイを作成するときに使用できます。

コミットメントを介して購入できる PTU の合計数は、サブスクリプションに割り当てられているプロビジョニング スループット クォータ量までに制限されます。 次の表では、プロビジョニング スループット クォータ (PTU) とプロビジョニング スループット コミットメントのその他の特性を比較しています。

トピック 売上予算 確約
目的 プロビジョニングされたデプロイを作成するアクセス許可を付与し、使用できる容量の上限を指定します プロビジョニング スループット容量の購入手段
有効期間 クォータは、付与されてから 5 日以内にコミットメントによって購入されなかった場合、サブスクリプションから削除される可能性があります 最短期間は 1 か月であり、自動更新動作はお客様が選択できます。 コミットメントは取り消すことができず、アクティブな間は新しいリソースに移動できません
範囲 クォータはサブスクリプションとリージョンに固有であり、すべての Azure OpenAI リソースで共有されます コミットメントは Azure OpenAI リソースの属性であり、そのリソース内のデプロイにスコープが設定されます。 サブスクリプションには、リソースと同じ数のアクティブなコミットメントが含まれる場合があります。
細分性 クォータはモデル ファミリ (GPT-4 など) に固有に付与されますが、そのファミリ内の複数のモデル バージョンで共有できます コミットメントはモデルやバージョンに固有ではありません。 たとえば、リソースの 1000 PTU コミットメントは、GPT-4 と GPT-35-Turbo の両方のデプロイをカバーできます
容量保証 クォータがあっても、デプロイの作成時に容量を使用できることが保証されるわけではありません コミットメントがアクティブである限り、コミットされた PTU をカバーする容量の可用性が保証されます。
増減 新しいクォータは、コミットメントの更新日に関係なく、いつでも要求および承認できます コミットメントでカバーされる PTU 数を増やすことはいつでもできますが、減らすことは更新時に限定されます。

クォータとコミットメントは連携して、サブスクリプション内のデプロイの作成を管理します。 プロビジョニングされたデプロイを作成するには、次の 2 つの条件を満たす必要があります。

  • 目的のリージョンとサブスクリプション内で、目的のモデルに対してクォータを使用できる必要があります。 つまり、モデルのサブスクリプションとリージョン全体の制限を超えることはできません。
  • コミットされた PTU は、デプロイを作成するリソース上で使用できる必要があります (デプロイに割り当てる容量は有料です)。

コミットメントのプロパティと課金モデル

コミットメントにはいくつかのプロパティがあります。

プロパティ 説明 設定時
Azure OpenAI リソース コミットメントをホストしているリソース コミットメントの作成
コミットされた PTU コミットメントでカバーされる PTU 数。 最初はコミットメントの作成時に設定します。増やすことはいつでもできますが、減らすことはできません。
用語 コミットメントの期間。 コミットメントの有効期限は、作成日から 1 か月です。 更新ポリシーには、次に何が起こるかを定義します。 コミットメントの作成
有効期限 コミットメントの有効期限。 この有効期限は UTC の午前 0 時です。 最初は作成から 30 日。 ただし、コミットメントが更新されると、有効期限は変わります。
更新に関するポリシー 有効期限が切れる場合の処理には、次の 3 つのオプションがあります。

- 自動更新: 現在の PTU 数で新しいコミットメント期間 (さらに 30 日間) が始まります
- 異なる設定の自動更新: この設定は、更新時にコミットされる PTU 数を減らすことができる点を除き、[自動更新] と同じです
- 自動更新しない: 有効期限が切れると、コミットメントは終了し、更新されません。
最初はコミットメントの作成時に設定され、いつでも変更できます。

コミットメント チャージ

プロビジョニング スループット コミットメントでは、次の時点で Azure サブスクリプションに対して課金されます。

  • コミットメントの作成時。 料金は、現在の月次 PTU レートとコミットされた PTU 数に従って計算されます。 請求書には 1 回の前払い料金が記載されます。

  • コミットメントの更新時。 更新ポリシーが自動更新に設定されている場合、新しい期間にコミットされた PTU に基づいて新しい月額料金が生成されます。 この料金は、請求書に単一の前払い料金として表示されます。

  • 新しい PTU が既存のコミットメントに追加されたとき。 料金は、コミットメントに追加された PTU 数に基づいて計算され、既存のコミットメント期間の終了まで時間単位で按分計算されます。 たとえば、期間のちょうど半分で 900 PTU の既存のコミットメントに 300 PTU が追加された場合、追加時に 150 PTU 相当の料金が発生します (300 PTU はコミットメントの有効期限まで按分計算されます)。 コミットメントが更新された場合、翌月の料金は新しい PTU の合計 1,200 PTU に対してかかります。

リソース内にデプロイされた PTU 数がリソースのコミットメントでカバーされている限り、コミットメントの料金のみが表示されます。 ただし、リソース内にデプロイされた PTU 数がリソースのコミットされた PTU よりも多くなった場合、超過した PTU には時間単位の料金で超過料金として課金されます。 通常、この超過が発生するのは、リソースにデプロイが含まれている間にコミットメントが期限切れになるか、更新時に削減された場合のみです。 たとえば、300 PTU がデプロイされているリソースで 300 PTU コミットメントが期限切れになると、デプロイされた PTU はどのコミットメントでもカバーされなくなります。 有効期限に達すると、300 の超過 PTU に基づいて時間単位の超過料金がサブスクリプションに課金されます。

時間単位の料金は月単位のコミットメント料金よりも高く、料金は数日以内で月単位の料金を超えます。 時間単位の超過料金を終了するには、2 つの方法があります。

  • コミットされた PTU を超えて使わないように、デプロイを削除またはスケールダウンします。
  • デプロイされた PTU をカバーするリソースに新しいコミットメントを作成します。

コミットメントの購入と管理

コミットメントの計画

プロビジョニング スループット ユニット (PTU) クォータがサブスクリプションに割り当てられているという確認を受け取ったら、ターゲット リソース上にコミットメントを作成 (または既存のコミットメントを拡張) して、クォータをデプロイに使用できるようにする必要があります。

コミットメントを作成する前に、プロビジョニングされたデプロイをどのように使うか、どの Azure OpenAI リソースでそれをホストするかを計画します。 コミットメントの最短期間は 1 か月であり、この期間が終了するまでサイズを減らすことはできません。 また、作成後に新しいリソースに移動することもできません。 最後に、コミットされた PTU の合計がクォータを超えることはできません。リソースにコミットされた PTU は、コミットメントが期限切れになるまで、別のリソースにコミットできなくなります。 プロビジョニングされたデプロイに使われるリソースと、それらに (少なくとも 1 か月間) 適用する予定の容量について明確な計画を立てると、プロビジョニング スループットのセットアップで最適なエクスペリエンスを確保するのに役立ちます。

次に例を示します。

  • 検証目的で 一時的な リソースにコミットメントとデプロイを作成しないでください。 少なくとも 1 か月間はそのリソースを使うことになります。 そうではなく、最終的に運用環境リソースで PTU を使う予定の場合は、最初からそのリソースでコミットメントを作成し、デプロイをテストします。

  • 作成する予定のデプロイの数、モデル、サイズに基づいて、リソースでコミットする PTU 数を計算します。その際に、各モデルがデプロイを作成するために必要な PTU の最小数を念頭に置きます。

    • 例 1: GPT-4-32K をデプロイするには、少なくとも 200 PTU が必要です。 リソースに 100 PTU のみのコミットメントを作成した場合、そこに GPT-4-32K をデプロイするのに十分なコミット済み PTU はありません

    • 例 2: リソースに複数のデプロイを作成する必要がある場合は、各デプロイに必要な PTU を合計します。 GPT-4 の 300 PTU と GPT-4-32K の 500 PTU のデプロイをホストする運用環境リソースの場合、両方のデプロイをカバーするには、少なくとも 800 PTU のコミットメントが必要です。

  • 必要に応じて、PTU を分散または統合します。 たとえば、合計 1000 PTU のクォータは、デプロイをサポートするために必要に応じて複数のリソースに分散できます。 コミットされた PTU の合計数が 1000 のクォータ以下に収まる限り、1 つ以上のデプロイをサポートするために最大 1000 PTU を追加して 1 つのリソースにコミットすることや、複数のリソース (たとえば、開発リソースと運用環境リソース) に分散することができます。

  • 運用上の要件を考慮して計画を立ててください。 次に例を示します。

    • 組織で必要なリソースの名前付け規則
    • リージョンごとにモデルの複数のデプロイ (おそらく異なる Azure OpenAI リソース上) を必要とするビジネス継続性ポリシー

プロビジョニング スループット コミットメントの管理

プロビジョニングされたスループット コミットメントは、Azure OpenAI Studio の [コミットメントの管理] ビューから作成および管理されます。 このビューに移動するには、[クォータ] ウィンドウから [コミットメントの管理] を選択します。

通知を含むコミットメント購入の UI のスクリーンショット。

[コミットメントの管理] ビューでは、いくつかの操作を実行できます。

  • 新しいコミットメントを購入するか、既存のコミットメントを編集します。
  • サブスクリプション内のすべてのコミットメントを監視します。
  • 予期しない課金を引き起こす可能性のあるコミットメントを特定し、アクションを実行します。

以下のセクションでは、これらのタスクについて説明します。

プロビジョニング スループット コミットメントの購入

コミットメント計画の準備ができたら、次の手順はコミットメントを作成することです。 コミットメントは Azure OpenAI Studio を使って手動で作成します。コミットメントを作成するユーザーには、サブスクリプション レベルで共同作成者または Cognitive Services 共同作成者のロールが必要です。

作成する必要がある新しいコミットメントごとに、以下の手順を実行します。

  1. [クォータ]>[準備済み]>[コミットメントの管理] を選び、[プロビジョニング スループットの購入] ダイアログを起動します。

購入ダイアログのスクリーンショット。

  1. [コミットメントの購入] を選択します。

  2. Azure OpenAI リソースを選び、コミットメントを購入します。 リソースは、編集できるコミットメントが既に存在するリソースと、現在コミットメントがないリソースに分けられて表示されます。

設定 メモ
リソースの選択 プロビジョニングされたデプロイを作成するリソースを選びます。 コミットメントを購入すると、現在のコミットメントが期限切れになるまで、別のリソースで PTU を使用できなくなります。
コミットメント期間を選択します [プロビジョニング済み] を選択します。 (プロビジョニング済みは、プロビジョニング済みマネージドと同義です)
現在コミットされていないプロビジョニング済みクォータ このリソースにコミットするために現在使用できる PTU の数。
コミットする量 (PTU) コミットする PTU 数を選びます。 コミットメント期間中にこの数を増やすことができますが、減らすことはできません。 コミットメントタイプ "プロビジョニング済み" の場合、50 の増分で値を入力します。
現在の期間のコミットメント レベル コミットメント期間は 1 か月に設定されます。
更新設定 現在の PTU での自動更新
下位の PTU での自動更新
自動更新しない
  1. [購入] を選択します。 確認ダイアログが表示されます。 確認すると、PTU がコミットされ、それらを使ってプロビジョニングされたデプロイを作成できるようになります。 |

コミットメント購入の UI のスクリーンショット。

重要

新しいコミットメントは、期間全体に対して事前に課金されます。 更新の設定が自動更新に設定されている場合、更新日のたびに更新の設定に基づいて再度請求されます。

既存のプロビジョニング スループット コミットメントの編集

[コミットメントの管理] ビューから、既存のコミットメントを編集することもできます。 既存のコミットメントに対して行える変更には次の 2 つの種類があります。

  • コミットメントに PTU を追加できます。
  • 更新設定を変更できます。

コミットメントを編集するには、編集する現在のコミットメントを選択し、[コミットメントの編集] を選択します。

既存のコミットメントへのプロビジョニング スループット ユニットの追加

既存のコミットメントに PTU を追加すると、リソース内に多数のデプロイを作成できます。 コミットメントの期間中いつでもこれを行うことができます。

コミット値の量が増加したコミットメント購入の UI のスクリーンショット。

重要

コミットメントに PTU を追加すると、現在の日付から既存のコミットメント期間の終了日までの期間分に応じて即時請求されます。 PTU を追加しても、コミットメント期間はリセットされません。

更新設定の変更

コミットメントの更新設定は、コミットメントの有効期限前ならいつでも変更できます。 更新設定を変更する理由には、コミットメントを自動更新しないように設定してプロビジョニングされたスループットの使用を終了することや、次の期間にコミットされるPTU数を減らしてプロビジョニングされたスループットの使用量を減らすことなどがあります。

重要

コミットメントを期限切れにしてしまうか、リソースのコミットメントよりも多い PTU をリソースのデプロイが必要とするほどサイズを小さくしてしまった場合、余分な PTU に対して時間単位の超過料金が発生します。 たとえば、デプロイの合計が 500 PTU でコミットメントが 300 PTUのリソースの場合、200 PTU に対して時間単位の超過料金が発生します。

コミットメントを監視し、予期しない課金を防ぐ

[コミットメントの管理] ウィンドウには、特定の Azure サブスクリプション内のコミットメントと PTU 使用量を含むすべてのリソースのサブスクリプション全体の概要を表示されます。 特に重要な点は次のとおりです。

  • PTU Committed、Deployed、Usage – これらの数値は、コミットメントのサイズと、デプロイで使用されている量を示します。 コミットされたすべての PTU を使用して、投資を最大化します。
  • 有効期限ポリシーと日付 - 有効期限とポリシーは、コミットメントの期限が切れる時期と、その場合に発生することを示します。 自動更新に設定されたコミットメントは、更新日に課金イベントを生成します。 期限切れのコミットメントの場合、期限切れ日より前にこれらのリソースからデプロイを削除して、時間単位の超過請求を防ぐ必要があります。コミットメントの現在の更新設定。
  • 通知 - 未使用のコミットメントや、課金超過を招く可能性のある構成など、重要な条件に関するアラート。 請求超過は、コミットメントの期限が切れ、デプロイがまだ存在しているが、時間単位の課金に移行したなどの状況で発生する可能性があります。

コミットメント管理の一般的なシナリオ

プロビジョニング スループットの使用を終了する

現在のコミットメントの期限切れ後にプロビジョニングされたスループットの使用を終了し、期限切れ後の時間超過料金を防ぐには、次の 2 つのステップが必要です。

  1. すべてのコミットメントの更新ポリシーを [自動更新しない] に設定します。
  2. クォータを使って、プロビジョニングされたデプロイを削除します。

コミットメントまたはデプロイを同じサブスクリプションまたはリージョン内の新しいリソースに移動する

Azure OpenAI Studio では、デプロイやコミットメントを新しいリソースに直接 "移動" することはできません。 代わりに、ターゲット リソース上に新しいデプロイを作成し、トラフィックをそこに移動する必要があります。 これを実現するには、新しいリソースに対して購入したコミットメントが必要です。 コミットメントは、30 日間分、前払いで課金されるため、新しいコミットメントとの重複と、重複期間中の "二重課金" を最小限に抑えるために、この移行のタイミングを元のコミットメントの期限切れに合わせる必要があります。

この移行を実装するには 2 つのアプローチがあります。

オプション 1: オーバーラップなしの切り替え

このオプションの場合、ある程度のダウンタイムが必要ですが、追加のクォータは必要なく、追加のコストも発生しません。

手順 メモ
既存のコミットメントの更新ポリシーを期限切れに設定します こうすることで、コミットメントの更新とさらなる課金を防ぐことができます
既存のコミットメントが期限切れになる前に、そのデプロイを削除します ダウンタイムはこの時点から始まり、新しいデプロイが作成され、トラフィックが移動されるまで続きます。 有効期限の日時にできるだけ近いタイミングで削除することで、この期間を最小限に抑えることができます。
既存のコミットメントが期限切れになったら、新しいリソースにコミットメントを作成します 有効期限が切れた後すぐにこの手順と以下の手順を実行して、ダウンタイムを最小限に抑えます。
新しいリソース上にデプロイを作成し、そこにトラフィックを移動します

オプション 2: 重複する切り替え

このオプションでは、既存のデプロイと新しいデプロイの両方が同時に稼働するため、ダウンタイムは発生しません。 これには、新しいデプロイを作成するために使用できるクォータが必要であり、重複するデプロイの期間中に追加のコストが発生します。

手順 メモ
既存のコミットメントの更新ポリシーを期限切れに設定します こうすることで、コミットメントの更新とさらなる課金を防ぐことができます。
既存のコミットメントの有効期限が切れる前:
1.新しいリソースにコミットメントを作成します。
2.新しいデプロイを作成します。
3.トラフィックを切り替えます
4.既存のデプロイを削除します
既存のコミットメントが期限切れになる前にすべての手順を完了できる十分な時間を確保してください。そうしないと、オプションに対して超過料金が発生します (次のセクションを参照してください)。

最後の手順に予想より時間がかかり、既存のコミットメントの期限が切れた後に完了する場合、超過料金を最小限に抑えるには 3 つのオプションがあります。

  • ダウンタイムを取る: 元のデプロイを削除して、移動を完了します。
  • 超過料金を支払う: トラフィックを移動してデプロイを削除するまで、元のデプロイを維持し、時間単位で支払います。
  • 元のコミットメントをリセットして、もう一度更新します。 こうすることで、既知のコストで移動を完了する時間が得られます。

元の有効期限を過ぎると、超過料金の支払いと元のコミットメントのリセットの両方で料金が発生します。 移動にかかる期間が 1 日から 2 日で済む場合は、超過料金を支払う方が、新しい 1 か月分のコミットメントよりも安くなる可能性があります。 両方のオプションのコストを比較して、最も低コストのアプローチを見つけてください。

デプロイを新しいリージョンまたはサブスクリプションに移動する

リージョン内でコミットメントとデプロイを移動する場合にも同じアプローチが適用されますが、あらゆる場合に新しい場所で使用できるクォータが必要になる点が異なります。

既存のリソースの表示と編集

Azure OpenAI Studio で、[クォータ]>[準備済み]>[コミットメントの管理] を選び、既存のコミットメントがあるリソースを選んで表示または変更します。

次のステップ