Share via


Azure AI Studio を使用する、リソースのクォータの管理と引き上げ

Note

Azure AI Studio は、現在、パブリック プレビュー段階です。 このプレビューはサービス レベル アグリーメントなしで提供されており、運用環境ではお勧めしません。 特定の機能はサポート対象ではなく、機能が制限されることがあります。 詳しくは、Microsoft Azure プレビューの追加使用条件に関するページをご覧ください。

クォータを使用すると、サブスクリプション内のデプロイ全体で、レート制限の割り当てを柔軟に管理できます。 この記事では、Azure AI Studio 仮想マシンと Azure OpenAI モデルのクォータを管理するプロセスについて説明します。

Azure では、不正による予算超過を防ぎ、Azure の容量の制約を尊重するために制限とクォータを使用しています。 また、管理者のコスト管理にもお勧めです。 運用環境のワークロードに合わせてスケーリングするときは、これらの制限事項について考慮してください。

この記事では、次の内容について説明します。

  • Azure リソースの既定の制限
  • Azure AI ハブ リソースレベルのクォータの作成。
  • クォータと制限の表示
  • クォータと制限の引き上げ要求

特別な考慮事項

クォータは、アカウント内の各サブスクリプションに適用されます。 複数のサブスクリプションがある場合は、サブスクリプションごとにクォータの引き上げを要求する必要があります。

クォータは、容量の保証ではなく、Azure リソースのクレジット制限です。 大規模な容量が必要な場合は、Azure サポートに連絡してクォータを引き上げてください。

Note

Azure AI Studio コンピューティングには、コア コンピューティング クォータとは別のクォータがあります。

既定の制限は、プラン カテゴリの種類 (無料試用版や従量課金制など) と仮想マシン (VM) シリーズ (Dv2、F、G など) によって異なります。

Azure AI Studio クォータ

Azure AI Studio の次の操作では、クォータが使用されます。

  • コンピューティング インスタンスの作成。
  • ベクトル インデックスのビルド。
  • モデル カタログからのオープン モデルのデプロイ。

Azure AI Studio コンピューティング

Azure AI Studio コンピューティングには、サブスクリプションのリージョンごとに許可されるコアの数と一意のコンピューティング リソースの数の両方に対して、既定のクォータ制限があります。

  • コア数のクォータは、各 VM ファミリと累積合計コアによって分割されます。
  • リージョンあたりの一意のコンピューティング リソースの数に対するクォータは、マネージド コンピューティング リソースにのみ適用されるため、VM コア クォータとは別です

コンピューティングの上限を引き上げるには、Azure AI Studioクォータの引き上げを要求できます。

使用可能なリソースは次のとおりです。

  • リージョンあたりの専用コアには、サブスクリプション プランの種類に応じて、24 から 300 の既定の制限があります。 サブスクリプションあたりの専用コアの数は VM ファミリごとに引き上げることができます。 NCv2、NCv3、ND シリーズなど、特殊な VM ファミリは、ゼロ コアの既定から開始されます。 GPU の既定のコア数も 0 です。
  • リージョンごとの合計コンピューティング制限には、特定のサブスクリプション内のリージョンごとに既定で 500 という制限があり、リージョンごとに最大値 2500 まで引き上げることができます。 この制限は、コンピューティング インスタンスとマネージド オンライン エンドポイント デプロイの間で共有されます。 コンピューティング インスタンスは、クォータ目的で単一のノード クラスターと見なされます。 合計コンピューティング制限を引き上げるには、オンライン カスタマー サポート リクエストを開いてください。

合計コンピューティング制限を引き上げるためのサポート リクエストを開始する際には、次の情報を提供してください。

  1. 問題の種類で、[技術] を選択します。

  2. クォータを増やしたいサブスクリプションを選択します。

  3. サービスの種類として [Machine Learning] を選びます。

  4. クォータを増やしたいリソースを選択します。

  5. [概要] フィールドに「合計コンピューティング制限の引き上げ」と入力します。

  6. 問題の種類として [コンピューティング インスタンス] を選択し、問題のサブタイプとして [クォータ] を選択します。

    Screenshot of the page to submit compute quota requests in Azure portal.

  7. [次へ] をクリックします。

  8. [その他の詳細] ページで、サブスクリプション ID、リージョン、新しい制限 (500 から 2500 の間)、このリージョンの合計コンピューティング制限を引き上げるためのビジネス上の正当な理由を入力します。

  9. [作成] を選択してサポート リクエスト チケットを送信します。

Azure AI Studio の共有クォータ

Azure AI Studio には、さまざまなリージョンのさまざまなユーザーが同時に使用できる共有クォータのプールが用意されています。 可用性に応じて、ユーザーは一次的に共有プールからクォータにアクセスし、限られた時間だけクォータを使用してテストを実行できます。 具体的な時間は、ユース ケースによって異なります。 クォータ プールから一時的にクォータを使用することで、短期的なクォータ増加のサポート チケットを提出したり、クォータ要求が承認されるまで待ってからワークロードを進める必要がなくなります。

共有クォータ プールの使用は、モデル カタログから Llama-2、Phi、Nemotron、Mistral、Dolly、Deci-DeciLM モデルの推論をテストするために使用できます。 共有クォータは、本番エンドポイントではなく、一時的なテスト エンドポイントを作成する場合にのみ使用する必要があります。 本番環境のエンドポイントの場合は、専用のクォータを要求する必要があります。 共有クォータの課金は、専用仮想マシン ファミリの課金と同様に使用量ベースです。

Container Instances

詳細については、「Container Instances の制限」を参照してください。

記憶域

Azure Storage では、サブスクリプションおよびリージョンあたりのストレージ アカウント数が 250 に制限されています。 この制限には、Standard および Premium ストレージ アカウントの両方が含まれます

Azure AI Studio でのクォータの表示と要求

クォータを使って、同じサブスクリプション内の複数の Azure AI ハブ リソース間のコンピューティング ターゲット割り当てを管理します。

既定では、すべての Azure AI ハブ リソースが VM ファミリのサブスクリプション レベル クォータと同じクォータを共有しています。 ただし、サブスクリプション内の Azure AI ハブ リソースでは、より詳細なコスト制御とガバナンスを実現するために、個々の VM ファミリに最大クォータを設定できます。 個々の VM ファミリのクォータを使用すると、容量を共有し、リソースの競合の問題を回避できます。

Azure AI Studio の上部のメニューから [管理] を選択します。 [クォータ] を選択すると、Azure Machine Learning 仮想マシン ファミリと Azure Open AI リソースの両方に対して、リージョン内のサブスクリプション レベルでクォータが表示されます。

Screenshot of the page to view and request quota for virtual machines and Azure OpenAI models.

より多くのクォータを要求するには、サブスクリプションとリージョンの [クォータの要求] ボタンを選択します。

次のステップ