Speech サービスのクォータと制限

この記事には、Azure AI サービス内の音声サービスのクォータと制限に関するクイック リファレンスおよび詳細な説明が記載されています。 情報は、サービスのすべての価格レベルに適用されます。 また、要求のスロットリングを回避するためのベスト プラクティスについても説明します。

Free (F0) 価格レベルについては、価格ページで月額料金に関するページも参照してください。

クォータと制限のリファレンス

以下のセクションでは、Speech サービスに適用されるクォータと制限のクイック ガイドを提供します。

Standard (S0) Speech リソースの調整可能なクォータについては、詳細な説明ベスト プラクティス調整手順に関するセクションを参照してください。 Free (F0) Speech リソースのクォータと制限は調整できません。

重要

Speech リソースを Free (F0) から Standard (S0) の価格レベルに切り替えると、対応するクォータの変更に最大で数時間かかる場合があります。

リソースごとの音声テキスト変換のクォータと制限

このセクションでは、Speech リソースあたりの音声テキスト変換のクォータと制限について説明します。 特に指定がない限り、制限は調整できません。

リアルタイム音声テキスト変換と音声翻訳

Speech SDK または Speech to text REST API for short audio により、リアルタイム音声テキスト変換を使用できます。

重要

これらの制限は、同時実行のリアルタイム音声テキスト変換要求と音声翻訳要求の合計数に適用されます。 たとえば、60 件の同時音声テキスト変換要求と 40 件の同時音声翻訳要求がある場合は、同時要求数の上限である 100 件に達します。

Quota Free (F0) Standard (S0)
同時要求の制限 - 基本モデル エンドポイント 1

この制限は調整できません。
100 (既定値)

Standard (S0) リソースでは、レートは調整できます。 詳細な説明ベスト プラクティス調整手順に関するセクションを参照してください。
同時要求の制限 - カスタム エンドポイント 1

この制限は調整できません。
100 (既定値)

Standard (S0) リソースでは、レートは調整できます。 詳細な説明ベスト プラクティス調整手順に関するセクションを参照してください。
リアルタイム ダイアライゼーションの最大オーディオ長。 該当なし 1 ファイルあたり 240 分

バッチ文字起こし

Quota Free (F0) Standard (S0)
Speech to text REST API の制限 F0 では使用できません 10 秒あたり 100 要求 (1 分あたり 600 要求)
オーディオ入力ファイルの最大サイズ 該当なし 1 GB
コンテナーごとの BLOB の最大数 該当なし 10000
文字起こし要求あたりの最大ファイル数 (入力として複数のコンテンツ URL を使用する場合) 該当なし 1000
ダイアライゼーションが有効になっている文字起こしの最大オーディオ長。 該当なし 1 ファイルあたり 240 分

モデルのカスタマイズ

この表内の制限は、Custom Speech モデルを作成するときに Speech リソースごとに適用されます。

Quota Free (F0) Standard (S0)
Rest API の制限 10 秒あたり 100 要求 (1 分あたり 600 要求) 10 秒あたり 100 要求 (1 分あたり 600 要求)
音声データセットの最大数 2 500
データ インポートの最大音響データセット ファイル サイズ 2 GB 2 GB
データ インポートの最大言語データセット ファイル サイズ 200 MB 1.5 GB
データ インポートの最大発音データセット ファイル サイズ 1 KB 1 MB
Models_Create API 要求で text パラメーターを使用する場合のテキストの最大サイズ 200 KB 500 KB

リソースごとのテキスト読み上げのクォータと制限

このセクションでは、Speech リソースあたりのテキスト読み上げのクォータと制限について説明します。

リアルタイムのテキスト読み上げ

Speech SDK または Text to speech REST API により、リアルタイムのテキスト読み上げを使用できます。 特に指定がない限り、制限は調整できません。

Quota Free (F0) Standard (S0)
あらかじめ構築されたニューラル音声とカスタム ニューラル音声の期間あたりのトランザクションの最大数。 60 秒あたり 20 トランザクション

この制限は調整できません。
1 秒あたり 200 トランザクション (TPS) (既定値)

Standard (S0) リソースでは、レートは最大 1000 TPS まで調整できます。 詳細な説明ベスト プラクティス調整手順に関するセクションを参照してください。
要求ごとに生成されるオーディオの最大長 10 分 10 分
SSML 内の個別の <voice> および <audio> タグの最大合計数 50 50
WebSocket の 1 ターンあたりの最大 SSML メッセージ サイズ 64 KB 64 KB

バッチ合成

これらの制限は調整できません。 バッチ合成の待機時間の詳細については、「バッチ合成の待機時間とベスト プラクティス」を参照してください。

Quota Free (F0) Standard (S0)
Rest API の制限 F0 では使用できません 10 秒あたり 100 要求
合成ジョブを作成するための最大 JSON ペイロード サイズ 該当なし 2 MB
同時アクティブ合成ジョブ 該当なし 制限なし
合成ジョブあたりのテキスト入力の最大数 該当なし 10000
合成ジョブが最終状態になってからの最大有効期間 該当なし 最大 31 日間 (プロパティを使用して指定)

カスタム ニューラル音声 - Pro

この表の制限は、プロフェッショナル カスタム ニューラル音声モデルを作成するときに、Azure Cognitive Service for Speech リソースごとに適用されます。

Quota Free (F0) Standard (S0)
1 秒あたりの最大トランザクション数 (TPS) F0 では使用できません 1 秒あたり 200 トランザクション (TPS) (既定値)
データセットの最大数 該当なし 500
同時データセット アップロードの最大数 該当なし 5
データセットあたりのデータ インポートの最大データ ファイル サイズ 該当なし 2 GB
長いオーディオまたはスクリプトを使用しないオーディオのアップロード 該当なし はい
同時モデル トレーニングの最大数 該当なし 4
カスタム エンドポイントの最大数 該当なし 50

カスタム ニューラル音声 - Personal Voice

この表の制限は、Personal Voice を作成するときに Azure Cognitive Service for Speech リソースごとに適用されます。

Quota Free (F0) Standard (S0)
REST API の制限 (音声合成は含みません) F0 では使用できません 10 秒あたり 50 要求
音声合成の最大 1 秒あたりトランザクション数 (TPS) F0 では使用できません 1 秒あたり 200 トランザクション (TPS) (既定値)

リアルタイムのテキスト読み上げアバター

Quota Free (F0) Standard (S0)
1 分あたりの新しい接続数 F0 では使用できません 1 分あたり 2 個の新しい接続

Audio Content Creation ツール

Quota Free (F0) Standard (S0)
ファイル サイズ (SSML のプレーン テキスト)1 ファイルあたり 3,000 文字 ファイルあたり 20,000 文字
ファイル サイズ (辞書ファイル)2 ファイルあたり 30 KB ファイルあたり 100 KB
SSML の課金対象文字 ファイルあたり 15,000 文字 ファイルあたり 100,000 文字
オーディオ ライブラリにエクスポート 1 つの同時実行タスク 該当なし

1 この制限は SSML のプレーン テキストにのみ適用され、タグは含まれません。

2 辞書ファイルの文字は課金されません。 SSML の辞書要素のみが課金対象の文字としてカウントされます。 詳細については、「課金対象文字」を参照してください。

リソースごとの話者認識のクォータと制限

話者認識は、20 トランザクション/秒 (TPS) に制限されます。

詳細な説明、クォータの調整、およびベスト プラクティス

一部の Speech サービス クォータは調整できます。 このセクションでは、詳細な説明、ベスト プラクティス、調整手順について説明します。

Standard (S0) リソースでは、次のクォータを調整できます。 Free (F0) 要求の制限は調整できません。

クォータの引き上げを要求する前に (該当する場合)、それが必要であることを確認します。 Speech サービスでは、自動スケール テクノロジを使用して、必要なコンピューティング リソースをオンデマンドで提供します。 同時に、Speech サービスでは、過剰なハードウェア容量を維持しないことで顧客のコストを低く抑えることを試みます。

例を見てみましょう。 アプリケーションが、要求が多すぎることを示す応答コード 429 を受信したとします。 アプリケーションは、ワークロードがクォータと制限のリファレンスで定義されている制限内であるにもかかわらず、この応答を受信します。 最も可能性が高い原因は、Speech サービスが需要に応じてスケールアップしていて、必要なスケールにまだ達していなかったことです。 このため、サービスには、要求に対応するための十分なリソースがすぐには準備されません。 多くの場合、このスロットリング状態は一時的なものです。

自動スケーリング時のスロットリングを緩和するための一般的なベスト プラクティス

スロットリングに関連する問題を最小限に抑えるには、次の手法を使用することをお勧めします。

  • アプリケーションで再試行ロジックを実装します。
  • ワークロードが急激に変化しないようにします。 ワークロードは徐々に増やします。 たとえば、アプリケーションで、テキスト読み上げが使用されており、現在のワークロードは 5 TPS だとします。 次の 1 秒間で、負荷を 20 TPS (4 倍以上) に増やしたとします。 Speech サービスは、新しい負荷に対応するためにすぐにスケールアップを開始しますが、必要に応じたスケーリングを 1 秒以内に行うことはできません。 一部の要求には、応答コード 429 (要求が多すぎる) が返されます。
  • さまざまな負荷増加パターンをテストします。 詳細については、ワークロード パターンの例をご覧ください。
  • "異なる" リージョンに追加の Speech Service リソースを作成し、それらの間でワークロードを分散します (同じリージョンに複数の Speech Service リソースを作成しても、すべてのリソースが同じバックエンド クラスターによって処理されるため、パフォーマンスには影響しません)。

次のセクションでは、クォータを調整する特定のケースについて説明します。

音声テキスト変換: リアルタイム音声テキスト変換の同時要求の上限を引き上げる

既定では、同時実行のリアルタイム音声テキスト変換と音声翻訳の要求の合計数は、基本モデルではリソースあたり 100 件に制限され、カスタム モデルではカスタム エンドポイントあたり 100 件に制限されます。 Standard 価格レベルでは、この数を増やすことができます。 要求を送信する前に、スロットリング緩和のためのベスト プラクティスなど、この記事で既に説明した資料について理解していることを確認してください。

注意

ベースおよびカスタム モデルの同時要求の上限は、個別に調整する必要があります。 1 つの Speech サービス リソースが、多数のカスタム モデル デプロイをホストしている多数のカスタム エンドポイントに関連付けられている可能性があります。 必要に応じて、カスタム エンドポイントあたりの制限調整を個別に要求する必要があります。

同時要求の上限を上げても、コストに直接影響することはありません。 Speech サービスでは、使用した分だけ支払うことを求める支払いモデルを使用しています。 この制限によって、要求のスロットリングが開始される前に、サービスをどの程度スケーリングできるかが定義されます。

同時要求の上限パラメーターの既存の値を、Azure portal、コマンドライン ツール、または API 要求で表示することはできません。 既存の値を確認するには、Azure サポート リクエストを作成します。

注意

Speech コンテナーは、ホストされているハードウェアの CPU によってのみ制限されるため、コンテナーで同時要求の上限を上げる必要はありません。 ただし、Speech コンテナーには、考慮すべき独自の容量制限があります。 詳細については、Speech コンテナーに関する FAQ をご覧ください。

以下の必要な情報を準備します

  • ベース モデルの場合:
    • Speech リソース ID
    • リージョン
  • カスタム モデルの場合:
    • リージョン
    • カスタム エンドポイント ID

ベース モデルで情報を取得する方法:

  1. Azure ポータルにアクセスします。
  2. 同時実行要求の制限を増やす Speech リソースを選択します。
  3. [リソース管理グループ] から、[プロパティ] を選択します。
  4. 次のフィールドの値をコピーして保存しておきます。
    • リソース ID
    • 場所 (エンドポイントのリージョン)

カスタム モデルで情報を取得する方法:

  1. Speech Studio ポータルにアクセスします。
  2. 必要に応じてサインインし、[Custom Speech] にアクセスします。
  3. プロジェクトを選択し、[デプロイ] を選択します。
  4. 必要なエンドポイントを選択します。
  5. 次のフィールドの値をコピーして保存しておきます。
    • サービス リージョン (ユーザーのエンドポイント リージョン)
    • エンドポイント ID

サポート リクエストの作成と送信

リソースに対する同時要求の上限の引き上げを開始するか、必要に応じて、サポート リクエストを送信して現在の上限を確認してください。 その方法は次のとおりです。

  1. 前のセクションに記載されている必要な情報があることを確認します。
  2. Azure ポータルにアクセスします。
  3. 同時実行要求の上限を上げる (または確認する) Speech サービス リソースを選択します。
  4. [サポート + トラブルシューティング] グループで、[新しいサポート リクエスト] を選択します。 Azure サブスクリプションと Azure リソースに関する情報が自動的に入力された新しいウィンドウが表示されます。
  5. [概要] に必要事項を記述します ("音声テキスト変換の同時実行要求の上限を上げる" など)。
  6. [問題の種類] で、[クォータまたはサブスクリプションの問題] を選択します。
  7. [問題のサブタイプ] で、次のいずれかを選択します。
    • 増加を要求する場合は [クォータまたは同時要求の増加]
    • 既存の制限を確認する場合は [クォータまたは使用状況の検証]
  8. 「解決方法」 を参照してください。 要求の作成を進めます。
  9. [詳細] タブの [説明] フィールドに、次の情報を入力します。
    • この要求が音声テキスト変換のクォータに関するものであることを示すメモ。
    • ベースまたはカスタムモデルのいずれかを選択します。
    • 前に収集した Azure リソース情報。
    • 必要な他の情報。
  10. [確認および作成] タブで、 [作成] を選択します。
  11. Azure portal 通知のサポート リクエスト番号をメモしておきます。 要求に関する連絡が間もなく届きます。

ワークロード パターンの例のベスト プラクティス

適切なアプローチの一般的な例を次に示します。 これは、独自の使用のために必要に応じて調整できるテンプレートにすぎません。

Speech サービス リソースの同時要求の上限が 300 に設定されていると仮定します。 ワークロードを 20 の同時接続から開始し、90 から 120 秒ごとにコンカレント接続の負荷を 20 ずつ増加させます。 要求が多すぎる (応答コード 429) 場合は、サービス応答を制御し、フォールバックするロジックを実装します (負荷を軽減)。 次に、1 分後に負荷増加を再試行し、それでも機能しない場合は 2 分後にもう一度試します。 間隔には、1、2、4、4 分のパターンを使用します。

一般に、運用環境に移行する前にワークロードとワークロード パターンをテストしておくことをお勧めします。

テキスト読み上げ: 同時要求の上限を増やす

Standard 価格レベルでは、この数を増やすことができます。 要求を送信する前に、スロットリング緩和のためのベスト プラクティスなど、この記事で既に説明した資料について理解していることを確認してください。

同時要求の上限を上げても、コストに直接影響することはありません。 Speech サービスでは、使用した分だけ支払うことを求める支払いモデルを使用しています。 この制限によって、要求のスロットリングが開始される前に、サービスをどの程度スケーリングできるかが定義されます。

同時要求の上限パラメーターの既存の値を、Azure portal、コマンドライン ツール、または API 要求で表示することはできません。 既存の値を確認するには、Azure サポート リクエストを作成します。

注意

Speech コンテナーは、ホストされているハードウェアの CPU によってのみ制限されるため、コンテナーで同時要求の上限を上げる必要はありません。

次の必要な情報を準備する

増加の要求を作成するには、情報を提供する必要があります。

  • 事前構築済み音声の場合:
    • Speech リソース ID
    • リージョン
  • カスタム音声の場合:
    • Deployment region (デプロイするリージョン)
    • カスタム エンドポイント ID

事前構築済み音声の情報を取得する方法:

  1. Azure ポータルにアクセスします。
  2. 同時実行要求の制限を増やす Speech リソースを選択します。
  3. [リソース管理グループ] から、[プロパティ] を選択します。
  4. 次のフィールドの値をコピーして保存しておきます。
    • リソース ID
    • 場所 (エンドポイントのリージョン)

カスタム モデルの情報を取得する方法:

  1. Speech Studio ポータルにアクセスします。
  2. 必要に応じてサインインし、Custom Voice に移動します。
  3. プロジェクトを選択し、[デプロイ モデル] に移動します。
  4. 必要なエンドポイントを選択します。
  5. 次のフィールドの値をコピーして保存しておきます。
    • サービス リージョン (ユーザーのエンドポイント リージョン)
    • エンドポイント ID

サポート リクエストの作成と送信

リソースに対する同時要求の上限の引き上げを開始するか、必要に応じて、サポート リクエストを送信して現在の上限を確認してください。 その方法は次のとおりです。

  1. 前のセクションに記載されている必要な情報があることを確認します。
  2. Azure ポータルにアクセスします。
  3. 同時実行要求の上限を上げる (または確認する) Speech サービス リソースを選択します。
  4. [サポート + トラブルシューティング] グループで、[新しいサポート リクエスト] を選択します。 Azure サブスクリプションと Azure リソースに関する情報が自動的に入力された新しいウィンドウが表示されます。
  5. [概要] に必要事項を記述します ("テキスト読み上げの同時実行要求の上限を上げる" など)。
  6. [問題の種類] で、[クォータまたはサブスクリプションの問題] を選択します。
  7. [問題のサブタイプ] で、次のいずれかを選択します。
    • 増加を要求する場合は [クォータまたは同時要求の増加]
    • 既存の制限を確認する場合は [クォータまたは使用状況の検証]
  8. [推奨されるソリューション] タブで、[次へ] を選択します。
  9. [追加の詳細] タブで、必要なすべての項目を入力します。 [詳細] フィールドに、次のように入力します。
    • この要求がテキスト読み上げのクォータに関するものであることを示すメモ。
    • 事前構築済み音声またはカスタム音声のいずれかを選択します。
    • 前に収集した Azure リソース情報。
    • 必要な他の情報。
  10. [確認および作成] タブで、 [作成] を選択します。
  11. Azure portal 通知のサポート リクエスト番号をメモしておきます。 要求に関する連絡が間もなく届きます。