Speech サービスのクォータと制限

この記事には、Azure Cognitive Services 内の Speech サービスのクォータと制限に関するクイック リファレンスおよび詳細な説明が記載されています。 情報は、サービスのすべての価格レベルに適用されます。 また、要求のスロットリングを回避するためのベスト プラクティスについても説明します。

クォータと制限のリファレンス

以下のセクションでは、Speech サービスに適用されるクォータと制限のクイック ガイドを提供します。

リソースごとの音声テキスト変換のクォータと制限

次の表の [調整可能] 行のないパラメーターは、すべての価格レベルで調整可能ではありません。

オンライン文字起こし

Speech SDK または短いオーディオ用の音声テキスト変換 REST API でオンライン文字起こしを使用できます。

Quota Free (F0)1 Standard (S0)
同時要求の制限 - 基本モデル エンドポイント 1 100 (既定値)
調整可能 いいえ2 はい2
同時要求の制限 - カスタム エンドポイント 1 100 (既定値)
調整可能 いいえ2 はい2

バッチ文字起こし

Quota Free (F0)1 Standard (S0)
Speech-to-text REST API v2.0 と v3.0 の制限事項 F0 では使用できません 1 分あたり 300 要求
オーディオ入力ファイルの最大サイズ 該当なし 1 GB
最大入力 BLOB サイズ (たとえば、zip アーカイブに複数のファイルを含めることができます)。 前の行のファイル サイズの制限に注意してください。 該当なし 2.5 GB
BLOB コンテナーの最大サイズ 該当なし 5 GB
コンテナーごとの BLOB の最大数 該当なし 10000
文字起こし要求あたりの最大ファイル数 (入力として複数のコンテンツ URL を使用する場合) 該当なし 1000

モデルのカスタマイズ

Quota Free (F0)1 Standard (S0)
Rest API の制限 1 分あたり 300 要求 1 分あたり 300 要求
音声データセットの最大数 2 500
データ インポートの最大音響データセット ファイル サイズ 2 GB 2 GB
データ インポートの最大言語データセット ファイル サイズ 200 MB 1.5 GB
データ インポートの最大発音データセット ファイル サイズ 1 KB 1 MB
モデルの作成 API 要求で text パラメーターを使用する場合のテキストの最大サイズ 200 KB 500 KB

1 Free (F0) 価格レベルについては、価格ページで月額料金に関するページを参照してください。
2その他の説明ベスト プラクティス、および調整手順に関するセクションを参照してください。

リソースごとのテキスト読み上げのクォータと制限

次の表の [調整可能] 行のないパラメーターは、すべての価格レベルで調整可能ではありません。

全般

Quota Free (F0)3 Standard (S0)
Speech サービス リソースごとの特定の期間あたりの最大トランザクション数
リアルタイム API。 あらかじめ構築されたニューラル音声とカスタム ニューラル音声 60 秒あたり 20 トランザクション 1 秒あたり 200 トランザクション (TPS) (既定値)
調整可能 いいえ4 はい5、最大 1000 TPS
HTTP 固有のクォータ
要求ごとに生成されるオーディオの最大長 10 分 10 分
SSML 内の個別の <voice> および <audio> タグの最大合計数 50 50
Websocket 固有のクォータ
1 ターンあたりに生成されるオーディオの最大長 10 分 10 分
SSML 内の個別の <voice> および <audio> タグの最大合計数 50 50
1 ターンあたりの最大 SSML メッセージ サイズ 64 KB 64 KB

Long Audio API

Quota Free (F0)3 Standard (S0)
最小テキスト長 該当なし プレーンテキストの場合は 400 文字。SSML の場合は 400 課金対象文字
最大テキスト長 該当なし 10,000 段落
開始時刻 該当なし 累積 10 タスクまたは 10,000 文字

カスタム ニューラル音声

Quota Free (F0)3 Standard (S0)
Speech サービス リソースあたりの最大 1 秒あたりトランザクション数 (TPS) F0 では使用できません 全般」を参照
Speech サービス リソースあたりの最大データセット数 該当なし 500
Speech サービス リソースあたりの最大データセット同時アップロード数 該当なし 5
データセットあたりのデータ インポートの最大データ ファイル サイズ 該当なし 2 GB
長いオーディオまたはスクリプトを使用しないオーディオのアップロード 該当なし はい
Speech サービス リソースあたりの最大同時モデル トレーニング数 該当なし 3
Speech サービス リソースあたりの最大カスタム エンドポイント数 該当なし 50
カスタム ニューラル音声の同時要求の上限
既定値 該当なし 10
調整可能 該当なし 5

Audio Content Creation ツール

Quota Free (F0) Standard (S0)
ファイル サイズ ファイルあたり 3,000 文字 ファイルあたり 20,000 文字
オーディオ ライブラリにエクスポート 1 つの同時実行タスク 該当なし

3 Free (F0) 価格レベルについては、価格ページで月額料金に関するページを参照してください。
4その他の説明およびベスト プラクティスに関するセクションを参照してください。
5その他の説明ベスト プラクティス、および調整手順に関するセクションを参照してください。

詳細な説明、クォータの調整、およびベスト プラクティス

クォータの引き上げを要求する前に (該当する場合)、それが必要であることを確認します。 Speech サービスでは、自動スケール テクノロジを使用して、必要なコンピューティング リソースをオンデマンドで提供します。 同時に、Speech サービスでは、過剰なハードウェア容量を維持しないことで顧客のコストを低く抑えることを試みます。

例を見てみましょう。 アプリケーションが、要求が多すぎることを示す応答コード 429 を受信したとします。 アプリケーションは、ワークロードがクォータと制限のリファレンスで定義されている制限内であるにもかかわらず、この応答を受信します。 最も可能性が高い原因は、Speech サービスが需要に応じてスケールアップしていて、必要なスケールにまだ達していなかったことです。 このため、サービスには、要求に対応するための十分なリソースがすぐには準備されません。 多くの場合、このスロットリング状態は一時的なものです。

自動スケーリング時のスロットリングを緩和するための一般的なベスト プラクティス

スロットリングに関連する問題を最小限に抑えるには、次の手法を使用することをお勧めします。

  • アプリケーションで再試行ロジックを実装します。
  • ワークロードが急激に変化しないようにします。 ワークロードは徐々に増やします。 たとえば、アプリケーションで、テキスト読み上げが使用されており、現在のワークロードは 5 TPS (1 秒あたりのトランザクション数) だとします。 次の 1 秒間で、負荷を 20 TPS (4 倍以上) に増やしたとします。 Speech サービスは、新しい負荷に対応するためにすぐにスケールアップを開始しますが、必要に応じたスケーリングを 1 秒以内に行うことはできません。 一部の要求は、応答コード 429 (要求が多すぎる) を受信します。
  • さまざまな負荷増加パターンをテストします。 詳細については、ワークロード パターンの例をご覧ください。
  • 異なるリージョンに追加の Speech リソースを作成し、それらの間でワークロードを分散させます。 (同じリージョンに複数の Speech Service リソースを作成すると、すべてのリソースが同じバックエンド クラスターによって処理されるため、パフォーマンスには影響しません)。

次のセクションでは、クォータを調整する特定のケースについて説明します。

音声テキスト変換: オンライン文字起こしの同時要求の上限を上げる

既定では、同時要求の数はベースモデルでリソースあたり 100、およびカスタム モデルでカスタム エンドポイントあたり 100 に制限されています。 Standard 価格レベルでは、この数を増やすことができます。 要求を送信する前に、スロットリング緩和のためのベスト プラクティスなど、この記事で既に説明した資料について理解していることを確認してください。

注意

カスタム モデルを使用する場合は、1 つの Speech サービス リソースが多数のカスタム モデル デプロイをホストしている多数のカスタム エンドポイントに関連付けられている可能性があることに注意してください。 各カスタム エンドポイントには、既定の同時要求の上限 (100) が作成時に設定されています。 調整が必要な場合は、各カスタム エンドポイントの調整を個別に行ってください。 また、リソースのベース モデルの同時要求の上限値は、このリソースに関連付けられているカスタム エンドポイントに影響しないことにも注意してください。

同時要求の上限を上げても、コストに直接影響することはありません。 Speech サービスでは、使用した分だけ支払うことを求める支払いモデルを使用しています。 この制限によって、要求のスロットリングが開始される前に、サービスをどの程度スケーリングできるかが定義されます。

ベースおよびカスタム モデルの同時要求の上限は、個別に調整する必要があります。

同時要求の上限パラメーターの既存の値を、Azure portal、コマンドライン ツール、または API 要求で表示することはできません。 既存の値を確認するには、Azure サポート リクエストを作成します。

注意

Speech コンテナーは、ホストされているハードウェアの CPU によってのみ制限されるため、コンテナーで同時要求の上限を上げる必要はありません。 ただし、Speech コンテナーには、考慮すべき独自の容量制限があります。 詳細については、Speech コンテナーに関する FAQ をご覧ください。

以下の必要な情報を準備します

  • ベース モデルの場合:
    • Speech リソース ID
    • リージョン
  • カスタム モデルの場合:
    • リージョン
    • カスタム エンドポイント ID

ベース モデルで情報を取得する方法:

  1. Azure ポータルにアクセスします。
  2. 同時実行要求の制限を増やす Speech リソースを選択します。
  3. [リソース管理グループ] から、[プロパティ] を選択します。
  4. 次のフィールドの値をコピーして保存しておきます。
    • リソース ID
    • 場所 (エンドポイントのリージョン)

カスタム モデルで情報を取得する方法:

  1. Speech Studio ポータルにアクセスします。
  2. 必要に応じてサインインし、Custom Speech にアクセスします。
  3. プロジェクトを選択し、[デプロイ] を選択します。
  4. 必要なエンドポイントを選択します。
  5. 次のフィールドの値をコピーして保存しておきます。
    • サービス リージョン (ユーザーのエンドポイント リージョン)
    • エンドポイント ID

サポート リクエストの作成と送信

リソースに対する同時要求の上限の引き上げを開始するか、必要に応じて、サポート リクエストを送信して現在の上限を確認してください。 その方法は次のとおりです。

  1. 前のセクションに記載されている必要な情報があることを確認します。
  2. Azure ポータルにアクセスします。
  3. 同時実行要求の上限を上げる (または確認する) Speech サービス リソースを選択します。
  4. [サポート + トラブルシューティング] グループで、[新しいサポート リクエスト] を選択します。 Azure サブスクリプションと Azure リソースに関する情報が自動的に入力された新しいウィンドウが表示されます。
  5. [概要] に必要事項を記述します ("音声テキスト変換の同時実行要求の上限を上げる" など)。
  6. [問題の種類] で、[クォータまたはサブスクリプションの問題] を選択します。
  7. [問題のサブタイプ] で、次のいずれかを選択します。
    • 増加を要求する場合は [クォータまたは同時要求の増加]
    • 既存の制限を確認する場合は [クォータまたは使用状況の検証]
  8. 「解決方法」 を参照してください。 要求の作成を進めます。
  9. [詳細] タブの [説明] フィールドに、次の情報を入力します。
    • この要求が音声テキスト変換のクォータに関するものであることを示すメモ。
    • ベースまたはカスタムモデルのいずれかを選択します。
    • 前に収集した Azure リソース情報。
    • 必要な他の情報。
  10. [確認および作成] タブで、 [作成] を選択します。
  11. Azure portal 通知のサポート リクエスト番号をメモしておきます。 要求に関する連絡が間もなくして届きます。

ワークロード パターンの例のベスト プラクティス

適切なアプローチの一般的な例を次に示します。 これは、独自の使用のために必要に応じて調整できるテンプレートにすぎません。

Speech サービス リソースの同時要求の上限が 300 に設定されていると仮定します。 ワークロードを 20 の同時接続から開始し、90 から 120 秒ごとにコンカレント接続の負荷を 20 ずつ増加させます。 要求が多すぎる (応答コード 429) 場合は、サービス応答を制御し、フォールバックするロジックを実装します (負荷を軽減)。 次に、1 分後に負荷増加を再試行し、それでも機能しない場合は 2 分後にもう一度試します。 間隔には、1、2、4、4 分のパターンを使用します。

一般に、運用環境に移行する前にワークロードとワークロード パターンをテストしておくことをお勧めします。

テキスト読み上げ: 同時要求の上限を増やす

Standard 価格レベルでは、この数を増やすことができます。 要求を送信する前に、スロットリング緩和のためのベスト プラクティスなど、この記事で既に説明した資料について理解していることを確認してください。

同時要求の上限を上げても、コストに直接影響することはありません。 Speech サービスでは、使用した分だけ支払うことを求める支払いモデルを使用しています。 この制限によって、要求のスロットリングが開始される前に、サービスをどの程度スケーリングできるかが定義されます。

同時要求の上限パラメーターの既存の値を、Azure portal、コマンドライン ツール、または API 要求で表示することはできません。 既存の値を確認するには、Azure サポート リクエストを作成します。

注意

Speech コンテナーは、ホストされているハードウェアの CPU によってのみ制限されるため、コンテナーで同時要求の上限を上げる必要はありません。

次の必要な情報を準備する

増加の要求を作成するには、デプロイ リージョンとカスタム エンドポイント ID を指定する必要があります。 これを取得するには、次の操作を実行してください。

  1. Speech Studio ポータルにアクセスします。
  2. 必要に応じてサインインし、Custom Voice にアクセスします。
  3. プロジェクトを選択し、[デプロイ] を選択します。
  4. 必要なエンドポイントを選択します。
  5. 次のフィールドの値をコピーして保存しておきます。
    • サービス リージョン (ユーザーのエンドポイント リージョン)
    • エンドポイント ID

サポート リクエストの作成と送信

リソースに対する同時要求の上限の引き上げを開始するか、必要に応じて、サポート リクエストを送信して現在の上限を確認してください。 その方法は次のとおりです。

  1. 前のセクションに記載されている必要な情報があることを確認します。
  2. Azure ポータルにアクセスします。
  3. 同時実行要求の上限を上げる (または確認する) Speech サービス リソースを選択します。
  4. [サポート + トラブルシューティング] グループで、[新しいサポート リクエスト] を選択します。 Azure サブスクリプションと Azure リソースに関する情報が自動的に入力された新しいウィンドウが表示されます。
  5. [概要] に必要事項を記述します ("テキスト読み上げの同時実行要求の上限を上げる" など)。
  6. [問題の種類] で、[クォータまたはサブスクリプションの問題] を選択します。
  7. [問題のサブタイプ] で、次のいずれかを選択します。
    • 増加を要求する場合は [クォータまたは同時要求の増加]
    • 既存の制限を確認する場合は [クォータまたは使用状況の検証]
  8. 「解決方法」 を参照してください。 要求の作成を進めます。
  9. [詳細] タブの [説明] フィールドに、次の情報を入力します。
    • この要求がテキスト読み上げのクォータに関するものであることを示すメモ。
    • ベースまたはカスタムモデルのいずれかを選択します。
    • 前に収集した Azure リソース情報。
    • 必要な他の情報。
  10. [確認および作成] タブで、 [作成] を選択します。
  11. Azure portal 通知のサポート リクエスト番号をメモしておきます。 要求に関する連絡が間もなくして届きます。