Speech サービスのクォータと制限

2025-03-10

この記事には、Azure AI サービス内の音声サービスのクォータと制限に関するクイックリファレンスおよび詳細な説明が記載されています。情報は、サービスのすべての価格レベルに適用されます。また、要求のスロットリングを回避するためのベストプラクティスについても説明します。

Free (F0) 価格レベルについては、価格ページで月額料金に関するページも参照してください。

クォータと制限のリファレンス

以下のセクションでは、Speech サービスに適用されるクォータと制限のクイックガイドを提供します。

Standard (S0) Speech リソースの調整可能なクォータについては、詳細な説明、ベストプラクティス、調整手順に関するセクションを参照してください。 Free (F0) Speech リソースのクォータと制限は調整できません。

重要

Speech の AI Foundry リソースを Free (F0) から Standard (S0) 価格レベルに切り替えると、対応するクォータの変更に最大で数時間かかることがあります。

リソースごとの音声テキスト変換のクォータと制限

このセクションでは、Speech リソースあたりの音声テキスト変換のクォータと制限について説明します。特に指定がない限り、制限は調整できません。

リアルタイム音声テキスト変換と音声翻訳

Speech SDK または Speech to text REST API for short audio により、リアルタイム音声テキスト変換を使用できます。

重要

これらの制限は、同時実行のリアルタイム音声テキスト変換要求と音声翻訳要求の合計数に適用されます。たとえば、60 件の同時音声テキスト変換要求と 40 件の同時音声翻訳要求がある場合は、同時要求数の上限である 100 件に達します。

クォータ	無料 (F0)	Standard (S0)
同時要求の制限 - 基本モデルエンドポイント	1 この制限は調整できません。	100 (既定値) Standard (S0) リソースでは、レートは調整できます。詳細な説明ベストプラクティス、調整手順に関するセクションを参照してください。
同時要求の制限 - カスタムエンドポイント	1 この制限は調整できません。	100 (既定値) Standard (S0) リソースでは、レートは調整できます。詳細な説明ベストプラクティス、調整手順に関するセクションを参照してください。
リアルタイムダイアライゼーションの最大オーディオ長。	該当なし	1 ファイルあたり 240 分

高速文字起こし

クォータ	無料 (F0)	Standard (S0)
オーディオ入力ファイルの最大サイズ	該当なし	300 MB
オーディオの最大長	該当なし	ファイルあたり 120 分
1 分あたりの最大要求数	該当なし	600

バッチ文字起こし

クォータ	無料 (F0)	Standard (S0)
Speech to text REST API の制限	F0 では使用できません	10 秒あたり 100 要求 (1 分あたり 600 要求)
オーディオ入力ファイルの最大サイズ	該当なし	1 GB
コンテナーごとの BLOB の最大数	該当なし	1万
文字起こし要求あたりの最大ファイル数 (入力として複数のコンテンツ URL を使用する場合)	該当なし	1000
ダイアライゼーションが有効になっている文字起こしの最大オーディオ長。	該当なし	1 ファイルあたり 240 分

モデルのカスタマイズ

この表内の制限は、Custom Speech モデルを作成するときに Speech リソースごとに適用されます。

クォータ	無料 (F0)	Standard (S0)
REST API の制限	10 秒あたり 100 要求 (1 分あたり 600 要求)	10 秒あたり 100 要求 (1 分あたり 600 要求)
Speech リソースあたりの最大カスタムモデルデプロイ数	1	50
音声データセットの最大数	2	500
データインポートの最大音響データセットファイルサイズ	2 GB	2 GB
データインポートの最大言語データセットファイルサイズ	200 MB	1.5 GB
データインポートの最大発音データセットファイルサイズ	1 KB	1 MB
`text` API 要求でパラメーターを使用する場合のテキストの最大サイズ	200 KB	500 KB

リソースごとの音声合成のクォータと制限

このセクションでは、Speech リソースあたりのテキスト読み上げのクォータと制限について説明します。

リアルタイムのテキスト読み上げ

Speech SDK または Text to speech REST API により、リアルタイムのテキスト読み上げを使用できます。特に指定がない限り、制限は調整できません。

クォータ	無料 (F0)	Standard (S0)
標準音声とカスタム音声の期間あたりのトランザクションの最大数。	60 秒あたり 20 トランザクションこの制限は調整できません。	1 秒あたり 200 トランザクション (TPS) (既定値) Standard (S0) リソースでは、レートは最大 1000 TPS まで調整できます。詳細な説明ベストプラクティス、調整手順に関するセクションを参照してください。
要求ごとに生成されるオーディオの最大長	10 分	10 分
SSML 内の個別の `<voice>` および `<audio>` タグの最大合計数	50	50
WebSocket の 1 ターンあたりの最大 SSML メッセージサイズ	64 KB	64 KB

バッチ合成

これらの制限は調整できません。バッチ合成の待機時間の詳細については、「バッチ合成の待機時間とベストプラクティス」を参照してください。

クォータ	無料 (F0)	Standard (S0)
REST API の制限	F0 では使用できません	10 秒あたり 100 要求
合成ジョブを作成するための最大 JSON ペイロードサイズ	該当なし	2メガバイト
同時アクティブ合成ジョブ	該当なし	制限なし
合成ジョブあたりのテキスト入力の最大数	該当なし	1万
合成ジョブが最終状態になってからの最大有効期間	該当なし	最大 31 日間 (プロパティを使用して指定)

カスタム音声 - プロフェッショナル

この表の制限は、プロの音声を作成するときに Speech リソースごとに適用されます。

クォータ	無料 (F0)	Standard (S0)
1 秒あたりの最大トランザクション数 (TPS)	F0 では使用できません	1 秒あたり 200 トランザクション (TPS) (既定値)
データセットの最大数	該当なし	500
同時データセットアップロードの最大数	該当なし	5
データセットあたりのデータインポートの最大データファイルサイズ	該当なし	2 GB
長いオーディオまたはスクリプトを使用しないオーディオのアップロード	該当なし	はい
同時モデルトレーニングの最大数	該当なし	4
カスタムエンドポイントの最大数	該当なし	50

カスタム音声 - 個人用音声

この表の制限は、パーソナルボイスを作成する際に、スピーチリソースごとに適用されます。

クォータ	無料 (F0)	Standard (S0)
REST API の制限 (音声合成は含みません)	F0 では使用できません	10 秒あたり 50 要求
音声合成の最大 1 秒あたりトランザクション数 (TPS)	F0 では使用できません	1 秒あたり 200 トランザクション (TPS) (既定値)

バッチテキスト読み上げアバター

クォータ	無料 (F0)	Standard (S0)
REST API の制限	F0 では使用できません	1 分あたり 2 件の要求

リアルタイムのテキスト読み上げアバター

クォータ	無料 (F0)	Standard (S0)
1 分あたりの新しい接続数	F0 では使用できません	1 分あたり 2 個の新しい接続
話す際の最大接続時間	F0 では使用できません	30 分¹
アイドル状態での最大接続時間	F0 では使用できません	5 分

¹ リアルタイムアバターを 30 分以上連続して操作できるようにするには、自動再接続を有効にします。自動再接続を設定する方法については、こちらのサンプルコードを参照してください ("Auto Reconnect"を検索してください)。

音声コンテンツ作成ツール

クォータ	無料 (F0)	Standard (S0)
ファイルサイズ (SSML のプレーンテキスト)¹	ファイルあたり 3,000 文字	ファイルあたり 20,000 文字
ファイルサイズ (辞書ファイル)²	ファイルあたり 30 KB	ファイルあたり 100 KB
SSML の課金対象文字	ファイルあたり 15,000 文字	ファイルあたり 100,000 文字
オーディオライブラリにエクスポート	1 つの同時実行タスク	該当なし

¹ この制限は SSML のプレーンテキストにのみ適用され、タグは含まれません。

² 辞書ファイルの文字は課金されません。 SSML の辞書要素のみが課金対象の文字としてカウントされます。詳細については、「課金対象文字」を参照してください。

リソースごとの話者認識のクォータと制限

話者認識は、20 トランザクション/秒 (TPS) に制限されます。

詳細な説明、クォータの調整、およびベストプラクティス

一部の Speech サービスクォータは調整できます。このセクションでは、詳細な説明、ベストプラクティス、調整手順について説明します。

Standard (S0) リソースでは、次のクォータを調整できます。 Free (F0) 要求の制限は調整できません。

ベースモデルエンドポイントとカスタムエンドポイントの音声テキスト変換同時要求の制限
標準音声とカスタム音声でのテキスト読み上げの時間あたり最大トランザクション数
音声翻訳同時要求の制限

(可能な場合に) クォータの引き上げを要求する前に、現在の TPS (1 秒あたりのトランザクション数) を確認し、クォータの引き上げが必要であることを確認します。 Speech サービスでは、自動スケールテクノロジを使用して、必要なコンピューティングリソースをオンデマンドで提供します。同時に、Speech サービスでは、過剰なハードウェア容量を維持しないことで顧客のコストを低く抑えることを試みます。

例を見てみましょう。アプリケーションが、要求が多すぎることを示す応答コード 429 を受信したとします。アプリケーションは、ワークロードがクォータと制限のリファレンスで定義されている制限内であるにもかかわらず、この応答を受信します。最も可能性が高い原因は、Speech サービスが需要に応じてスケールアップしていて、必要なスケールにまだ達していなかったことです。このため、サービスには、要求に対応するための十分なリソースがすぐには準備されません。このようなケースでは、クォータの引き上げは役に立ちません。ほとんどの場合、Speech サービスはすぐにスケールアップし、応答コード 429 を引き起こしている問題は解決されます。

自動スケーリング時のスロットリングを緩和するための一般的なベストプラクティス

スロットリングに関連する問題を最小限に抑えるには、次の手法を使用することをお勧めします。

アプリケーションで再試行ロジックを実装します。
ワークロードが急激に変化しないようにします。ワークロードは徐々に増やします。たとえば、アプリケーションで、テキスト読み上げが使用されており、現在のワークロードは 5 TPS だとします。次の 1 秒間で、負荷を 20 TPS (4 倍以上) に増やしたとします。 Speech サービスは、新しい負荷に対応するためにすぐにスケールアップを開始しますが、必要に応じたスケーリングを 1 秒以内に行うことはできません。一部の要求には、応答コード 429 (要求が多すぎる) が返されます。
さまざまな負荷増加パターンをテストします。詳細については、ワークロードパターンの例をご覧ください。
"異なる" リージョンに追加の Speech Service リソースを作成し、それらの間でワークロードを分散します (同じリージョンに複数の Speech Service リソースを作成しても、すべてのリソースが同じバックエンドクラスターによって処理されるため、パフォーマンスには影響しません)。

次のセクションでは、クォータを調整する特定のケースについて説明します。

音声テキスト変換: リアルタイム音声テキスト変換の同時要求の上限を引き上げる

既定では、同時実行のリアルタイム音声テキスト変換と音声翻訳の要求の合計数は、基本モデルではリソースあたり 100 件に制限され、カスタムモデルではカスタムエンドポイントあたり 100 件に制限されます。 Standard 価格レベルでは、この数を増やすことができます。要求を送信する前に、スロットリング緩和のためのベストプラクティスなど、この記事で既に説明した資料について理解していることを確認してください。

メモ

ベースおよびカスタムモデルの同時要求の上限は、個別に調整する必要があります。 1 つの Speech サービスリソースが、多数のカスタムモデルデプロイをホストしている多数のカスタムエンドポイントに関連付けられている可能性があります。必要に応じて、カスタムエンドポイントあたりの制限調整を個別に要求する必要があります。

同時要求の上限を上げても、コストに直接影響することはありません。 Speech サービスでは、使用した分だけ支払うことを求める支払いモデルを使用しています。この制限によって、要求のスロットリングが開始される前に、サービスをどの程度スケーリングできるかが定義されます。

同時要求の上限パラメーターの既存の値を、Azure portal、コマンドラインツール、または API 要求で表示することはできません。既存の値を確認するには、Azure サポートリクエストを作成します。

メモ

Speech コンテナーは、ホストされているハードウェアの CPU によってのみ制限されるため、コンテナーで同時要求の上限を上げる必要はありません。ただし、Speech コンテナーには、考慮すべき独自の容量制限があります。詳細については、Speech コンテナーに関する FAQ をご覧ください。

以下の必要な情報を準備します

ベースモデルの場合:
- 音声リソース ID
- リージョン
カスタムモデルの場合:
- リージョン
- カスタムエンドポイント ID

ベースモデルで情報を取得する方法:

Azure ポータルにアクセスします。
同時実行要求の制限を増やすためには、増やしたい Speech サービスリソースを選択してください。
[リソース管理グループ] から、[プロパティ] を選択します。
次のフィールドの値をコピーして保存しておきます。
- リソース ID
- 場所 (エンドポイントのリージョン)

カスタムモデルで情報を取得する方法:

Speech Studio ポータルにアクセスします。
必要に応じてサインインし、[Custom Speech] にアクセスします。
プロジェクトを選択し、[デプロイ] を選択します。
必要なエンドポイントを選択します。
次のフィールドの値をコピーして保存しておきます。
- サービスリージョン (ユーザーのエンドポイントリージョン)
- エンドポイント ID

サポートリクエストの作成と送信

リソースに対する同時要求の上限の引き上げを開始するか、必要に応じて、サポートリクエストを送信して現在の上限を確認してください。その方法は次のとおりです。

前のセクションに記載されている必要な情報があることを確認します。
Azure ポータルにアクセスします。
同時実行要求の上限を上げる (または確認する) Speech サービスリソースを選択します。
[サポート + トラブルシューティング] グループで、[新しいサポートリクエスト] を選択します。 Azure サブスクリプションと Azure リソースに関する情報が自動的に入力された新しいウィンドウが表示されます。
[概要] に必要事項を記述します ("音声テキスト変換の同時実行要求の上限を上げる" など)。
[問題の種類] で、[クォータまたはサブスクリプションの問題] を選択します。
[問題のサブタイプ] で、次のいずれかを選択します。
- 増加を要求する場合は [クォータまたは同時要求の増加]。
- 既存の制限を確認する場合は [クォータまたは使用状況の検証]。
「解決方法」 を参照してください。要求の作成を進めます。
[詳細] タブの [説明] フィールドに、次の情報を入力します。
- この要求が音声テキスト変換のクォータに関するものであることを示すメモ。
- ベースまたはカスタムモデルのいずれかを選択します。
- 前に収集した Azure リソース情報。
- 必要な他の情報。
[確認および作成] タブで、 [作成] を選択します。
Azure portal 通知のサポートリクエスト番号をメモしておきます。要求に関する連絡が間もなく届きます。

ワークロードパターンの例のベストプラクティス

適切なアプローチの一般的な例を次に示します。これは、独自の使用のために必要に応じて調整できるテンプレートにすぎません。

Speech サービスリソースの同時要求の上限が 300 に設定されていると仮定します。ワークロードを 20 の同時接続から開始し、90 から 120 秒ごとにコンカレント接続の負荷を 20 ずつ増加させます。要求が多すぎる (応答コード 429) 場合は、サービス応答を制御し、フォールバックするロジックを実装します (負荷を軽減)。次に、1 分後に負荷増加を再試行し、それでも機能しない場合は 2 分後にもう一度試します。間隔には、1、2、4、4 分のパターンを使用します。

一般に、運用環境に移行する前にワークロードとワークロードパターンをテストしておくことをお勧めします。

テキスト読み上げ: 同時リクエスト数の上限を増やす

Standard 価格レベルでは、この数を増やすことができます。要求を送信する前に、スロットリング緩和のためのベストプラクティスなど、この記事で既に説明した資料について理解していることを確認してください。

メモ

Speech コンテナーは、ホストされているハードウェアの CPU によってのみ制限されるため、コンテナーで同時要求の上限を上げる必要はありません。

必要な情報を準備する

増加の要求を作成するには、情報を提供する必要があります。

標準音声の場合:
- 音声リソース ID
- リージョン
カスタム音声の場合:
- 展開地域
- カスタムエンドポイント ID

標準音声の情報を取得する方法:

Azure ポータルにアクセスします。
同時実行要求の制限を増やすためには、増やしたい Speech サービスリソースを選択してください。
[リソース管理グループ] から、[プロパティ] を選択します。
次のフィールドの値をコピーして保存しておきます。
- リソース ID
- 場所 (エンドポイントのリージョン)

カスタム音声の情報を取得する方法:

Speech Studio ポータルにアクセスします。
必要に応じてサインインし、Custom Voice に移動します。
プロジェクトを選択し、[デプロイモデル] に移動します。
必要なエンドポイントを選択します。
次のフィールドの値をコピーして保存しておきます。
- サービスリージョン (ユーザーのエンドポイントリージョン)
- エンドポイント ID

サポートリクエストの作成と送信

前のセクションに記載されている必要な情報があることを確認します。
Azure ポータルにアクセスします。
同時実行要求の上限を上げる (または確認する) Speech サービスリソースを選択します。
[サポート + トラブルシューティング] グループで、[新しいサポートリクエスト] を選択します。 Azure サブスクリプションと Azure リソースに関する情報が自動的に入力された新しいウィンドウが表示されます。
[概要] に必要事項を記述します ("テキスト読み上げの同時実行要求の上限を上げる" など)。
[問題の種類] で、[クォータまたはサブスクリプションの問題] を選択します。
[問題のサブタイプ] で、次のいずれかを選択します。
- 増加を要求する場合は [クォータまたは同時要求の増加]。
- 既存の制限を確認する場合は [クォータまたは使用状況の検証]。
[推奨されるソリューション] タブで、[次へ] を選択します。
[追加の詳細] タブで、必要なすべての項目を入力します。 [詳細] フィールドに、次のように入力します。
- この要求がテキスト読み上げのクォータに関するものであることを示すメモ。
- 標準音声またはカスタム音声のいずれかを選択します。
- 前に収集した Azure リソース情報。
- 必要な他の情報。
[確認および作成] タブで、 [作成] を選択します。
Azure portal 通知のサポートリクエスト番号をメモしておきます。要求に関する連絡が間もなく届きます。

テキスト読み上げアバター: 新規接続の制限を引き上げる

テキスト読み上げアバターの 1 分あたりの新規接続数の上限を引き上げるには、営業担当者に連絡して、次の情報を含むチケットを作成してください。

Speech リソース URI
要求された引き上げの新規上限
引き上げの理由
引き上げ開始日
引き上げ終了日
標準アバターまたはカスタムアバター

次の方法で共有

Speech サービスのクォータと制限

クォータと制限のリファレンス

リソースごとの音声テキスト変換のクォータと制限

リアルタイム音声テキスト変換と音声翻訳

高速文字起こし

バッチ文字起こし

モデルのカスタマイズ

リソースごとの音声合成のクォータと制限

リアルタイムのテキスト読み上げ

バッチ合成

カスタム音声 - プロフェッショナル

カスタム音声 - 個人用音声

バッチ テキスト読み上げアバター

リアルタイムのテキスト読み上げアバター

音声コンテンツ作成ツール

リソースごとの話者認識のクォータと制限

詳細な説明、クォータの調整、およびベスト プラクティス

自動スケーリング時のスロットリングを緩和するための一般的なベスト プラクティス

音声テキスト変換: リアルタイム音声テキスト変換の同時要求の上限を引き上げる

以下の必要な情報を準備します

サポート リクエストの作成と送信

ワークロード パターンの例のベスト プラクティス

テキスト読み上げ: 同時リクエスト数の上限を増やす

必要な情報を準備する

サポート リクエストの作成と送信

テキスト読み上げアバター: 新規接続の制限を引き上げる

フィードバック

その他のリソース

バッチテキスト読み上げアバター

詳細な説明、クォータの調整、およびベストプラクティス

自動スケーリング時のスロットリングを緩和するための一般的なベストプラクティス

サポートリクエストの作成と送信

ワークロードパターンの例のベストプラクティス

サポートリクエストの作成と送信