音声テキスト変換 REST API は、高速文字 起こし、 バッチ文字起こし 、 カスタム音声に使用されます。
重要
Speech to Text REST API バージョン 2025-10-15 は、一般提供されている最新バージョンです。
-
Speech to Text REST API バージョン
2024-05-15-previewの廃止日は後日発表されます。 - 音声テキスト変換 REST API
v3.0、v3.1、v3.2、3.2-preview.1、3.2-preview.2は、2026 年 3 月 31 日に廃止されます。
アップグレードの詳細については、Speech to Text REST API v3.0 から v3.1、 v3.1 から v3.2、 v3.2 から 2024-11-15 、 2024-11-15 から 2025-10-15 への 移行ガイドを参照してください。
Speech to Text REST API を使用して、次の操作を行います。
- ファスト トランスクリプション: オーディオ ファイルを文字起こしし、その結果を同期して返します。これは、リアルタイム オーディオよりもはるかに高速です。 ファスト トランスクリプション API (/speechtotext/transcriptions:transcribe) は、オーディオ録音の文字起こしを予測可能な待機時間でできるだけ早く必要とするシナリオ (オーディオまたはビデオの文字起こしやビデオ翻訳など) で使用されます。
- バッチ文字起こし: 複数の URL または Azure コンテナーからオーディオ ファイルをバッチとして文字起こしします。 大量のファイルや長いオーディオ ファイルなど、ストレージ内の大量のオーディオを文字起こしする必要があるシナリオでは、バッチ文字起こし API (/speechtotext/transcriptions:submit) を使用します。
- カスタム音声: 独自データのアップロード、カスタム モデルのテストとトレーニング、モデル間での正確性の比較、カスタム エンドポイントへのモデルのデプロイを行います。 作成したモデルに同僚がアクセスできるようにする場合や、複数のリージョンにモデルをデプロイする場合に、モデルを他のサブスクリプションにコピーする。
Speech to text REST API には、次のような機能が含まれています。
- 各エンドポイントの要求ログ。
- 作成するモデルのマニフェストを要求して、オンプレミスのコンテナーを設定する。
- Shared Access Signature (SAS) URI を使用して、Azure ストレージ アカウントからデータを取得する。
- ストレージ持ち込み。 ログ、文字起こしファイル、その他のデータなどに独自のストレージ アカウントを使用できます。
- 一部の操作では、Webhook 通知がサポートされています。 通知が送信される Webhook を登録できます。
高速文字起こし
高速 文字起こしには、次の操作グループを適用できます。
| 操作グループ | 説明 |
|---|---|
| 文字起こし |
文字起こし - 文字起こしを使用してオーディオ ファイルを文字起こしします。 高速文字起こしを使用する場合は、要求ごとに 1 つのファイルを送信します。 1 つのオーディオ ファイルから 文字起こし を作成する方法の例については、「文字起こしの作成」を参照してください。 |
バッチ文字起こし
次の操作グループは、バッチ文字起こしに適用できます。
| 操作グループ | 説明 |
|---|---|
| Models | 基本モデルまたはカスタム モデルを使用して、オーディオ ファイルを文字起こしします。 カスタム音声とバッチ文字起こしにモデルを使用できます。 たとえば、特定のデータセットでトレーニングされたモデルを使用して、オーディオ ファイルを文字起こしできます。 カスタム音声モデルをトレーニングおよび管理する方法の例については、モデルのトレーニングおよびカスタム音声モデルのライフサイクルに関するページを参照してください。 |
| 文字起こし |
文字起こしを使用する - 送信して、ストレージ内の大量のオーディオを文字起こしします。 バッチ文字起こしを使用する場合は、要求ごとに複数のファイルを送信するか、文字起こしするオーディオ ファイルを含む Azure Blob Storage コンテナーをポイントします。 複数のオーディオ ファイルから文字起こしを作成する方法の例については、文字起こしの作成に関する記事を参照してください。 |
| Web フック | Webhook を使用して、作成、処理、完了、削除の各イベントに関する通知を受信します。 カスタム音声とバッチ文字起こしに Webhook を使用できます。 Webhook は データセット、エンドポイント、評価、モデル、文字起こしに適用されます。 |
カスタム音声
次の操作グループは、カスタム音声に適用できます。
| 操作グループ | 説明 |
|---|---|
| データセット | データセットを使用して、カスタム音声モデルのトレーニングとテストを行います。 たとえば、特定のデータセットでトレーニングされたカスタム音声のパフォーマンスと、別のデータセットでトレーニングされた基本モデルまたはカスタム音声モデルのパフォーマンスを比較できます。 データセットをアップロードする方法の例については、「トレーニングおよびテストのデータセットをアップロードする」を参照してください。 |
| エンドポイント | カスタム音声モデルをエンドポイントにデプロイします。 カスタム音声モデルを使用するには、カスタム エンドポイントをデプロイする必要があります。 デプロイ エンドポイントを管理する方法の例については、「モデルをデプロイする」を参照してください。 |
| 評価 | 評価を使用して、さまざまなモデルのパフォーマンスを比較します。 たとえば、特定のデータセットでトレーニングされたカスタム音声モデルのパフォーマンスと、別のデータセットでトレーニングされた基本モデルまたはカスタム モデルのパフォーマンスを比較できます。 カスタム音声モデルをテストおよび評価する方法の例については、認識品質のテストおよびテストの精度に関するページを参照してください。 |
| Models | 基本モデルまたはカスタム モデルを使用して、オーディオ ファイルを文字起こしします。 カスタム音声とバッチ文字起こしにモデルを使用できます。 たとえば、特定のデータセットでトレーニングされたモデルを使用して、オーディオ ファイルを文字起こしできます。 カスタム音声モデルをトレーニングおよび管理する方法の例については、モデルのトレーニングおよびカスタム音声モデルのライフサイクルに関するページを参照してください。 |
| プロジェクト | プロジェクトを使用して、カスタム音声モデル、トレーニングおよびテスト データセット、デプロイ エンドポイントを管理します。 カスタム音声プロジェクト には、モデル、トレーニングとテストのデータセット、デプロイ エンドポイントが含まれています。 各プロジェクトは ロケールに固有です。 たとえば、米国で英語用のプロジェクトを作成できます。 プロジェクトの作成方法の例については、「プロジェクトの作成」を参照してください。 |
| Web フック | Webhook を使用して、作成、処理、完了、削除の各イベントに関する通知を受信します。 カスタム音声とバッチ文字起こしに Webhook を使用できます。 Webhook は データセット、エンドポイント、評価、モデル、文字起こしに適用されます。 |