音声テキスト変換 REST API

音声テキスト変換 REST API は、高速文字起こし、バッチ文字起こし、カスタム音声に使用されます。

重要

Speech to Text REST API バージョン 2025-10-15 は、一般提供されている最新バージョンです。

Speech to Text REST API バージョン 2024-05-15-preview の廃止日は後日発表されます。
音声テキスト変換 REST API v3.0、 v3.1、 v3.2、 3.2-preview.1、 3.2-preview.2 は、2026 年 3 月 31 日に廃止されます。

アップグレードの詳細については、Speech to Text REST API v3.0 から v3.1、 v3.1 から v3.2、 v3.2 から 2024-11-15 、 2024-11-15 から 2025-10-15 への移行ガイドを参照してください。

Speech to Text REST API 2025-10-15 リファレンスドキュメントを参照してください

Speech to Text REST API を使用して、次の操作を行います。

ファストトランスクリプション: オーディオファイルを文字起こしし、その結果を同期して返します。これは、リアルタイムオーディオよりもはるかに高速です。ファストトランスクリプション API (/speechtotext/transcriptions:transcribe) は、オーディオ録音の文字起こしを予測可能な待機時間でできるだけ早く必要とするシナリオ (オーディオまたはビデオの文字起こしやビデオ翻訳など) で使用されます。
バッチ文字起こし: 複数の URL または Azure コンテナーからオーディオファイルをバッチとして文字起こしします。大量のファイルや長いオーディオファイルなど、ストレージ内の大量のオーディオを文字起こしする必要があるシナリオでは、バッチ文字起こし API (/speechtotext/transcriptions:submit) を使用します。
カスタム音声: 独自データのアップロード、カスタムモデルのテストとトレーニング、モデル間での正確性の比較、カスタムエンドポイントへのモデルのデプロイを行います。作成したモデルに同僚がアクセスできるようにする場合や、複数のリージョンにモデルをデプロイする場合に、モデルを他のサブスクリプションにコピーする。

Speech to text REST API には、次のような機能が含まれています。

各エンドポイントの要求ログ。
作成するモデルのマニフェストを要求して、オンプレミスのコンテナーを設定する。
Shared Access Signature (SAS) URI を使用して、Azure ストレージアカウントからデータを取得する。
ストレージ持ち込み。ログ、文字起こしファイル、その他のデータなどに独自のストレージアカウントを使用できます。
一部の操作では、Webhook 通知がサポートされています。通知が送信される Webhook を登録できます。

高速文字起こし

高速文字起こしには、次の操作グループを適用できます。

操作グループ	説明
文字起こし	文字起こし - 文字起こしを使用してオーディオファイルを文字起こしします。高速文字起こしを使用する場合は、要求ごとに 1 つのファイルを送信します。 1 つのオーディオファイルから文字起こしを作成する方法の例については、「文字起こしの作成」を参照してください。

バッチ文字起こし

次の操作グループは、バッチ文字起こしに適用できます。

操作グループ	説明
Models	基本モデルまたはカスタムモデルを使用して、オーディオファイルを文字起こしします。カスタム音声とバッチ文字起こしにモデルを使用できます。たとえば、特定のデータセットでトレーニングされたモデルを使用して、オーディオファイルを文字起こしできます。カスタム音声モデルをトレーニングおよび管理する方法の例については、モデルのトレーニングおよびカスタム音声モデルのライフサイクルに関するページを参照してください。
文字起こし	文字起こしを使用する - 送信して、ストレージ内の大量のオーディオを文字起こしします。バッチ文字起こしを使用する場合は、要求ごとに複数のファイルを送信するか、文字起こしするオーディオファイルを含む Azure Blob Storage コンテナーをポイントします。複数のオーディオファイルから文字起こしを作成する方法の例については、文字起こしの作成に関する記事を参照してください。
Web フック	Webhook を使用して、作成、処理、完了、削除の各イベントに関する通知を受信します。カスタム音声とバッチ文字起こしに Webhook を使用できます。 Webhook はデータセット、エンドポイント、評価、モデル、文字起こしに適用されます。

カスタム音声

次の操作グループは、カスタム音声に適用できます。

操作グループ	説明
データセット	データセットを使用して、カスタム音声モデルのトレーニングとテストを行います。たとえば、特定のデータセットでトレーニングされたカスタム音声のパフォーマンスと、別のデータセットでトレーニングされた基本モデルまたはカスタム音声モデルのパフォーマンスを比較できます。データセットをアップロードする方法の例については、「トレーニングおよびテストのデータセットをアップロードする」を参照してください。
エンドポイント	カスタム音声モデルをエンドポイントにデプロイします。カスタム音声モデルを使用するには、カスタムエンドポイントをデプロイする必要があります。デプロイエンドポイントを管理する方法の例については、「モデルをデプロイする」を参照してください。
評価	評価を使用して、さまざまなモデルのパフォーマンスを比較します。たとえば、特定のデータセットでトレーニングされたカスタム音声モデルのパフォーマンスと、別のデータセットでトレーニングされた基本モデルまたはカスタムモデルのパフォーマンスを比較できます。カスタム音声モデルをテストおよび評価する方法の例については、認識品質のテストおよびテストの精度に関するページを参照してください。
Models	基本モデルまたはカスタムモデルを使用して、オーディオファイルを文字起こしします。カスタム音声とバッチ文字起こしにモデルを使用できます。たとえば、特定のデータセットでトレーニングされたモデルを使用して、オーディオファイルを文字起こしできます。カスタム音声モデルをトレーニングおよび管理する方法の例については、モデルのトレーニングおよびカスタム音声モデルのライフサイクルに関するページを参照してください。
プロジェクト	プロジェクトを使用して、カスタム音声モデル、トレーニングおよびテストデータセット、デプロイエンドポイントを管理します。カスタム音声プロジェクトには、モデル、トレーニングとテストのデータセット、デプロイエンドポイントが含まれています。各プロジェクトはロケールに固有です。たとえば、米国で英語用のプロジェクトを作成できます。プロジェクトの作成方法の例については、「プロジェクトの作成」を参照してください。
Web フック	Webhook を使用して、作成、処理、完了、削除の各イベントに関する通知を受信します。カスタム音声とバッチ文字起こしに Webhook を使用できます。 Webhook はデータセット、エンドポイント、評価、モデル、文字起こしに適用されます。

フィードバック

このページはお役に立ちましたか?

Last updated on 2025-11-21

次の方法で共有

音声テキスト変換 REST API

高速文字起こし

バッチ文字起こし

カスタム音声

関連コンテンツ

フィードバック

その他のリソース