Speech to text REST API

音声テキスト変換 REST API は、バッチ文字起こしカスタム音声に使用されます。

重要

Speech to Text REST API v3.2 はプレビューで利用できます。 Speech to Text REST API v3.1 は一般提供されています。 Speech to Text REST API v3.0 は、2026 年 4 月 1 日に廃止されます。 詳細については、Speech to Text REST API v3.0 から v3.1v3.1 から v3.2 への移行ガイドを参照してください。

Speech to text REST API は、次の用途に使用します。

  • カスタム音声: カスタム音声を使用すると、独自のデータのアップロード、カスタム モデルのテストとトレーニング、モデル間の精度の比較、カスタム エンドポイントへのモデルのデプロイを行うことができます。 作成したモデルに同僚がアクセスできるようにする場合や、複数のリージョンにモデルをデプロイする場合に、モデルを他のサブスクリプションにコピーする。
  • バッチ文字起こし: 複数の URL または Azure コンテナーからオーディオ ファイルをバッチとして文字起こしします。

Speech to text REST API には、次のような機能が含まれています。

  • そのエンドポイントに対してログが要求された場合は、各エンドポイントのログを取得します。
  • 作成するモデルのマニフェストを要求して、オンプレミスのコンテナーを設定する。
  • Shared Access Signature (SAS) URI を使用して、Azure ストレージ アカウントからデータを取得する。
  • ストレージ持ち込み。 ログ、文字起こしファイル、その他のデータなどに独自のストレージ アカウントを使用できます。
  • 一部の操作では、Webhook 通知がサポートされています。 通知が送信される Webhook を登録できます。

バッチ文字起こし

バッチ文字起こしには、次の操作グループを適用できます。

操作グループ 説明
Models 基本モデルまたはカスタム モデルを使用して、オーディオ ファイルを文字起こしします。

カスタム音声とバッチ文字起こしモデルを使用できます。 たとえば、特定のデータセットでトレーニングされたモデルを使用して、オーディオ ファイルを文字起こしできます。 カスタム音声モデルをトレーニングおよび管理する方法の例については、モデルのトレーニングとカスタム音声モデルのライフサイクルに関するページを参照してください。
編曲 文字起こしを使用して、ストレージ内の大量のオーディオを文字起こしします。

バッチ文字起こしを使用する場合は、要求ごとに複数のファイルを送信するか、オーディオ ファイルを含む Azure Blob Storage コンテナーを指して文字起こしします。 複数のオーディオ ファイルから文字起こしを作成する方法の例については、文字起こしの作成に関する記事を参照してください。
Web フック Web フックを使用して、作成、処理、完了、および削除イベントに関する通知を受信します。

カスタム音声とバッチ文字起こしWeb フックを使用できます。 Web フックは、データセット、エンドポイント評価モデルおよび文字起こしに適用されます。

Custom Speech

次の操作グループは、カスタム音声適用できます。

操作グループ 説明
データセット データセットを使用して、カスタム音声モデルのトレーニングとテストを行います。

たとえば、特定のデータセットでトレーニングされたカスタム音声のパフォーマンスを、別のデータセットでトレーニングされた基本モデルまたはカスタム音声モデルのパフォーマンスと比較できます。 データセットをアップロードする方法の例については、「トレーニングおよびテストのデータセットをアップロードする」を参照してください。
エンドポイント カスタム音声モデルをエンドポイントにデプロイします。

カスタム音声モデルを使用するには、カスタム エンドポイントをデプロイする必要があります。 デプロイ エンドポイントを管理する方法の例については、「モデルをデプロイする」を参照してください。
評価 評価を使用して、さまざまなモデルのパフォーマンスを比較します。

たとえば、特定のデータセットでトレーニングされたカスタム音声モデルのパフォーマンスを、ベース モデルまたは別のデータセットでトレーニングされたカスタム モデルのパフォーマンスと比較できます。 カスタム音声モデルをテストおよび評価する方法の例については、テスト認識の品質とテストの精度に関するページを参照してください。
Models 基本モデルまたはカスタム モデルを使用して、オーディオ ファイルを文字起こしします。

カスタム音声とバッチ文字起こしモデルを使用できます。 たとえば、特定のデータセットでトレーニングされたモデルを使用して、オーディオ ファイルを文字起こしできます。 カスタム音声モデルをトレーニングおよび管理する方法の例については、モデルのトレーニングとカスタム音声モデルのライフサイクルに関するページを参照してください。
プロジェクト プロジェクトを使用して、カスタム音声モデル、トレーニングおよびテスト データセット、デプロイ エンドポイントを管理します。

カスタム音声プロジェクト には、モデル、トレーニングとテストのデータセット、デプロイ エンドポイントが含まれています。 各プロジェクトはロケール別になっています。 たとえば、米国の英語用のプロジェクトを作成することが考えられます。 プロジェクトの作成方法の例については、「プロジェクトを作成する」を参照してください。
Web フック Web フックを使用して、作成、処理、完了、および削除イベントに関する通知を受信します。

カスタム音声とバッチ文字起こしWeb フックを使用できます。 Web フックは、データセット、エンドポイント評価モデルおよび文字起こしに適用されます。

サービス正常性

サービス正常性は、サービスとサブコンポーネントの全体的な正常性に関する分析情報を提供します。 詳細については、「 サービス正常性」 を参照してください。

次のステップ