Speech to text REST API

[アーティクル]
04/13/2024

音声テキスト変換 REST API は、バッチ文字起こしとカスタム音声に使用されます。

重要

Speech to Text REST API v3.2 はプレビューで利用できます。 Speech to Text REST API v3.1 は一般提供されています。 Speech to Text REST API v3.0 は、2026 年 4 月 1 日に廃止されます。詳細については、Speech to Text REST API v3.0 から v3.1、v3.1 から v3.2 への移行ガイドを参照してください。

Speech to Text REST API v3.2 (プレビュー) を参照してください

Speech to text REST API v3.1 のリファレンスドキュメントを参照する

Speech to text REST API v3.0 のリファレンスドキュメントを参照する

Speech to text REST API は、次の用途に使用します。

カスタム音声: カスタム音声を使用すると、独自のデータのアップロード、カスタムモデルのテストとトレーニング、モデル間の精度の比較、カスタムエンドポイントへのモデルのデプロイを行うことができます。作成したモデルに同僚がアクセスできるようにする場合や、複数のリージョンにモデルをデプロイする場合に、モデルを他のサブスクリプションにコピーする。
バッチ文字起こし: 複数の URL または Azure コンテナーからオーディオファイルをバッチとして文字起こしします。

Speech to text REST API には、次のような機能が含まれています。

そのエンドポイントに対してログが要求された場合は、各エンドポイントのログを取得します。
作成するモデルのマニフェストを要求して、オンプレミスのコンテナーを設定する。
Shared Access Signature (SAS) URI を使用して、Azure ストレージアカウントからデータを取得する。
ストレージ持ち込み。ログ、文字起こしファイル、その他のデータなどに独自のストレージアカウントを使用できます。
一部の操作では、Webhook 通知がサポートされています。通知が送信される Webhook を登録できます。

バッチ文字起こし

バッチ文字起こしには、次の操作グループを適用できます。

操作グループ	説明
Models	基本モデルまたはカスタムモデルを使用して、オーディオファイルを文字起こしします。カスタム音声とバッチ文字起こしでモデルを使用できます。たとえば、特定のデータセットでトレーニングされたモデルを使用して、オーディオファイルを文字起こしできます。カスタム音声モデルをトレーニングおよび管理する方法の例については、モデルのトレーニングとカスタム音声モデルのライフサイクルに関するページを参照してください。
編曲	文字起こしを使用して、ストレージ内の大量のオーディオを文字起こしします。バッチ文字起こしを使用する場合は、要求ごとに複数のファイルを送信するか、オーディオファイルを含む Azure Blob Storage コンテナーを指して文字起こしします。複数のオーディオファイルから文字起こしを作成する方法の例については、文字起こしの作成に関する記事を参照してください。
Web フック	Web フックを使用して、作成、処理、完了、および削除イベントに関する通知を受信します。カスタム音声とバッチ文字起こしで Web フックを使用できます。 Web フックは、データセット、エンドポイント、評価、モデル、および文字起こしに適用されます。

Custom Speech

次の操作グループは、カスタム音声に適用できます。

操作グループ	説明
データセット	データセットを使用して、カスタム音声モデルのトレーニングとテストを行います。たとえば、特定のデータセットでトレーニングされたカスタム音声のパフォーマンスを、別のデータセットでトレーニングされた基本モデルまたはカスタム音声モデルのパフォーマンスと比較できます。データセットをアップロードする方法の例については、「トレーニングおよびテストのデータセットをアップロードする」を参照してください。
エンドポイント	カスタム音声モデルをエンドポイントにデプロイします。カスタム音声モデルを使用するには、カスタムエンドポイントをデプロイする必要があります。デプロイエンドポイントを管理する方法の例については、「モデルをデプロイする」を参照してください。
評価	評価を使用して、さまざまなモデルのパフォーマンスを比較します。たとえば、特定のデータセットでトレーニングされたカスタム音声モデルのパフォーマンスを、ベースモデルまたは別のデータセットでトレーニングされたカスタムモデルのパフォーマンスと比較できます。カスタム音声モデルをテストおよび評価する方法の例については、テスト認識の品質とテストの精度に関するページを参照してください。
Models	基本モデルまたはカスタムモデルを使用して、オーディオファイルを文字起こしします。カスタム音声とバッチ文字起こしでモデルを使用できます。たとえば、特定のデータセットでトレーニングされたモデルを使用して、オーディオファイルを文字起こしできます。カスタム音声モデルをトレーニングおよび管理する方法の例については、モデルのトレーニングとカスタム音声モデルのライフサイクルに関するページを参照してください。
プロジェクト	プロジェクトを使用して、カスタム音声モデル、トレーニングおよびテストデータセット、デプロイエンドポイントを管理します。カスタム音声プロジェクトには、モデル、トレーニングとテストのデータセット、デプロイエンドポイントが含まれています。各プロジェクトはロケール別になっています。たとえば、米国の英語用のプロジェクトを作成することが考えられます。プロジェクトの作成方法の例については、「プロジェクトを作成する」を参照してください。
Web フック	Web フックを使用して、作成、処理、完了、および削除イベントに関する通知を受信します。カスタム音声とバッチ文字起こしで Web フックを使用できます。 Web フックは、データセット、エンドポイント、評価、モデル、および文字起こしに適用されます。

サービス正常性

サービス正常性は、サービスとサブコンポーネントの全体的な正常性に関する分析情報を提供します。詳細については、「サービス正常性」を参照してください。

Speech to text REST API

バッチ文字起こし

Custom Speech

サービス正常性

次のステップ

その他のリソース