Speech to text REST API
音声テキスト変換 REST API は、バッチ文字起こしとカスタム音声に使用されます。
重要
音声テキスト変換 REST API v3.2 は、一般公開されている最新バージョンです。 プレビュー バージョン 3.2-preview.1 および 3.2-preview.2* は、2024 年 9 月に削除されます。 音声テキスト変換 REST API v3.1 は、発表日に廃止されます。 アップグレードの詳細については、Speech to Text REST API v3.1 から v3.2 への移行ガイドを参照してください。 Speech to Text REST API v3.0 は、2026 年 4 月 1 日に廃止されます。 アップグレードの詳細については、Speech to Text REST API v3.0 から v3.1、v3.1 から v3.2 への移行ガイドを参照してください。
Speech to text REST API は、次の用途に使用します。
- カスタム音声: カスタム音声を使用すると、独自のデータのアップロード、カスタム モデルのテストとトレーニング、モデル間の精度の比較、カスタム エンドポイントへのモデルのデプロイを行うことができます。 作成したモデルに同僚がアクセスできるようにする場合や、複数のリージョンにモデルをデプロイする場合に、モデルを他のサブスクリプションにコピーする。
- バッチ文字起こし: 複数の URL または Azure コンテナーからオーディオ ファイルをバッチとして文字起こしします。
Speech to text REST API には、次のような機能が含まれています。
- そのエンドポイントに対してログが要求された場合は、各エンドポイントのログを取得します。
- 作成するモデルのマニフェストを要求して、オンプレミスのコンテナーを設定する。
- Shared Access Signature (SAS) URI を使用して、Azure ストレージ アカウントからデータを取得する。
- ストレージ持ち込み。 ログ、文字起こしファイル、その他のデータなどに独自のストレージ アカウントを使用できます。
- 一部の操作では、Webhook 通知がサポートされています。 通知が送信される Webhook を登録できます。
バッチ文字起こし
バッチ文字起こしには、次の操作グループを適用できます。
操作グループ | 説明 |
---|---|
Models | 基本モデルまたはカスタム モデルを使用して、オーディオ ファイルを文字起こしします。 カスタム音声とバッチ文字起こしでモデルを使用できます。 たとえば、特定のデータセットでトレーニングされたモデルを使用して、オーディオ ファイルを文字起こしできます。 カスタム音声モデルをトレーニングおよび管理する方法の例については、モデルのトレーニングとカスタム音声モデルのライフサイクルに関するページを参照してください。 |
編曲 | 文字起こしを使用して、ストレージ内の大量のオーディオを文字起こしします。 バッチ文字起こしを使用する場合は、要求ごとに複数のファイルを送信するか、オーディオ ファイルを含む Azure Blob Storage コンテナーを指して文字起こしします。 複数のオーディオ ファイルから文字起こしを作成する方法の例については、文字起こしの作成に関する記事を参照してください。 |
Web フック | Web フックを使用して、作成、処理、完了、および削除イベントに関する通知を受信します。 カスタム音声とバッチ文字起こしで Web フックを使用できます。 Web フックは、データセット、エンドポイント、評価、モデル、および文字起こしに適用されます。 |
Custom Speech
次の操作グループは、カスタム音声に適用できます。
操作グループ | 説明 |
---|---|
データセット | データセットを使用して、カスタム音声モデルのトレーニングとテストを行います。 たとえば、特定のデータセットでトレーニングされたカスタム音声のパフォーマンスを、別のデータセットでトレーニングされた基本モデルまたはカスタム音声モデルのパフォーマンスと比較できます。 データセットをアップロードする方法の例については、「トレーニングおよびテストのデータセットをアップロードする」を参照してください。 |
エンドポイント | カスタム音声モデルをエンドポイントにデプロイします。 カスタム音声モデルを使用するには、カスタム エンドポイントをデプロイする必要があります。 デプロイ エンドポイントを管理する方法の例については、「モデルをデプロイする」を参照してください。 |
評価 | 評価を使用して、さまざまなモデルのパフォーマンスを比較します。 たとえば、特定のデータセットでトレーニングされたカスタム音声モデルのパフォーマンスを、ベース モデルまたは別のデータセットでトレーニングされたカスタム モデルのパフォーマンスと比較できます。 カスタム音声モデルをテストおよび評価する方法の例については、テスト認識の品質とテストの精度に関するページを参照してください。 |
Models | 基本モデルまたはカスタム モデルを使用して、オーディオ ファイルを文字起こしします。 カスタム音声とバッチ文字起こしでモデルを使用できます。 たとえば、特定のデータセットでトレーニングされたモデルを使用して、オーディオ ファイルを文字起こしできます。 カスタム音声モデルをトレーニングおよび管理する方法の例については、モデルのトレーニングとカスタム音声モデルのライフサイクルに関するページを参照してください。 |
プロジェクト | プロジェクトを使用して、カスタム音声モデル、トレーニングおよびテスト データセット、デプロイ エンドポイントを管理します。 カスタム音声プロジェクト には、モデル、トレーニングとテストのデータセット、デプロイ エンドポイントが含まれています。 各プロジェクトはロケール別になっています。 たとえば、米国の英語用のプロジェクトを作成することが考えられます。 プロジェクトの作成方法の例については、「プロジェクトを作成する」を参照してください。 |
Web フック | Web フックを使用して、作成、処理、完了、および削除イベントに関する通知を受信します。 カスタム音声とバッチ文字起こしで Web フックを使用できます。 Web フックは、データセット、エンドポイント、評価、モデル、および文字起こしに適用されます。 |
サービス正常性
サービス正常性は、サービスとサブコンポーネントの全体的な正常性に関する分析情報を提供します。 詳細については、「 サービス正常性」 を参照してください。
次のステップ
フィードバック
https://aka.ms/ContentUserFeedback」を参照してください。
以下は間もなく提供いたします。2024 年を通じて、コンテンツのフィードバック メカニズムとして GitHub の issue を段階的に廃止し、新しいフィードバック システムに置き換えます。 詳細については、「フィードバックの送信と表示