バッチ文字起こしとは

バッチ文字起こしは、ストレージ内の大量のオーディオ データを文字起こしする場合に使用されます。 音声テキスト変換 REST APISpeech CLI の両方で、バッチ文字起こしがサポートされています。

注意

バッチ トランスクリプトを使用するには、サブスクリプションで標準の Speech リソース (S0) が必要になります。 無料リソース (F0) はサポートされていません。 詳細については、価格と制限に関するページを参照してください。

要求ごとに複数のファイルを提供するか、文字起こしするオーディオ ファイルを含む Azure Blob Storage コンテナーをポイントする必要があります。 バッチ文字起こしサービスでは、送信された多数の文字起こしを処理できます。 サービスによってファイルが同時に文字起こしされ、ターンアラウンド時間が短縮されます。

それはどのように機能するのでしょうか。

バッチ文字起こしでは、オーディオ データを送信し、文字起こしの結果を非同期的に取得します。 サービスではオーディオ データを文字起こしし、その結果をストレージ コンテナーに格納します。 その後、ストレージ コンテナーから結果を取得できます。

バッチ文字起こしの使用を開始するには、次のハウツー ガイドを参照してください。

  1. バッチ文字起こし用のオーディオ ファイルを検索する - 独自のデータをアップロードするか、パブリック URI または Shared Access Signature (SAS) URI を使用して既存のオーディオ ファイルを使用できます。
  2. バッチ文字起こしを作成する - オーディオ ファイル、文字起こし言語、文字起こしモデルなどのパラメーターを使用して文字起こしジョブを送信します。
  3. バッチ文字起こしの結果を取得する - 文字起こしの状態を確認し、文字起こしの結果を非同期で取得します。

バッチ文字起こしジョブは、ベスト エフォートの原則でスケジュールされます。 ジョブがいつ実行状態に変わるかは推定できませんが、通常のシステム負荷では数分以内に起こるはずです。 ジョブが実行中の状態になると、文字起こしはオーディオ ランタイムの再生速度よりも速く行われます。

次のステップ