次の方法で共有


音声テキスト変換の概要

この概要では、Azure AI サービスに含まれる音声サービスの音声テキスト変換の利点と機能について説明します。 音声テキスト変換は、音声ストリームからテキストへのリアルタイムバッチ文字起こし、またはファスト トランスクリプションで使用できます。

Note

リアルタイムバッチ文字起こし、および ファスト トランスクリプションの価格を比較するには、「Speech Service の価格」を参照してください。

利用できる音声テキスト変換言語の完全なリストについては、「言語と音声のサポート」を参照してください。

リアルタイムの音声テキスト変換

リアルタイムの音声テキスト変換では、スピーチがマイクまたはファイルから認識されると、音声が文字起こしされます。 リアルタイムで音声を文字起こしする必要がある次のようなアプリケーションには、リアルタイムの音声テキスト変換を使用します:

  • ライブ会議の文字起こし、キャプション、または字幕
  • ダイアライゼーション
  • 発音評価
  • コンタクト センター エージェントの支援
  • ディクテーション
  • 音声エージェント

リアルタイムの音声テキスト変換は、Speech SDKSpeech CLI を介して利用できます。

ファスト トランスクリプション (プレビュー)

ファスト トランスクリプション API は、オーディオ ファイルを文字起こしし、その結果を同期して返すために使用されます。これは、リアルタイム オーディオよりもはるかに高速です。 ファスト トランスクリプションは、オーディオ録音の文字起こしを予測可能な待機時間でできるだけ早く必要とする次のようなシナリオで使用されます。

  • オーディオまたはビデオの文字起こし、字幕、編集を迅速に行う場合。
  • ビデオの翻訳

Note

ファスト トランスクリプション API は、音声テキスト変換 REST API バージョン 2024-05-15-preview 以降のみで使用できます。

ファスト トランスクリプションを使い始めるには、ファスト トランスクリプション API (プレビュー) の使用に関する記事をご覧ください。

バッチ文字起こし API

バッチ文字起こしは、ストレージ内の大量のオーディオを文字起こしする場合に使用されます。 Shared Access Signatures (SAS) URI でオーディオ ファイルを示して、非同期に文字起こしの結果を受け取ることができます。 次のようなオーディオを一括で文字起こしする必要があるアプリケーションでは、バッチ文字起こしを使用します。

  • 事前に録音されたオーディオの文字起こし、キャプション、または字幕
  • コンタクト センターの通話後の分析
  • ダイアライゼーション

バッチ文字起こしは、次の方法で使用できます。

Custom Speech

Custom Speech を使用すると、アプリケーションや製品に対する音声認識の正確性を評価して改善できます。 カスタム音声モデルは、リアルタイムの音声テキスト変換音声翻訳バッチ文字起こしに使用できます。

ヒント

バッチ文字起こし API で Custom Speech を使用するには、ホストされたデプロイ エンドポイントは必要ありません。 Custom Speech モデルがバッチ文字起こしにのみ使用される場合は、リソースを節約できます。 詳細については、「Speech Services の価格」を参照してください。

音声認識では、Microsoft が所有するデータを使用してトレーニングされ、一般的に使用される音声言語を反映する基本モデルとしてユニバーサル言語モデルが活用されます。面倒な設定はありません。 基本モデルは、さまざまな一般的なドメインを表す方言と発音で事前トレーニングされています。 音声認識要求を行うと、既定では、サポートされている各言語の最新の基本モデルが使用されます。 この基本モデルは、ほとんどの音声認識シナリオで適切に動作します。

カスタム モデルを使用すると、モデルをトレーニングするテキスト データを提供することによって、ベース モデルを拡張し、アプリケーションに特有のドメイン固有のボキャブラリの認識を向上させることができます。 また、参照文字起こしを含むオーディオ データを提供することで、アプリケーションの特定のオーディオ条件に基づいた認識を改善する際にも使用できます。 詳細については、「Custom Speech」と「Speech to text REST API」を参照してください。

カスタマイズ オプションは言語またはロケールによって異なります。 サポートを確認するには、「音声サービスの言語と音声のサポート」を参照してください。

責任ある AI

AI システムには、テクノロジだけでなく、それを使用する人、それによって影響を受ける人、それがデプロイされる環境も含まれます。 「透過性のためのメモ」を読み、システムでの責任ある AI の使用とデプロイについて確認してください。

次のステップ