音声テキスト変換の概要

この概要では、Azure AI サービスに含まれる音声サービスの音声テキスト変換の利点と機能について説明します。 音声テキスト変換は、音声ストリームからテキストへのリアルタイムまたはバッチ文字起こしで使用できます。

Note

リアルタイム文字起こしバッチ文字起こしの価格を比較するには、「Speech Service の価格」を参照してください。

利用できる音声テキスト変換言語の完全なリストについては、「言語と音声のサポート」を参照してください。

リアルタイムの音声テキスト変換

リアルタイムの音声テキスト変換では、スピーチがマイクまたはファイルから認識されると、音声が文字起こしされます。 リアルタイムで音声を文字起こしする必要がある次のようなアプリケーションには、リアルタイムの音声テキスト変換を使用します:

  • ライブ会議の文字起こし、キャプション、または字幕
  • ダイアライゼーション
  • 発音評価
  • コンタクト センター エージェントの支援
  • ディクテーション
  • 音声エージェント

リアルタイムの音声テキスト変換は、Speech SDKSpeech CLI を介して利用できます。

バッチ文字起こし

バッチ文字起こしは、ストレージ内の大量のオーディオを文字起こしする場合に使用されます。 Shared Access Signatures (SAS) URI でオーディオ ファイルを示して、非同期に文字起こしの結果を受け取ることができます。 次のようなオーディオを一括で文字起こしする必要があるアプリケーションでは、バッチ文字起こしを使用します。

  • 事前に録音されたオーディオの文字起こし、キャプション、または字幕
  • コンタクト センターの通話後の分析
  • ダイアライゼーション

バッチ文字起こしは、次の方法で使用できます。

Custom Speech

Custom Speech を使用すると、アプリケーションや製品に対する音声認識の正確性を評価して改善できます。 カスタム音声モデルは、リアルタイムの音声テキスト変換音声翻訳バッチ文字起こしに使用できます。

ヒント

バッチ文字起こし API で Custom Speech を使用するには、ホストされたデプロイ エンドポイントは必要ありません。 Custom Speech モデルがバッチ文字起こしにのみ使用される場合は、リソースを節約できます。 詳細については、「Speech Services の価格」を参照してください。

音声認識では、Microsoft が所有するデータを使用してトレーニングされ、一般的に使用される音声言語を反映する基本モデルとしてユニバーサル言語モデルが活用されます。面倒な設定はありません。 基本モデルは、さまざまな一般的なドメインを表す方言と発音で事前トレーニングされています。 音声認識要求を行うと、既定では、サポートされている各言語の最新の基本モデルが使用されます。 この基本モデルは、ほとんどの音声認識シナリオで適切に動作します。

カスタム モデルを使用すると、モデルをトレーニングするテキスト データを提供することによって、ベース モデルを拡張し、アプリケーションに特有のドメイン固有のボキャブラリの認識を向上させることができます。 また、参照文字起こしを含むオーディオ データを提供することで、アプリケーションの特定のオーディオ条件に基づいた認識を改善する際にも使用できます。 詳細については、「Custom Speech」と「Speech to text REST API」を参照してください。

カスタマイズ オプションは言語またはロケールによって異なります。 サポートを確認するには、「音声サービスの言語と音声のサポート」を参照してください。

責任ある AI

AI システムには、テクノロジだけでなく、それを使用する人、それによって影響を受ける人、それがデプロイされる環境も含まれます。 「透過性のためのメモ」を読み、システムでの責任ある AI の使用とデプロイについて確認してください。

次のステップ