音声テキスト変換の概要

2025-03-10

Azure AI Speech サービスには、高度な音声テキスト変換機能が用意されています。この機能では、リアルタイムおよびバッチの両方の文字起こしをサポートしており、オーディオストリームをテキストに変換するための汎用性の高いソリューションを実現できます。

コア機能

音声テキスト変換サービスで提供する主要な機能は次のとおりです。

リアルタイムの文字起こし: ライブオーディオ入力に対する、中間結果を伴うインスタント文字起こしです。
ファストトランスクリプション: 予測可能な待機時間がある状況での最速の同期出力です。
バッチ文字起こし: 大量の録音済みオーディオに対して効率的な処理を行います。
Custom Speech: 特定のドメインおよび条件に対して精度を強化したモデルです。

リアルタイムの音声テキスト変換

リアルタイムの音声テキスト変換では、マイクまたはファイルからオーディオを認識すると、その文字起こしを行います。これは、次のような即時の文字起こしを必要とする用途に最適です。

ライブ会議の文字起こし、キャプション、または字幕: アクセシビリティと記録保持のためのリアルタイムのオーディオ文字起こしです。
ダイアライゼーション: オーディオ内のさまざまなスピーカーを識別して区別します。
発音評価: 発音の精度に関する評価を行いフィードバックを提供します。
コールセンターエージェントの支援: カスタマーサービス担当者を支援するリアルタイムの文字起こしを提供します。
ディクテーション: 文書化を目的として、発話された単語を文字テキストに文字起こしします。
音声エージェント: 対話型音声応答システムでユーザーのクエリとコマンドを文字起こしできるようにします。

リアルタイムの音声テキスト変換には、Speech SDK、Speech CLI、REST API を介してアクセスできます。このため、さまざまなアプリケーションおよびワークフローへの統合が可能です。リアルタイムの音声テキスト変換は、Speech SDK、Speech CLI、Speech to text REST API for short audio を使用して利用できます。

高速文字起こし

ファストトランスクリプション API を使用すると、オーディオファイルが文字起こしされ、その結果が同期して返されます。これは、リアルタイムオーディオよりも高速です。ファストトランスクリプションは、オーディオ録音の文字起こしを予測可能な待機時間でできるだけ早く必要とする次のようなシナリオで使用されます。

オーディオまたはビデオのクイック文字起こしおよび字幕: ビデオまたはオーディオファイル全体の文字起こしを、一度にすばやく取得します。
ビデオ翻訳: 様々な言語のオーディオが含まれる場合でも、ビデオの新しい字幕をすぐに取得します。

ファストトランスクリプションを使い始める場合は、ファストトランスクリプション API の使用に関する記事をご覧ください。

バッチ文字起こし API

バッチ文字起こしは、ファイルに格納されている大量のオーディオを文字起こしできるように設計されています。この手法は、オーディオを非同期的に処理し、次の場合に適しています。

事前に録音されたオーディオの文字起こし、キャプション、または字幕: 保存されたオーディオコンテンツをテキストに変換します。
コンタクトセンターの通話後の分析: 録音された通話を分析して貴重な分析情報を抽出します。
ダイアライゼーション: 録音されたオーディオ内のスピーカーを区別します。

バッチ文字起こしは、次の方法で使用できます。

音声テキスト変換 REST API: 柔軟性の高い RESTful 呼び出しを利用してバッチ処理を容易にします。使用を開始するには、「バッチ文字起こしの使用方法」および「バッチ文字起こしのサンプル」を参照してください。
Speech CLI: リアルタイムおよびバッチ文字起こしの両方をサポートしているので、文字起こしのタスクの管理が簡単になります。バッチ文字起こしに関する音声 CLI ヘルプを表示するには、次のコマンドを実行します。
```
spx help batch transcription
```

Custom Speech

Custom Speech を使用すると、アプリケーションや製品に対する音声認識の正確性を評価して改善できます。カスタム音声モデルは、リアルタイムの音声テキスト変換、音声翻訳、バッチ文字起こしに使用できます。

ヒント

バッチ文字起こし API で Custom Speech を使用するには、ホストされたデプロイエンドポイントは必要ありません。 Custom Speech モデルがバッチ文字起こしにのみ使用される場合は、リソースを節約できます。詳細については、「Speech Services の価格」を参照してください。

音声認識では、Microsoft が所有するデータを使用してトレーニングされ、一般的に使用される音声言語を反映する基本モデルとしてユニバーサル言語モデルが活用されます。面倒な設定はありません。基本モデルは、さまざまな一般的なドメインを表す方言と発音で事前トレーニングされています。音声認識要求を行うと、既定では、サポートされている各言語の最新の基本モデルが使用されます。この基本モデルは、ほとんどの音声認識シナリオで適切に動作します。

Custom Speech を使用すると、アプリケーション固有のニーズに合わせて音声認識モデルを調整できます。これは、次の場合に特に役立ちます。

分野固有のボキャブラリの認識を向上させる: 該当するフィールドに関連するテキストデータを使用してモデルをトレーニングします。
特定のオーディオ条件について精度を向上させる: オーディオデータと参照文字起こしを使用してモデルを調整します。

Custom Speech の詳細については、Custom Speech の概要に関するドキュメントおよび「音声テキスト変換 REST API」を参照してください。

言語およびロケールごとのカスタマイズオプションの詳細については、「音声サービスの言語と音声のサポート」を参照してください。

使用例

Azure AI 音声テキスト変換を活用する方法の実用的な例を以下にいくつか紹介します。

ユースケース	シナリオ	解決策
ライブ会議の文字起こしとキャプション	仮想イベントプラットフォームでは、リアルタイムのキャプションをウェビナーに提供する必要があります。	Speech SDK を使用してリアルタイムの音声テキスト変換を統合し、イベント中にライブで表示されるキャプションに音声コンテンツを文字起こしします。
カスタマーサービスの強化	コールセンターでは、顧客の通話の文字起こしをリアルタイムで提供することで、エージェントを支援したいと考えています。	Speech CLI を介したリアルタイムの音声テキスト変換を使用して通話を文字起こしすることで、エージェントが顧客のクエリをより適切に理解し応答できるようにします。
ビデオ字幕	ビデオホスティングプラットフォームでは、ビデオの一連の字幕をすばやく生成する必要があります。	ファストトランスクリプションを使用して、ビデオ全体の一連の字幕をすばやく取得します。
教育ツール	E ラーニングプラットフォームでは、ビデオ講義の文字起こしを提供することを目的としています。	音声テキスト変換 REST API を介したバッチ文字起こしを適用して事前に録画された講義ビデオを処理し、学生向けのテキストトランスクリプトを生成します。
医療文書	医療機関は、患者の相談内容を文書化する必要があります。	ディクテーションにリアルタイムの音声テキスト変換を使用し、医療専門家が自分のメモを読み上げると、それが即座に文字起こしされるようにします。カスタムモデルを使用して、特定の医療用語の認識を強化します。
メディアとエンターテイメント	メディア企業は、ビデオの大規模なアーカイブについて字幕を作成したいと考えています。	バッチ文字起こしを使用してビデオファイルを一括処理し、ビデオごとに正確な字幕を生成します。
市場リサーチ	市場リサーチ会社は、オーディオ録音から、顧客フィードバックを分析する必要があります。	バッチ文字起こしを採用してオーディオフィードバックをテキストに変換し、分析と分析情報の抽出が容易に行えるようにします。

責任ある AI

AI システムには、テクノロジだけでなく、それを使用する人、それによって影響を受ける人、それがデプロイされる環境も含まれます。「透過性のためのメモ」を読み、システムでの責任ある AI の使用とデプロイについて確認してください。

音声テキスト変換の概要
バッチ文字起こしを作成する
価格の詳細については、音声サービスの価格に関するページを参照してください。

次の方法で共有