次の方法で共有


音声テキスト変換の概要

Foundry Tools サービスの Azure Speech には、高度な音声テキスト変換機能が用意されています。 この機能では、リアルタイムおよびバッチの両方の文字起こしをサポートしており、オーディオ ストリームをテキストに変換するための汎用性の高いソリューションを実現できます。

音声テキスト変換のコア機能

音声テキスト変換サービスで提供する主要な機能は次のとおりです。

リアルタイム文字起こし

リアルタイムの音声テキスト変換では、マイクまたはファイルからオーディオを認識すると、その文字起こしを行います。 これは、次のような即時の文字起こしを必要とする用途に最適です。

  • アクセシビリティと記録保持のためのリアルタイムオーディオ文字起こし。
  • 発音の精度に関する評価とフィードバックの提供。
  • 顧客サービス担当者を支援するリアルタイムの文字起こしを提供します。
  • ドキュメントの目的で、読み上げられた単語を書き込まれたテキストに文字起こしする。
  • 対話型の音声応答システムでユーザーのクエリとコマンドを文字起こしできるようにする。

リアルタイムの音声テキスト変換は、Speech SDKSpeech CLISpeech to text REST API for short audio を使用して利用できます。

高速文字起こし

高速文字起こし API を使用してオーディオ ファイルを文字起こしし、リアルタイム オーディオよりも同期的かつ高速に結果を返します。 次のような予測可能な待機時間でオーディオ録音のトランスクリプトを可能な限り迅速に必要とするシナリオでは、高速文字起こしを使用します。

  • クイックなオーディオファイルの文字起こし、キャプション作成、および編集
  • 会議のメモ
  • ボイスメール

詳細については、 高速文字起こし API の使用を参照してください。

ダイアライゼーション

Diarization は、オーディオ録音で異なるスピーカーを区別および分離するプロセスです。 この機能は、会話、会議、またはマルチスピーカーオーディオコンテンツの文字起こしに特に役立ちます。 音声サービスは、オーディオ録音で最大 35 個の異なるスピーカーを識別できます (サービスが 35 を超えるスピーカーを認識すると、エラーがスローされます)。

開始するには、 Diarization クイック スタート を参照してください。

フレーズ リスト

フレーズ リスト機能を使用すると、音声で読み上げる可能性が高い特定の単語またはフレーズのリストを音声認識モデルに提供できます。 これは、特にドメイン固有の用語、固有名詞、または一般的でない単語の文字起こしの精度を向上するのに役立ちます。 フレーズ リストを使用すると、これらの用語をより適切に認識して文字起こしできるようにモデルをガイドできます。

言語検出

言語検出を使用すると、音声認識モデルはオーディオ入力で話されている言語を自動的に識別できます。 これは、オーディオの言語が事前に不明な場合や、多言語のオーディオ コンテンツがある場合に便利です。 言語を検出することで、モデルは適切な言語固有の認識アルゴリズムを適用でき、文字起こしの精度を大幅に向上させることができます。

バッチ文字起こし

バッチ文字起こしは、ファイルに格納されている大量のオーディオを文字起こしできるように設計されています。 この手法は、オーディオを非同期的に処理し、次の場合に適しています。

  • 大量のオーディオ ファイルの文字起こし、キャプション、または字幕
  • コール センターで記録された通話を分析して、貴重な分析情報を抽出します。

バッチ文字起こしには、次の方法でアクセスできます。

  • 音声テキスト変換 REST API: 柔軟性の高い RESTful 呼び出しを利用してバッチ処理を容易にします。 開始するには、「バッチ文字起こしの使用方法およびバッチ文字起こしサンプルを参照してください。

  • Speech CLI: リアルタイムおよびバッチ文字起こしの両方をサポートしているので、文字起こしのタスクの管理が簡単になります。 バッチ文字起こしに関する音声 CLI ヘルプを表示するには、次のコマンドを実行します。

    spx help batch transcription
    

Custom Speech

カスタム音声を使用すると、アプリケーションと製品の音声認識の精度を評価および向上させることができます。 カスタム音声モデルを使用して、 リアルタイムの音声テキスト変換音声翻訳バッチ文字起こしを行います。

ヒント

Batch 文字起こし API でカスタム音声を使用するには、ホストされたデプロイ エンドポイントは必要ありません。 バッチ文字起こしにのみ カスタム音声モデル を使用する場合は、リソースを節約できます。 詳細については、Speech Services の価格に関するページを参照してください。

既定では、音声認識では基本モデルとしてユニバーサル言語モデルが使用されます。 Microsoft は、所有するデータを使用して基本モデルをトレーニングするため、一般的に使用される音声言語が反映されます。 基本モデルは、さまざまな一般的なドメインを表す方言とふりがなで事前トレーニングされています。 音声認識要求を行うと、既定では、サポートされている各言語の最新の基本モデルが使用されます。 この基本モデルは、ほとんどの音声認識シナリオで適切に動作します。

カスタム音声を使用すると、アプリケーションの特定のニーズに合わせて音声認識モデルを調整できます。 この調整は、次の場合に特に役立ちます。

  • 分野固有のボキャブラリの認識を向上させる: 該当するフィールドに関連するテキスト データを使用してモデルをトレーニングします。
  • 特定のオーディオ条件について精度を向上させる: オーディオ データと参照文字起こしを使用してモデルを調整します。

Custom Speech の詳細については、Custom Speech の概要に関するドキュメントおよび「音声テキスト変換 REST API」を参照してください。

言語およびロケールごとのカスタマイズ オプションの詳細については、「音声サービスの言語と音声のサポート」を参照してください。

使用例

音声テキスト変換Azure利用する方法の実用的な例を次に示します。

使用事例 シナリオ 解決策
ライブ会議の文字起こしとキャプション 仮想イベント プラットフォームでは、リアルタイムのキャプションをウェビナーに提供する必要があります。 Speech SDK を使用してリアルタイムの音声テキスト変換を統合し、イベント中にライブで表示されるキャプションに音声コンテンツを文字起こしします。
カスタマー サービスの強化 コール センターでは、顧客の通話の文字起こしをリアルタイムで提供することで、エージェントを支援したいと考えています。 Speech CLI を介したリアルタイムの音声テキスト変換を使用して通話を文字起こしすることで、エージェントが顧客のクエリをより適切に理解し応答できるようにします。
ビデオ字幕 ビデオ ホスティング プラットフォームでは、ビデオの一連の字幕をすばやく生成する必要があります。 ファスト トランスクリプションを使用して、ビデオ全体の一連の字幕をすばやく取得します。
教育ツール E ラーニング プラットフォームでは、ビデオ講義の文字起こしを提供することを目的としています。 音声テキスト変換 REST API を介したバッチ文字起こしを適用して事前に録画された講義ビデオを処理し、学生向けのテキスト トランスクリプトを生成します。
医療文書 医療機関は、患者の相談内容を文書化する必要があります。 ディクテーションにリアルタイムの音声テキスト変換を使用し、医療専門家が自分のメモを読み上げると、それが即座に文字起こしされるようにします。 カスタム モデルを使用して、特定の医療用語の認識を強化します。
メディアとエンターテイメント メディア企業は、ビデオの大規模なアーカイブについて字幕を作成したいと考えています。 バッチ文字起こしを使用してビデオ ファイルを一括処理し、ビデオごとに正確な字幕を生成します。
市場リサーチ 市場リサーチ会社は、オーディオ録音から、顧客フィードバックを分析する必要があります。 バッチ文字起こしを採用してオーディオ フィードバックをテキストに変換し、分析と分析情報の抽出が容易に行えるようにします。

責任ある AI

AI システムには、テクノロジだけでなく、それを使用するユーザー、影響を受けるユーザー、デプロイされる環境も含まれます。 「透明性に関するメモ」を読み、システムでの責任ある AI の使用とデプロイについて確認してください。