次の方法で共有


Whisper モデルとは?

Whisper モデルは、音声ファイルの文字起こしに使用できる OpenAI の音声テキスト変換モデルです。 このモデルは、英語の音声とテキストの大規模なデータセットでトレーニングされます。 このモデルは、英語の音声を含む音声ファイルの文字起こしに最適化されています。 このモデルを使用して、他の言語の音声を含む音声ファイルを文字起こしにも使用できます。 このモデルの出力は英語のテキストです。

Whisper モデルは、Azure OpenAI Service または Azure AI Speech 経由で使用できます。 これらのオファリングの機能は異なります。 Azure AI Speech では、Whisper は、使用できる複数の音声テキスト変換モデルの 1 つにすぎません。

次のような質問があるかと思います。

  • Whisper モデルは自分のシナリオに適していますか、それとも Azure AI Speech モデルの方が良いでしょうか? 2 種類のモデル間の API の比較は何ですか?

  • Whisper モデルを使用する場合は、Azure OpenAI Service または Azure AI Speech 経由で使用する必要がありますか? どちらか一方を使用するようにガイドされるシナリオは何ですか?

Whisper モデルまたは Azure AI Speech モデル

シナリオに応じて、Whisper モデルまたは Azure AI Speech モデルが適切です。 Azure AI Speech を使用する場合は、Whisper モデルを含む複数のモデルから選択できます。 次の表は、使用するシナリオに関する推奨事項とオプションを比較しています。

シナリオ Whisper モデル Azure AI Speech モデル
音声とビデオのリアルタイムの文字起こし、キャプション、字幕。 使用不可 推奨
事前に録音された音声とビデオの文字起こし、キャプション、字幕。 個々の音声ファイルの高速処理には、Azure OpenAI を介した Whisper モデルを推奨します。 大きなファイルのバッチ処理には、Azure AI Speech を介した Whisper モデルを推奨します。 詳細については、「Azure AI Speech または Azure OpenAI Service を介した Whisper モデル」を参照してください 大きなファイル、ダイアライゼーション、およびワード レベルのタイムスタンプのバッチ処理に推奨されます。
通話記録のトランスクリプトと通話の概要、センチメント、主要なトピック、カスタム分析情報などの分析。 利用可能 推奨
リアルタイムの文字起こしと分析により、お客様の質問に対応するコール センター エージェントをサポート。 使用不可 推奨
会議記録のトランスクリプトと、会議の概要、会議のチャプター、アクション アイテムの抽出などの分析。 利用可能 推奨
音声ディクテーションによるリアルタイムのテキスト入力とドキュメント生成。 使用不可 推奨
コンタクト センターの音声エージェント: コール センター向けの通話ルーティングと対話型音声応答。 利用可能 推奨
音声アシスタント: セットトップ ボックス、モバイル アプリ、車内、その他のシナリオ向けのアプリケーション固有の音声アシスタント。 利用可能 推奨
発音評価: 話者の声の発音を評価する。 使用不可 推奨
ライブ音声をある言語から別の言語に翻訳する。 使用不可 音声翻訳 API を介して推奨される
他の言語から事前に録音された音声を英語に翻訳する。 推奨 音声翻訳 API を介して利用可能
事前に録音された音声を英語以外の言語に翻訳する。 使用不可 音声翻訳 API を介して推奨される

Whisper モデルは、Azure AI Speech または Azure OpenAI Service を介していますか?

Whisper モデルを使用する場合は、2 つのオプションがあります。 Whisper モデルは、 Azure OpenAI または Azure AI Speech のどちらを介するかを選択できます。 どちらの場合も、文字起こしされたテキストの読みやすさは同じです。 混合言語の音声を入力することができ、出力は英語です。

Azure OpenAI Service を介した Whisper モデルは、次の場合に最適な場合があります。

  • 音声ファイルを一度に一つずつすばやく文字起こしする
  • 他の言語の音声を英語に翻訳する
  • 出力をガイドするためのプロンプトをモデルに提供する
  • サポートされているファイル形式: mp3、mp4、mpweg、mpga、m4a、wav、webm

Azure AI Speech を介した Whisper モデルは、次の場合に最適な場合があります。

  • 25 MB (最大 1 GB) を超えるファイルの文字起こし。 Azure OpenAI の Whisper モデルのファイル サイズの制限は 25 MB です。
  • 音声ファイルの大きなバッチの文字起こし
  • 会話に参加している異なる話者を区別するためのダイアライゼーション。 音声サービスは、文字起こしされた音声の特定の部分を話していた話者に関する情報を提供します。 Azure OpenAI を介した Whisper モデルでは、ダイアライゼーションはサポートされていません。
  • ワードレベルのタイムスタンプ
  • サポートされているファイル形式: mp3、wav、ogg
  • シナリオの精度を向上させるための Whisper の基本モデルのカスタマイズ (近日公開予定)

地域的なサポートも考慮する必要があります。

  • Azure OpenAI Service 経由の Whisper モデルは、米国東部 2、インド南部、北中部、ノルウェー東部、スウェーデン中部、西ヨーロッパのリージョンで利用できます。
  • Azure AI Speech 経由の Whisper モデルは、オーストラリア東部、米国東部、米国中北部、米国中南部、東南アジア、英国南部、西ヨーロッパのリージョンで利用できます。

次のステップ