Whisper モデルとは?

2025-07-02

ささやきモデルは、オーディオファイルの文字起こしや翻訳に使用できる OpenAI の音声テキスト変換モデルです。このモデルは、英語の音声とテキストの大規模なデータセットでトレーニングされます。

このモデルは、英語の音声を含む音声ファイルの文字起こしに最適化されています。
モデルを使用して、他の言語の音声を含むオーディオファイルを翻訳することもできます。文字起こしの出力は英語のテキストです。

ささやきモデルは、Azure AI Foundry モデルの Azure OpenAI または Azure AI Speech を介して利用できます。これらのオファリングの機能は異なります。 Azure AI 音声 (バッチ文字起こし) において、Whisper は音声テキスト変換に使用できる複数のモデルの 1 つにすぎません。

次のような質問があるかと思います。

Whisper モデルは自分のシナリオに適していますか、それとも Azure AI Speech モデルの方が良いでしょうか? 2 種類のモデル間の API の比較は何ですか?
ささやきモデルを使用する場合は、Azure OpenAI または Azure AI Speech 経由で使用する必要がありますか? どちらか一方を使用するようにガイドされるシナリオは何ですか?

Whisper モデルまたは Azure AI Speech モデル

シナリオに応じて、Whisper モデルまたは Azure AI Speech モデルが適切です。 Azure AI Speech を使用する場合は、Whisper モデルを含む複数のモデルから選択できます。次の表は、使用するシナリオに関する推奨事項とオプションを比較しています。

シナリオ	Whisper モデル	Azure AI Speech モデル
音声とビデオのリアルタイムの文字起こし、キャプション、字幕。	使用不可	推奨
事前に録音された音声とビデオの文字起こし、キャプション、字幕。	個々の音声ファイルの高速処理には、Azure OpenAI を介した Whisper モデルを推奨します。 Azure AI 音声 (バッチ文字起こし) を介した Whisper モデルは、大きなファイルのバッチ処理で推奨されます。詳細については、Azure AI Speechのバッチ文字起こしまたはAzure OpenAIを使用したWhisperモデルに関するページを参照してください。	大きなファイル、ダイアライゼーション、およびワードレベルのタイムスタンプのバッチ処理に推奨されます。
通話記録のトランスクリプトと通話の概要、センチメント、主要なトピック、カスタム分析情報などの分析。	利用可能	推奨
リアルタイムの文字起こしと分析により、お客様の質問に対応するコールセンターエージェントをサポート。	使用不可	推奨
会議記録のトランスクリプトと、会議の概要、会議のチャプター、アクションアイテムの抽出などの分析。	利用可能	推奨
音声ディクテーションによるリアルタイムのテキスト入力とドキュメント生成。	使用不可	推奨
コンタクトセンターの音声エージェント: コールセンター向けの通話ルーティングと対話型音声応答。	利用可能	推奨
音声アシスタント: セットトップボックス、モバイルアプリ、車内、その他のシナリオ向けのアプリケーション固有の音声アシスタント。	利用可能	推奨
発音評価: 話者の声の発音を評価する。	使用不可	推奨
ライブ音声をある言語から別の言語に翻訳する。	使用不可	音声翻訳 API を使用することをお勧めします。
他の言語から事前に録音された音声を英語に翻訳する。	推奨	音声翻訳 API を介して入手することもできます。
事前に録音された音声を英語以外の言語に翻訳する。	使用不可	音声翻訳 API を使用することをお勧めします。

Azure AI Speech または Azure OpenAI を使用したささやきモデル

Whisper モデルを使用する場合は、2 つのオプションがあります。 Azure OpenAI と Azure AI 音声 (バッチ文字起こし) のどちらを介した Whisper モデルを使用するかを選択することができます。どちらの場合も、文字起こしされたテキストの読みやすさは同じです。

Azure OpenAI を使用したささやきモデルは、次の場合に最適な場合があります。

一度に 1 つずつオーディオファイルをすばやく文字起こしします。
他の言語の音声を英語に翻訳します。混合言語の音声を入力することができ、出力は英語です。
出力をガイドするためのプロンプトをモデルに提供します。
サポートされているファイル形式: mp3、mp4、mpweg、mpga、m4a、wav、webm。
ファイル名に対してサポートされている ASCII 文字のみ。

Azure AI 音声バッチ文字起こしを介した Whisper モデルが適しているのは以下の場合です。

25 MB (最大 1 GB) を超えるファイルの文字起こし。 Azure OpenAI の Whisper モデルのファイルサイズの制限は 25 MB です。
音声ファイルの大規模なバッチの文字起こし。
会話に参加している異なる話者を区別するためのダイアライゼーション。音声サービスは、文字起こしされた音声の特定の部分を話していた話者に関する情報を提供します。 Azure OpenAI を介した Whisper モデルでは、ダイアライゼーションはサポートされていません。
ワードレベルのタイムスタンプ
サポートされているファイル形式: mp3、wav、ogg。

地域的なサポートも考慮する必要があります。

Azure OpenAI 経由のささやきモデルは、米国東部 2、インド南部、北部中部、ノルウェー東部、スウェーデン中部、スイス北部、西ヨーロッパの各リージョンで利用できます。
Azure AI Speech を介したささやきモデルは、オーストラリア東部、米国東部、米国中北部、米国中南部、東南アジア、西ヨーロッパの各リージョンで利用できます。

次の方法で共有

Whisper モデルとは?

Whisper モデルまたは Azure AI Speech モデル

Azure AI Speech または Azure OpenAI を使用したささやきモデル

関連するコンテンツ

フィードバック

その他のリソース