共用方式為


什麼是 Whisper 模型?

Whisper 模型是 OpenAI 的語音轉換文字模型,可用來轉譯或翻譯音訊檔案。 此模型是以英文音訊和文字的大型數據集進行訓練。

  • 此模型已針對以英文轉譯包含語音的音訊檔案進行優化。
  • 此模型也可以用來翻譯包含其他語言語音的音訊檔案。 轉譯的輸出是英文文字。

Whisper 模型可透過 Microsoft Foundry Models 中的 Azure OpenAI 或 Foundry Tools 中的 Azure Speech 取得。 這些供應項目的功能會有所不同。 在 Azure Speech(批次轉錄)中,Whisper 只是你用來做語音轉文字的多種模型之一。

您可能會問:

  • Whisper 模型適合我的情況嗎?還是 Azure Speech 模型比較好? 這兩種類型的模型之間的 API 有何異同?

  • 如果我想使用 Whisper Model,應該透過 Azure OpenAI 還是 Azure Speech 來使用? 引導我使用一個或另一個情節的案例為何?

Whisper 模型或 Azure 語音模型

根據你的情境,Whisper 模型或 Azure Speech 模型都適用。 如果你決定使用 Azure Speech,可以從多種型號中選擇,包括 Whisper 模型。 下表比較了這兩種選擇並給出了入門的建議。

狀況 Whisper 模型 Azure 語音模型
音訊和視訊的實時轉譯、語言字幕和翻譯字幕。 無法使用 建議
預先錄製音訊和視訊的轉譯、語言字幕和翻譯字幕。 建議透過 Azure OpenAI 使用 Whisper 模型以快速處理個別音訊檔案。 建議使用 Azure Speech 的 Whisper 模型 (批次轉錄) 來批次處理大型檔案。 如需詳細資訊,請參閱透過 Azure 語音批次謄寫還是透過 Azure OpenAI 使用 Whisper 模型? (機器或 AI 翻譯) 建議用於批處理大型檔案、自動分段標記和文字層級時間戳。
通話錄音的文字記錄和分析,例如通話摘要、情緒、重要主題和自訂見解。 可用 建議
實時轉譯和分析,協助客服中心專員處理客戶問題。 無法使用 建議
會議錄音的文字記錄和分析,例如會議摘要、會議章節和動作專案擷取。 可用 建議
透過語音聽寫產生即時文字輸入和文件。 無法使用 建議
連絡中心語音代理程式:通話中心的通話路由和互動式語音回應。 可用 建議
語音助理:適用於機頂盒、行動裝置應用程式、車內和其他案例的應用程式特定語音助理。 可用 建議
發音評估:評估說話者語音的發音。 無法使用 建議
將即時音訊從一種語言翻譯成另一種語言。 無法使用 建議透過 語音翻譯 API
將其他語言的預先錄製音訊翻譯成英文。 建議 也可透過 語音翻譯 API 取得。
將預先錄製的音訊翻譯成英文以外的語言。 無法使用 建議透過 語音翻譯 API

Whisper 模型是透過 Azure Speech 還是透過 Azure OpenAI?

如果您決定要使用 Whisper 模型,則有兩個選項。 你可以選擇使用 Azure OpenAIAzure Speech(批次轉錄)來使用 Whisper 模型。 不論是哪一種情況,轉譯文字的可讀性都一樣。

透過 Azure OpenAI 的耳語模型可能最適合:

  • 一次快速轉譯音訊檔案。
  • 將其他語言的音訊翻譯成英文。 您可以輸入混合語言音訊,而輸出是英文。
  • 向模型提供提示以引導輸出。
  • 支援的檔格式:mp3、mp4、mpweg、mpga、m4a、wav 和 webm。
  • 檔名只支援 ASCII 字元。

透過 Azure Speech 進行批次轉錄的 Whisper 模型可能最適合:

  • 轉譯大於 25MB 的檔案 (最大 1GB)。 Azure OpenAI Whisper 模型的檔案大小限制為 25 MB。
  • 轉譯大量音訊檔案。
  • 自動分段標記針對參與交談的不同說話者進行區分。 語音服務提供有關哪位說話者正在講出所謄寫語音之特定部分的資訊。 透過 Azure OpenAI 的 Whisper 模型不支援自動分段標記。
  • 文字層級時間戳
  • 支援的檔案格式:mp3、wav 和 ogg。

區域支援是另一個考量。