什麼是 Whisper 模型？

發行項
04/07/2024

Whisper 模型是 OpenAI 的語音轉換文字模型，可用來轉譯音訊檔案。此模型是以英文音訊和文字的大型數據集進行定型。此模型已針對以英文轉譯包含語音的音訊檔案進行優化。此模型也可以用來轉譯包含其他語言語音的音訊檔案。模型的輸出是英文文字。

耳語模型可透過 Azure OpenAI 服務或 Azure AI 語音取得。這些供應專案的功能會有所不同。在 Azure AI 語音中，Whisper 只是您可以使用的數個語音轉換文字模型之一。

您可能會問：

耳語模型是否適合我的案例，還是 Azure AI 語音模型更好？這兩種類型的模型之間的 API 比較為何？
如果我想要使用 Whisper 模型，我應該透過 Azure OpenAI 服務或透過 Azure AI 語音使用它嗎？引導我使用一個或另一個案例的案例為何？

耳語模型或 Azure AI 語音模型

視您的案例而定，Whisper 模型或 Azure AI 語音模型都適用。如果您決定使用 Azure AI 語音，您可以從數個模型中選擇，包括 Whisper 模型。下表比較選項與要從何處開始的建議。

案例	耳語模型	Azure AI 語音模型
音訊和視訊的實時轉譯、標題和字幕。	無法使用	建議需求
預先錄製音訊和視訊的轉譯、標題和字幕。	建議透過 Azure OpenAI 的 Whisper 模型快速處理個別音訊檔案。建議透過 Azure AI 語音的 Whisper 模型批處理大型檔案。如需詳細資訊，請參閱透過 Azure AI 語音或透過 Azure OpenAI 服務進行耳語模型？	建議批處理大型檔案、除法和文字層級時間戳。
通話錄製和分析的文字記錄，例如通話摘要、情感、重要主題和自定義見解。	可用的	建議需求
實時轉譯和分析，協助客服中心專員處理客戶問題。	無法使用	建議需求
會議錄製和分析的文字記錄，例如會議摘要、會議章節和動作專案擷取。	可用的	建議需求
透過語音聽寫產生即時文字專案和檔。	無法使用	建議需求
連絡中心語音代理程式：通話路由和通話中心的互動式語音回應。	可用的	建議需求
語音助理：適用於設定頂盒、行動裝置應用程式、車內和其他案例的應用程式特定語音助理。	可用的	建議需求
發音評估：評估說話者語音的發音。	無法使用	建議需求
將即時音訊從一種語言翻譯成另一種語言。	無法使用	建議透過語音翻譯 API
將其他語言的預先錄製音訊翻譯成英文。	建議需求	可透過語音翻譯 API 取得
將預先錄製的音訊翻譯成英文以外的語言。	無法使用	建議透過語音翻譯 API

透過 Azure AI 語音或透過 Azure OpenAI 服務進行低語模型？

如果您決定使用 Whisper 模型，您有兩個選項。您可以選擇要透過 Azure OpenAI 或透過 Azure AI 語音使用 Whisper 模型。不論是哪一種情況，轉譯文字的可讀性都相同。您可以輸入混合語言音訊，而輸出是英文。

透過 Azure OpenAI 服務的耳語模型可能最適合：

一次快速轉譯音訊檔案
將其他語言的音訊翻譯成英文
提供模型引導輸出的提示
支援的檔格式：mp3、mp4、mpweg、mpga、m4a、wav 和 webm

透過 Azure AI 語音的耳語模型可能最適合：

轉譯大於 25MB 的檔案（最多 1 GB）。 Azure OpenAI Whisper 模型的檔案大小限制為 25 MB。
轉譯大量音訊檔案
區分參與交談的不同演講者。語音服務提供有關哪位說話者正在講出所謄寫語音之特定部分的資訊。透過 Azure OpenAI 的 Whisper 模型不支援 Diarization。
Word 層級時間戳
支援的檔案格式：mp3、wav 和 ogg
自訂 Whisper 基底模型以改善案例的正確性（即將推出）

區域支援是另一個考慮。

透過 Azure OpenAI 服務的 Whisper 模型可在下列區域中取得：EastUS 2、印度南部、中北部、挪威東部、瑞典中部和西歐。
透過 Azure AI 語音的 Whisper 模型適用於下列區域：澳大利亞東部、美國東部、美國中北部、美國中南部、東南亞、英國南部和西歐。

共用方式為

什麼是 Whisper 模型？

耳語模型或 Azure AI 語音模型

透過 Azure AI 語音或透過 Azure OpenAI 服務進行低語模型？

下一步

意見反應

意見反應

其他資源