什麼是 Whisper 模型?
Whisper 模型是 OpenAI 提供的語音轉換文字模型,可用來轉譯音訊檔案。 此模型是以英文音訊和文字的大型數據集進行訓練。 此模型已針對以英文轉譯包含語音的音訊檔案進行優化。 此模型也可以用來轉譯包含其他語言語音的音訊檔案。 模型的輸出是英文文字。
Whisper 模型可透過 Azure OpenAI 服務或透過 Azure AI 語音取得。 這些供應項目的功能會有所不同。 在 Azure AI 語音 (批次轉譯) 中,Whisper 只是可用於語音轉換文字的數個模型之一。
您可能會問:
Whisper 模型是否適合我的案例,還是 Azure AI 語音模型更好? 這兩種類型的模型之間的 API 有何異同?
如果我想要使用 Whisper 模型,我應該透過 Azure OpenAI 服務還是透過 Azure AI 語音使用它? 引導我使用一個或另一個情節的案例為何?
Whisper 模型或 Azure AI 語音模型
Whisper 模型還是 Azure AI 語音模型適用要取決於您的具體情況。 如果您決定要使用 Azure AI 語音,可從數個模型中選擇,包括 Whisper 模型。 下表比較了這兩種選擇並給出了入門的建議。
案例 | Whisper 模型 | Azure AI 語音模型 |
---|---|---|
音訊和視訊的實時轉譯、語言字幕和翻譯字幕。 | 無法使用 | 建議需求 |
預先錄製音訊和視訊的轉譯、語言字幕和翻譯字幕。 | 建議透過 Azure OpenAI 使用 Whisper 模型以快速處理個別音訊檔案。 建議透過 Azure AI 語音 (批次轉譯) 使用 Whisper 模型以批處理大型檔案。 如需詳細資訊,請參閱透過 Azure AI 語音批次轉譯還是透過 Azure OpenAI 服務使用 Whisper 模型? | 建議用於批處理大型檔案、自動分段標記和文字層級時間戳。 |
通話錄音的文字記錄和分析,例如通話摘要、情緒、重要主題和自訂見解。 | 可用的 | 建議需求 |
實時轉譯和分析,協助客服中心專員處理客戶問題。 | 無法使用 | 建議需求 |
會議錄音的文字記錄和分析,例如會議摘要、會議章節和動作專案擷取。 | 可用的 | 建議需求 |
透過語音聽寫產生即時文字輸入和文件。 | 無法使用 | 建議需求 |
連絡中心語音代理程式:通話中心的通話路由和互動式語音回應。 | 可用的 | 建議需求 |
語音助理:適用於機頂盒、行動裝置應用程式、車內和其他案例的應用程式特定語音助理。 | 可用的 | 建議需求 |
發音評估:評估說話者語音的發音。 | 無法使用 | 建議需求 |
將即時音訊從一種語言翻譯成另一種語言。 | 無法使用 | 建議透過語音翻譯 API |
將其他語言的預先錄製音訊翻譯成英文。 | 建議需求 | 可透過語音翻譯 API 實現 |
將預先錄製的音訊翻譯成英文以外的語言。 | 無法使用 | 建議透過語音翻譯 API |
透過 Azure AI 語音還是透過 Azure OpenAI 服務使用 Whisper 模型?
如果您決定要使用 Whisper 模型,則有兩個選項。 您可以選擇要透過 Azure OpenAI 還是透過 Azure AI 語音 (批次轉譯) 使用 Whisper 模型。 不論是哪一種情況,轉譯文字的可讀性都一樣。 您可以輸入混合語言音訊,而輸出是英文。
透過 Azure OpenAI 服務的 Whisper 模型可能最適合下列情況:
- 一次快速轉譯音訊檔案
- 將其他語言的音訊翻譯成英文
- 向模型提供提示以引導輸出
- 支援的檔案格式:mp3、mp4、mpweg、mpga、m4a、wav 和 webm
- 僅支援檔名的 ASCII 字元
透過 Azure AI 語音批次轉譯的 Whisper 模型可能最適合用於:
- 轉譯大於 25MB 的檔案 (最大 1GB)。 Azure OpenAI Whisper 模型的檔案大小限制為 25 MB。
- 轉譯大量音訊檔案。
- 自動分段標記針對參與交談的不同說話者進行區分。 語音服務提供有關哪位說話者正在講出所謄寫語音之特定部分的資訊。 透過 Azure OpenAI 的 Whisper 模型不支援自動分段標記。
- 文字層級時間戳
- 支援的檔案格式:mp3、wav 和 ogg。
區域支援是另一個考量。
- 透過 Azure OpenAI 服務的 Whisper 模型可在下列區域中使用:美國東部 2、印度南部、中北部、挪威東部、瑞典中部、瑞士北部和西歐。
- 透過 Azure AI 語音的 Whisper 模型可在下列區域中使用:澳大利亞東部、美國東部、美國中北部、美國中南部、東南亞、英國南部和西歐。