你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

什么是 Whisper 模型?

Whisper 模型是 OpenAI 中的语音转文本模型,可用于转录或翻译音频文件。 该模型是在英语音频和文本的大型数据集上训练的。

  • 该模型已针对包含英语语音的音频文件进行了优化。
  • 该模型还可用于翻译包含其他语言语音的音频文件。 听录的输出是英语文本。

Whisper 模型通过 Azure AI Foundry 中的 Azure OpenAI 模型或通过 Azure AI 语音来提供。 这些产品/服务的功能不相同。 在 Azure AI 语音(批量听录)中,Whisper 只是可用于语音转文本的几个模型之一。

你可能会问:

  • Whisper 模型是否适合我的方案,还是 Azure AI 语音模型更好? 这两种类型的模型的 API 之间有怎样的差异?

  • 如果我想使用 Whisper 模型,那么我应该通过 Azure OpenAI 还是通过 Azure AI 语音来使用它? 哪些方案可指导我使用其中某个方法?

Whisper 模型或 Azure AI 语音模型

Whisper 模型或 Azure AI 语音模型都是适合的,具体取决于你的方案。 如果决定使用 Azure AI 语音,可以从多个模型(包括 Whisper 模型)中进行选择。 下表比较了推荐入门的选项。

方案 Whisper 模型 Azure AI 语音模型
音频和视频的实时听录、描述文字和字幕。 不可用 建议
预先录制的音频和视频的听录、描述文字和字幕。 建议通过 Azure OpenAI 使用 Whisper 模型来快速处理单个音频文件。 建议通过 Azure AI 语音(批量听录)使用 Whisper 模型来批处理大型文件。 有关详细信息,请参阅通过 Azure AI 语音批量听录还是通过 Azure OpenAI 来使用 Whisper 模型? 建议用于批处理大型文件、分割和字级时间戳。
电话录音的脚本和分析,例如通话摘要、情绪、关键主题和自定义见解。 可用 建议
实时听录和分析,帮助呼叫中心代理解决客户问题。 不可用 建议
会议录制的脚本和分析,例如会议摘要、会议章节划分和操作项提取。 可用 建议
通过语音听写进行实时文本输入和文档生成。 不可用 建议
联系中心语音代理:在呼叫中心实现呼叫路由和交互式语音响应。 可用 建议
语音助手:适用于机顶盒、移动应用、车载设备和其他方案的应用程序特定的语音助理。 可用 建议
发音评估:评估说话人语音的发音。 不可用 建议
将实时语音从一种语言翻译成另一种语言。 不可用 建议使用 语音翻译 API
将预录制的音频从其他语言翻译为英语。 建议 还可以通过 语音翻译 API 使用。
将预录制的音频翻译为英语以外的语言。 不可用 推荐使用 语音翻译 API

通过 Azure AI 语音还是 Azure OpenAI 来使用 Whisper 模型?

如果决定使用 Whisper 模型,你有两个选项。 你可以选择通过 Azure OpenAIAzure AI 语音(批量听录)来使用 Whisper 模型。 在任一情况下,听录文本的可读性都是相同的。

通过 Azure OpenAI 使用 Whisper 模型可能最适合以下场景:

  • 逐个快速转录音频文件。
  • 将其他语言的音频翻译为英语。 可以输入混合语言的音频,输出为英语。
  • 向模型提供指导输出的提示。
  • 支持的文件格式:mp3、mp4、mpweg、mpga、m4a、wav 和 webm。
  • 文件名仅支持 ASCII 字符。

通过 Azure AI 语音批量听录使用 Whisper 模型可能最适合:

  • 听录大于 25MB 的文件(最大 1GB)。 Azure OpenAI Whisper 模型的文件大小限制为 25 MB。
  • 听录大批音频文件
  • 分割,以区分参与对话的不同说话人。 语音服务提供有关哪个说话人正在说出转录语音的特定部分的信息。 通过 Azure OpenAI 的 Whisper 模型不支持分割。
  • 字级时间戳
  • 支持的文件格式:mp3、wav、ogg。

区域支持是另一个考虑因素。

  • 通过 Azure OpenAI 的 Whisper 模型在以下区域提供:美国东部 2、印度南部、中北部、挪威东部、瑞典中部、瑞士北部和西欧。
  • 通过 Azure AI 语音的低语模型在以下区域提供:澳大利亚东部、美国东部、美国中北部、美国中南部、东南亚和西欧。