你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

什么是 Whisper 模型？

Whisper 模型是 OpenAI 中的语音转文本模型，可用于转录或翻译音频文件。该模型是在英语音频和文本的大型数据集上训练的。

Whisper 模型通过 Azure AI Foundry 中的 Azure OpenAI 模型或通过 Azure AI 语音来提供。这些产品/服务的功能不相同。在 Azure AI 语音（批量听录）中，Whisper 只是可用于语音转文本的几个模型之一。

你可能会问：

Whisper 模型或 Azure AI 语音模型

Whisper 模型或 Azure AI 语音模型都是适合的，具体取决于你的方案。如果决定使用 Azure AI 语音，可以从多个模型（包括 Whisper 模型）中进行选择。下表比较了推荐入门的选项。

方案	Whisper 模型	Azure AI 语音模型
音频和视频的实时听录、描述文字和字幕。	不可用	建议
预先录制的音频和视频的听录、描述文字和字幕。	建议通过 Azure OpenAI 使用 Whisper 模型来快速处理单个音频文件。建议通过 Azure AI 语音（批量听录）使用 Whisper 模型来批处理大型文件。有关详细信息，请参阅通过 Azure AI 语音批量听录还是通过 Azure OpenAI 来使用 Whisper 模型？	建议用于批处理大型文件、分割和字级时间戳。
电话录音的脚本和分析，例如通话摘要、情绪、关键主题和自定义见解。	可用	建议
实时听录和分析，帮助呼叫中心代理解决客户问题。	不可用	建议
会议录制的脚本和分析，例如会议摘要、会议章节划分和操作项提取。	可用	建议
通过语音听写进行实时文本输入和文档生成。	不可用	建议
联系中心语音代理：在呼叫中心实现呼叫路由和交互式语音响应。	可用	建议
语音助手：适用于机顶盒、移动应用、车载设备和其他方案的应用程序特定的语音助理。	可用	建议
发音评估：评估说话人语音的发音。	不可用	建议
将实时语音从一种语言翻译成另一种语言。	不可用	建议使用语音翻译 API。
将预录制的音频从其他语言翻译为英语。	建议	还可以通过语音翻译 API 使用。
将预录制的音频翻译为英语以外的语言。	不可用	推荐使用语音翻译 API。

如果决定使用 Whisper 模型，你有两个选项。你可以选择通过 Azure OpenAI 或 Azure AI 语音（批量听录）来使用 Whisper 模型。在任一情况下，听录文本的可读性都是相同的。

通过 Azure OpenAI 使用 Whisper 模型可能最适合以下场景：

通过 Azure AI 语音批量听录使用 Whisper 模型可能最适合：

听录大于 25MB 的文件（最大 1GB）。 Azure OpenAI Whisper 模型的文件大小限制为 25 MB。
听录大批音频文件
分割，以区分参与对话的不同说话人。语音服务提供有关哪个说话人正在说出转录语音的特定部分的信息。通过 Azure OpenAI 的 Whisper 模型不支持分割。
字级时间戳
支持的文件格式：mp3、wav、ogg。

区域支持是另一个考虑因素。