你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
重要
内容筛选系统不适用于由 Azure OpenAI 中的 Whisper 等音频模型处理的提示和补全。
Azure OpenAI 中的音频模型通过 realtime
、completions
和 audio
API 提供。 音频模型旨在处理各种任务,包括语音识别、翻译和文本转语音。
有关 Azure OpenAI 中每个区域的可用音频模型的信息,请参阅 音频模型、 按终结点的标准模型和 全局标准模型可用性 文档。
GPT-4o 音频实时 API
GPT-4o 实时音频旨在处理实时、低延迟的对话交互,非常适合支持代理、助手、翻译和其他需要与用户进行高度交互式响应的用例。 有关如何使用 GPT-4o 实时音频的详细信息,请参阅 GPT-4o 实时音频快速入门以及如何使用 GPT-4o 音频。
GPT-4o 音频补全
GPT-4o 音频生成旨在从音频或文本提示生成音频,因此非常适合生成有声书、有声内容和其他需要音频生成的用例。 GPT-4o 音频补全模型将音频模态引入了现有的 /chat/completions
API。 有关如何使用 GPT-4o 音频补全的详细信息,请参阅音频生成快速入门。
音频 API
通过 API 的 /audio
音频模型可用于语音转文本、翻译和文本转语音。 若要开始使用音频 API,请参阅 Whisper 快速入门,了解语音转文本。
注释
若要帮助你确定是使用 Azure AI 语音还是 Azure OpenAI,请参阅 Azure AI 语音批处理听录、 什么是低语模型?以及 OpenAI 文本到语音语音 指南。