你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure AI Foundry 模型中的 Azure OpenAI 音频功能

重要

内容筛选系统不适用于由 Azure OpenAI 中的 Whisper 等音频模型处理的提示和补全。

Azure OpenAI 中的音频模型通过 realtimecompletionsaudio API 提供。 音频模型旨在处理各种任务,包括语音识别、翻译和文本转语音。

有关 Azure OpenAI 中每个区域的可用音频模型的信息,请参阅 音频模型按终结点的标准模型全局标准模型可用性 文档。

GPT-4o 音频实时 API

GPT-4o 实时音频旨在处理实时、低延迟的对话交互,非常适合支持代理、助手、翻译和其他需要与用户进行高度交互式响应的用例。 有关如何使用 GPT-4o 实时音频的详细信息,请参阅 GPT-4o 实时音频快速入门以及如何使用 GPT-4o 音频

GPT-4o 音频补全

GPT-4o 音频生成旨在从音频或文本提示生成音频,因此非常适合生成有声书、有声内容和其他需要音频生成的用例。 GPT-4o 音频补全模型将音频模态引入了现有的 /chat/completions API。 有关如何使用 GPT-4o 音频补全的详细信息,请参阅音频生成快速入门

音频 API

通过 API 的 /audio 音频模型可用于语音转文本、翻译和文本转语音。 若要开始使用音频 API,请参阅 Whisper 快速入门,了解语音转文本。

注释

若要帮助你确定是使用 Azure AI 语音还是 Azure OpenAI,请参阅 Azure AI 语音批处理听录什么是低语模型?以及 OpenAI 文本到语音语音 指南。