你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

Azure AI Foundry 模型中的 Azure OpenAI 音频功能

重要

内容筛选系统不适用于由 Azure OpenAI 中的 Whisper 等音频模型处理的提示和补全。

Azure OpenAI 中的音频模型通过 realtime、completions 和 audio API 提供。音频模型旨在处理各种任务，包括语音识别、翻译和文本转语音。

有关 Azure OpenAI 中每个区域的可用音频模型的信息，请参阅音频模型、按终结点的标准模型和全局标准模型可用性文档。

GPT-4o 音频实时 API

GPT-4o 实时音频旨在处理实时、低延迟的对话交互，非常适合支持代理、助手、翻译和其他需要与用户进行高度交互式响应的用例。有关如何使用 GPT-4o 实时音频的详细信息，请参阅 GPT-4o 实时音频快速入门以及如何使用 GPT-4o 音频。

GPT-4o 音频生成旨在从音频或文本提示生成音频，因此非常适合生成有声书、有声内容和其他需要音频生成的用例。 GPT-4o 音频补全模型将音频模态引入了现有的 /chat/completions API。有关如何使用 GPT-4o 音频补全的详细信息，请参阅音频生成快速入门。

通过 API 的 /audio 音频模型可用于语音转文本、翻译和文本转语音。若要开始使用音频 API，请参阅 Whisper 快速入门，了解语音转文本。

注释

若要帮助你确定是使用 Azure AI 语音还是 Azure OpenAI，请参阅 Azure AI 语音批处理听录、什么是低语模型？以及 OpenAI 文本到语音语音指南。