你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

实时语音代理的 Voice Live API（预览版）

注释

此功能目前处于公开预览状态。此预览版没有附带服务级别协议，建议不要用于生产工作负载。某些功能可能不受支持或者受限。有关详细信息，请参阅 Microsoft Azure 预览版补充使用条款。

什么是语音实时 API？

语音实时 API 是一种解决方案，可实现语音代理的低延迟、高质量语音与语音交互。该 API 专为寻求可缩放且高效的语音驱动体验的开发人员设计，因为它无需手动协调多个组件。通过将语音识别、生成 AI 和文本集成到单个统一界面中，它为创建无缝体验提供了端到端解决方案。

语音转语音技术正在彻底改变人类如何与系统交互，提供直观的基于语音的解决方案。传统实现涉及将不同的模块（例如语音转文本、意向识别、对话管理、文本转语音等）组合在一起。这种链接可能会增加工程复杂性和最终用户感知的延迟。

随着大型语言模型（LLM）和多模式 AI 的进步，语音实时 API 整合了这些功能，简化了开发人员的工作流。此方法增强了实时交互，并确保高质量的自然通信，使其适用于需要即时、支持语音的解决方案的行业。

Azure AI 语音实时 API 非常适合语音驱动交互改善用户体验的方案。示例包括：

语音实时 API 包括一组全面的功能，用于支持各种用例，并确保卓越的语音交互：

广泛的区域设置覆盖：支持超过 15 个区域设置进行语音转文本，并在 140 多个区域设置中提供 600 多种标准语音，用于文本转语音，确保全球可访问性。
可自定义输入和输出：对音频输入使用短语列表进行轻量级实时自定义。使用自定义神经语音为音频输出创建独特且符合品牌形象的语音。
灵活的生成 AI 模型选项：从多个模型中进行选择，包括 GPT-4o、GPT-4o-mini 和 Phi，专为对话要求定制。
高级对话功能：
- 噪音抑制：减少环境噪音，以便更清晰的通信。
- 回声消除：防止代理拾取自己的响应。
- 可靠的中断检测：确保准确识别对话期间的中断。
- 高级轮次结束检测：允许自然暂停，而无需过早结束交互。
虚拟形象集成：提供与音频输出同步的标准或可自定义的头像，为语音代理提供视觉标识。
函数调用：使用 VoiceRAG 模式实现外部操作、工具使用和上下文关联响应。

语音实时 API 完全托管，无需客户处理后端业务流程或组件集成。开发人员提供音频输入，并接收音频输出、虚拟形象视觉和动作触发器——所有这些都以最小的延迟。无需部署或管理任何生成式 AI 模型，因为 API 处理所有底层基础结构。

Azure AI 语音实时 API 旨在与 Azure OpenAI 实时 API 兼容。支持的实时事件主要与 Azure OpenAI 实时 API 事件相等，但有一些例外。有关更多详细信息，请参阅语音实时 API 指南。

语音直播 API 独有的功能被设计为可选和增补的。可以将 Azure AI 语音功能（例如噪音抑制、回声取消和高级轮次检测）添加到现有应用程序，而无需更改现有体系结构。

通过 WebSocket 事件支持该 API，因此可以轻松实现服务器到服务器集成。后端或中间层服务通过 WebSocket 连接到语音实时 API。可以直接使用 WebSocket 消息与 API 交互。

为语音代理的智能提供支持，可以在 GPT-4o、GPT-4o-mini 和 Phi 之间灵活选择生成 AI 模型。不同的生成 AI 模型提供不同类型的功能、智能级别、推理的速度/延迟和成本。根据业务和用例最重要的内容，可以选择最适合需求的模型。

所有本机支持的模型（GPT-4o、GPT-4o-mini 和 Phi）都完全托管，这意味着无需部署模型、担心容量规划或预配吞吐量。只需使用所需的模型，语音实时 API 即可处理其余部分。

语音直播 API 支持以下模型和区域：

型号	DESCRIPTION	支持的区域
`gpt-4o-realtime-preview`	通过 GPT-4o realtime + option 使用 Azure 文本转语音，包括音频的神经网络定制声音。	`eastus2` `swedencentral`
`gpt-4o-mini-realtime-preview`	通过 GPT-4o mini realtime + option 使用 Azure 文本转语音，包括音频的神经网络定制声音。	`eastus2` `swedencentral`
`gpt-4o`	GPT-4o + 音频输入到 Azure 语音转文本 + 音频输出，再到 Azure 文本转语音，包括神经网络定制声音。	`eastus2` `swedencentral`
`gpt-4o-mini`	GPT-4o mini + 音频输入到 Azure 语音转文本 + 音频输出，再到 Azure 文本转语音，包括神经网络定制声音。	`eastus2` `swedencentral`
`phi4-mm-realtime`	Phi4-mm + 音频输出到 Azure 文本转语音，包括神经网络定制声音。	`eastus2` `swedencentral`
`phi4-mini`	Phi4-mm + 通过 Azure 语音转文本的音频输入 + 通过 Azure 文本转语音的音频输出，包括自定义神经语音。	`eastus2` `swedencentral`

语音直播 API 是协调多个组件（例如语音识别、生成 AI 和文本转语音）的替代方法。此业务流程可能很复杂且耗时，需要大量的工程工作才能集成和维护。语音实时 API 通过为所有这些组件提供单个界面来简化此过程，使开发人员能够专注于构建其应用程序，而不是管理底层基础结构。

若要满足要求，可以生成自己的解决方案或使用语音实时 API。下表比较了两种方法：