你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

实时语音代理的 Voice Live API(预览版)

注释

此功能目前处于公开预览状态。 此预览版没有附带服务级别协议,建议不要用于生产工作负载。 某些功能可能不受支持或者受限。 有关详细信息,请参阅 Microsoft Azure 预览版补充使用条款

什么是语音实时 API?

语音实时 API 是一种解决方案,可实现语音代理的低延迟、高质量语音与语音交互。 该 API 专为寻求可缩放且高效的语音驱动体验的开发人员设计,因为它无需手动协调多个组件。 通过将语音识别、生成 AI 和文本集成到单个统一界面中,它为创建无缝体验提供了端到端解决方案。

了解语音交流体验

语音转语音技术正在彻底改变人类如何与系统交互,提供直观的基于语音的解决方案。 传统实现涉及将不同的模块(例如语音转文本、意向识别、对话管理、文本转语音等)组合在一起。 这种链接可能会增加工程复杂性和最终用户感知的延迟。

随着大型语言模型(LLM)和多模式 AI 的进步,语音实时 API 整合了这些功能,简化了开发人员的工作流。 此方法增强了实时交互,并确保高质量的自然通信,使其适用于需要即时、支持语音的解决方案的行业。

语音直播 API 的关键场景

Azure AI 语音实时 API 非常适合语音驱动交互改善用户体验的方案。 示例包括:

  • 联系中心:为客户支持、产品目录导航和自助服务解决方案开发交互式语音机器人。
  • 汽车助手:启用免提车载语音助手,用于执行命令、导航和一般查询。
  • 教育:为交互式培训和教育创建支持语音的学习同伴和虚拟导师。
  • 公共服务:构建语音代理,帮助公民提供行政查询和公共服务信息。
  • 人力资源:使用支持语音的工具增强人力资源流程,以便员工支持、职业生涯发展和培训。

语音实时 API 的功能

语音实时 API 包括一组全面的功能,用于支持各种用例,并确保卓越的语音交互:

  • 广泛的区域设置覆盖:支持超过 15 个区域设置进行语音转文本,并在 140 多个区域设置中提供 600 多种标准语音,用于文本转语音,确保全球可访问性。
  • 可自定义输入和输出:对音频输入使用短语列表进行轻量级实时自定义。 使用自定义神经语音为音频输出创建独特且符合品牌形象的语音。
  • 灵活的生成 AI 模型选项从多个模型中进行选择,包括 GPT-4o、GPT-4o-mini 和 Phi,专为对话要求定制。
  • 高级对话功能
    • 噪音抑制:减少环境噪音,以便更清晰的通信。
    • 回声消除:防止代理拾取自己的响应。
    • 可靠的中断检测:确保准确识别对话期间的中断。
    • 高级轮次结束检测:允许自然暂停,而无需过早结束交互。
  • 虚拟形象集成:提供与音频输出同步的标准或可自定义的头像,为语音代理提供视觉标识。
  • 函数调用:使用 VoiceRAG 模式实现外部操作、工具使用和上下文关联响应

工作原理

语音实时 API 完全托管,无需客户处理后端业务流程或组件集成。 开发人员提供音频输入,并接收音频输出、虚拟形象视觉和动作触发器——所有这些都以最小的延迟。 无需部署或管理任何生成式 AI 模型,因为 API 处理所有底层基础结构。

API 设计和兼容性

Azure AI 语音实时 API 旨在与 Azure OpenAI 实时 API 兼容。 支持的实时事件主要与 Azure OpenAI 实时 API 事件相等,但有一些例外。 有关更多详细信息,请参阅 语音实时 API 指南

语音直播 API 独有的功能被设计为可选和增补的。 可以将 Azure AI 语音功能(例如噪音抑制、回声取消和高级轮次检测)添加到现有应用程序,而无需更改现有体系结构。

通过 WebSocket 事件支持该 API,因此可以轻松实现服务器到服务器集成。 后端或中间层服务通过 WebSocket 连接到语音实时 API。 可以直接使用 WebSocket 消息与 API 交互。

支持的模型和区域

为语音代理的智能提供支持,可以在 GPT-4o、GPT-4o-mini 和 Phi 之间灵活选择生成 AI 模型。 不同的生成 AI 模型提供不同类型的功能、智能级别、推理的速度/延迟和成本。 根据业务和用例最重要的内容,可以选择最适合需求的模型。

所有本机支持的模型(GPT-4o、GPT-4o-mini 和 Phi)都完全托管,这意味着无需部署模型、担心容量规划或预配吞吐量。 只需使用所需的模型,语音实时 API 即可处理其余部分。

语音直播 API 支持以下模型和区域:

型号 DESCRIPTION 支持的区域
gpt-4o-realtime-preview 通过 GPT-4o realtime + option 使用 Azure 文本转语音,包括音频的神经网络定制声音。 eastus2
swedencentral
gpt-4o-mini-realtime-preview 通过 GPT-4o mini realtime + option 使用 Azure 文本转语音,包括音频的神经网络定制声音。 eastus2
swedencentral
gpt-4o GPT-4o + 音频输入到 Azure 语音转文本 + 音频输出,再到 Azure 文本转语音,包括神经网络定制声音。 eastus2
swedencentral
gpt-4o-mini GPT-4o mini + 音频输入到 Azure 语音转文本 + 音频输出,再到 Azure 文本转语音,包括神经网络定制声音。 eastus2
swedencentral
phi4-mm-realtime Phi4-mm + 音频输出到 Azure 文本转语音,包括神经网络定制声音。 eastus2
swedencentral
phi4-mini Phi4-mm + 通过 Azure 语音转文本的音频输入 + 通过 Azure 文本转语音的音频输出,包括自定义神经语音。 eastus2
swedencentral

将语音实时 API 与其他语音与语音解决方案进行比较

语音直播 API 是协调多个组件(例如语音识别、生成 AI 和文本转语音)的替代方法。 此业务流程可能很复杂且耗时,需要大量的工程工作才能集成和维护。 语音实时 API 通过为所有这些组件提供单个界面来简化此过程,使开发人员能够专注于构建其应用程序,而不是管理底层基础结构。

若要满足要求,可以生成自己的解决方案或使用语音实时 API。 下表比较了两种方法:

应用程序要求 自行完成 语音实时 API
区域设置覆盖范围广,准确度高(音频输入)
保持品牌和角色个性(音频输出)
对话增强
选择生成式 AI 模型
带有文本转语音虚拟形象的视觉输出
工程成本低
最终用户感知到的低延迟