你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Azure 通信服务提供双向音频流式处理功能,为开发人员提供强大的工具,在活动通话期间捕获、分析和处理音频内容。 这种开发为开发人员和企业实时通信的新可能性铺平了道路。
通过将双向音频流式处理与 Azure OpenAI 和其他实时语音 API 等服务集成,企业可以实现无缝、低延迟的通信。 这一附加功能显著增强了聊天式 AI 解决方案的开发和部署,从而实现更具吸引力和高效的交互。
借助双向流式处理,企业现在可以将其语音解决方案提升为低延迟、类似人类、交互式对话式 AI 代理。 我们的双向流式处理 API 使开发人员能够将来自 Azure 通信服务正在进行的呼叫中的音频实时流式传输到其 Web 服务器,并将音频流式传输回到呼叫中。 虽然这些功能的初始重点是帮助企业创建对话式 AI 代理,但其他用例包括自然语言处理,用于聊天分析的,或在与最终用户进行主动交互时向代理提供实时见解和建议。
此公共预览版支持开发人员从 Azure 通信服务通过 WebSocket 访问实时音频流,并将音频流式传输回到呼叫中。
实时通话协助
利用对话式 AI 解决方案:开发可与客户实时交互的复杂客户支持虚拟代理,提供即时响应和解决方案。
个性化客户体验:利用实时数据,企业可以实时提供更个性化、动态的客户交互,从而提高满意度和忠诚度。
减少客户的等待时间:将双向音频流用于大型语言模型 (LLM),可以创建虚拟代理,作为客户的第一个联系点,减少对人工代理的等待时间。
身份验证
- 生物识别身份验证 – 通过语音识别/匹配引擎/工具从通话中运行音频,使用音频流进行语音身份验证。
示例架构展示如何将双向音频流用于对话式 AI 代理
支持的格式
混合的
包含呼叫中所有参与者的混合音频。 所有音频都平展到一个流中。
未混合
每个通道包含每个参与者的音频,在通话的任何时候,最多支持四个通道,供四个最主要的扬声器使用。 你还将获得一个 participantRawID,可用来确定演讲人。
其他信息
开发人员可以使用有关从 Azure 通信服务发送的音频的以下信息,将音频数据包转换为其应用程序的可听内容。
- 帧率:每秒 50 帧
- 数据包流式传输速率:20 毫秒速率
- 数据包大小:640 字节 (16,000 hz) 和 960 字节 (24,000 hz)
- 音频指标:16 位 PCM 单声道 (16,000 hz 和 24,000 hz)
- 公共字符串数据是 base64 字符串,应将其转换为字节数组以创建原始 PCM 文件。
计费
请参阅 Azure 通信服务定价页,了解有关音频流式处理如何计费的信息。 可以在音频流媒体下的通话类别中找到价格。
已知限制
- 使用新的 operationContext 停止媒体流不能正确反映更新后的上下文。
- 如果在将 operationContext 设置为 "ABC" 的创建或应答通话并启用媒体流式处理,你将收到包含 operationContext: "ABC" 的 MediaStreamingStarted 事件。
- 如果使用其他 operationContext(例如 "XYZ")调用 StopStreaming API,预期你将收到包含 operationContext: "XYZ" 的 MediaStreamingStopped 事件。 但是,由于某个已知问题,MediaStreamingStopped 事件仍然包含 operationContext: "ABC"。
- 在使用新的回调 URI 停止媒体流式处理后,事件会继续发送到在呼叫创建或应答过程中使用的默认回调 URI。
- 如果使用默认回调 URI "https://ABC.com"" 创建或应答呼叫,并启用媒体流,MediaStreamingStarted 事件将发送到 "https://ABC.com""。
- 如果随后使用 StopStreaming API 停止流式处理并指定新的回调 URI“https://XYZ.com,则预期 MediaStreamingStopped 事件将发送到”https://XYZ.com."但是,由于已知问题,该事件仍会发送到原始回调 URI“https://ABC.com"
后续步骤
若要了解详细信息,请查看 音频流式处理快速入门。