你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

流音频概述 - 音频订阅

2025-06-06

Azure 通信服务提供双向音频流式处理功能，为开发人员提供强大的工具，在活动通话期间捕获、分析和处理音频内容。这种开发为开发人员和企业实时通信的新可能性铺平了道路。

通过将双向音频流式处理与 Azure OpenAI 和其他实时语音 API 等服务集成，企业可以实现无缝、低延迟的通信。这一附加功能显著增强了聊天式 AI 解决方案的开发和部署，从而实现更具吸引力和高效的交互。

借助双向流式处理，企业现在可以将其语音解决方案提升为低延迟、类似人类、交互式对话式 AI 代理。我们的双向流式处理 API 使开发人员能够将来自 Azure 通信服务正在进行的呼叫中的音频实时流式传输到其 Web 服务器，并将音频流式传输回到呼叫中。虽然这些功能的初始重点是帮助企业创建对话式 AI 代理，但其他用例包括自然语言处理，用于聊天分析的，或在与最终用户进行主动交互时向代理提供实时见解和建议。

此公共预览版支持开发人员从 Azure 通信服务通过 WebSocket 访问实时音频流，并将音频流式传输回到呼叫中。

实时通话协助

利用对话式 AI 解决方案：开发可与客户实时交互的复杂客户支持虚拟代理，提供即时响应和解决方案。
个性化客户体验：利用实时数据，企业可以实时提供更个性化、动态的客户交互，从而提高满意度和忠诚度。
减少客户的等待时间：将双向音频流用于大型语言模型 (LLM)，可以创建虚拟代理，作为客户的第一个联系点，减少对人工代理的等待时间。

身份验证

生物识别身份验证 – 通过语音识别/匹配引擎/工具从通话中运行音频，使用音频流进行语音身份验证。

示例架构展示如何将双向音频流用于对话式 AI 代理

支持的格式

混合的

包含呼叫中所有参与者的混合音频。所有音频都平展到一个流中。

未混合

每个通道包含每个参与者的音频，在通话的任何时候，最多支持四个通道，供四个最主要的扬声器使用。你还将获得一个 participantRawID，可用来确定演讲人。

其他信息

开发人员可以使用有关从 Azure 通信服务发送的音频的以下信息，将音频数据包转换为其应用程序的可听内容。

帧率：每秒 50 帧
数据包流式传输速率：20 毫秒速率
数据包大小：640 字节 (16,000 hz) 和 960 字节 (24,000 hz)
音频指标：16 位 PCM 单声道 (16,000 hz 和 24,000 hz)
公共字符串数据是 base64 字符串，应将其转换为字节数组以创建原始 PCM 文件。

计费

请参阅 Azure 通信服务定价页，了解有关音频流式处理如何计费的信息。可以在音频流媒体下的通话类别中找到价格。

已知限制

使用新的 operationContext 停止媒体流不能正确反映更新后的上下文。
- 如果在将 operationContext 设置为 "ABC" 的创建或应答通话并启用媒体流式处理，你将收到包含 operationContext: "ABC" 的 MediaStreamingStarted 事件。
- 如果使用其他 operationContext（例如 "XYZ"）调用 StopStreaming API，预期你将收到包含 operationContext: "XYZ" 的 MediaStreamingStopped 事件。但是，由于某个已知问题，MediaStreamingStopped 事件仍然包含 operationContext: "ABC"。
在使用新的回调 URI 停止媒体流式处理后，事件会继续发送到在呼叫创建或应答过程中使用的默认回调 URI。
- 如果使用默认回调 URI "https://ABC.com"" 创建或应答呼叫，并启用媒体流，MediaStreamingStarted 事件将发送到 "https://ABC.com""。
- 如果随后使用 StopStreaming API 停止流式处理并指定新的回调 URI“https://XYZ.com，则预期 MediaStreamingStopped 事件将发送到”https://XYZ.com."但是，由于已知问题，该事件仍会发送到原始回调 URI“https://ABC.com"

后续步骤

若要了解详细信息，请查看音频流式处理快速入门。