你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

在呼叫中播放音频

借助通过 Azure 通信服务呼叫自动化 SDK 提供的播放操作,可向呼叫中的参与者播放音频提示。 可以通过应用程序的服务器端实现访问此操作。 可通过下面两种方法之一向呼叫参与者播放音频;

  • 提供 Azure 通信服务以 WAV 格式访问预录制的音频文件,Azure 通信服务可通过支持身份验证访问这些文件。
  • 通过与 Azure AI 服务的集成,可将常规文本转换为语音输出。

可使用新推出的 Azure 通信服务和 Azure AI 服务之间的集成,通过 Azure 文本转语音功能播放个性化答复。 可使用类似于人类的现成预生成神经语音,或者根据你的产品或品牌创建独特的自定义神经语音。 若要详细了解支持的语音、语言和区域设置,请参阅语音服务的语言和语音支持

注意

Azure 通信服务目前支持两种文件格式,即 MP3 文件,其中ID3V2TAG和 WAV 文件的格式设置为 16 位脉冲编码调节(PCM)单声道音频,以 16 KHz 录制。 可以使用语音合成与音频内容创建工具创建自己的音频文件。

预生成神经文本转语音声音

Microsoft使用高级机器学习来克服传统语音合成在处理口语压力和语调方面的局限性。 韵律预测和语音合成以同步方式发生,使输出听起来更流畅且自然。 可以使用这些神经语音让与聊天机器人和语音助手的互动更加自然、更加吸引人。 有 100 多种预生成的语音可供选择。 详细了解文本转语音声音

常见用例

可以多种方式使用播放操作,下面列出了开发人员可能希望如何在其应用程序中使用播放操作的一些示例。

公告

应用程序可能希望在参与者加入或离开通话时播放某种通知,以通知其他用户。

自助服务客户

在交互式语音响应(IVR)系统和虚拟助手的方案中,可以使用应用程序或机器人向呼叫者播放音频提示,此提示可以采用菜单的形式引导呼叫者通过交互。

等待音乐

播放操作也可用于为呼叫者播放等待音乐。 可以在循环中设置此操作,以便音乐一直播放,直到有代理可以帮助呼叫者。

播放合规性消息

作为各行业合规性要求的一部分,供应商应向呼叫方发出法律或合规性信息,例如,“此呼叫记录为质量目的”。

使用文本转语音在呼叫中播放音频的示例体系结构

显示了利用 AI 进行播放的示例体系结构的示意图。

在呼叫中播放音频的示例体系结构

播放操作的流程屏幕截图。

已知限制

  • 文本转语音提示最多支持 4,000 个字符。 如果您的提示超过此限制,我们建议对基于文本到语音播放操作使用语音合成标记语言(SSML)。
  • Azure AI Foundry 中的 HD 语音不受官方支持。 使用这些语音会导致超时。
  • 对于超出语音服务配额限制的场景,可按照此处概述的步骤请求调高此限制。

后续步骤