你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

人工智能 (AI) 概述

人工智能 (AI) 技术对许多通信体验都很有用。 例如,AI 可以帮助人类更好地沟通并更有效地完成任务,例如,银行员工可以使用 AI 生成的会议摘要来帮助他们跟进。 AI 可以减少人工工作负载并支持更灵活的客户参与,例如设置一个全天候电话机器人,客户可以致电以检查其帐户余额。

更多示例包括:

  • 运行响应人类对话的聊天或语音机器人。
  • 将音频语音内容转换为文本听录内容。
  • 转换视频源以模糊用户的背景。
  • 批注和分析对话,以确定趋势和改进服务的机会。
  • 将文本聊天和会议听录的语料库转换为摘要。 这种体验可能涉及一个生成式 AI 界面,用户在该界面中询问:“请总结我和用户 Joe 之间的所有对话”。

本文总结了 Azure 通信服务中 AI 和 AI 相关功能的可用性。 AI 功能分为两大类:

  • 集成 AI:Azure 通信服务直接与 Azure AI 和 Microsoft Copilot Studio 集成。 通常,这些功能需要在 Azure 门户中创建和链接 Azure 通信服务及 Azure AI 资源。 在此一次性链接后,使用这些 AI 功能就像单个 API 调用一样简单。
  • 访问器:Azure 通信服务提供各种 API,使你获得对通信数据的原始和转换访问权限,从而轻松地连接自己的外部服务和 AI 系统。

消息传送:短信、聊天、电子邮件、WhatsApp

本部分总结了将 AI 集成到 Azure 通信消息传送中的功能。

直接集成

  • 高级消息分析:适用于 WhatsApp 的 Azure 通信服务消息传送 API 提供与 Azure OpenAI 的内置集成,以便分析和注释消息。 此集成可以检测用户的语言、识别其意图并提取关键短语。
  • Azure 机器人服务:聊天通道集成:Azure 通信服务聊天系统直接与 Azure 机器人服务集成。 此集成简化了创建与人类用户互动的聊天机器人的工作。

访问器

所有 Azure 通信服务消息传送功能都可以通过 REST API、面向服务器的 SDK 和事件网格通知进行访问。 你可以使用这些 SDK 将内容导出到外部数据存储,并附加一个语言模型来总结对话。 或者,可以使用 SDK 集成可直接与人类用户互动的机器人。 例如,此 GitHub 示例演示了如何通过 REST API 访问聊天的 Azure 通信服务 API,然后由 Azure OpenAI 进行分析。

语音、视频和电话

本部分总结了将 AI 集成到 Azure 通信语音和视频通话的功能。

直接集成

  • 呼叫自动化 REST API 和 SDK:Azure 通信服务提供了简单的 API,用于合成识别语音。 这些 API 的最常见应用场景是实现语音机器人,有时也称为互动语音响应 (IVR)。
  • Microsoft Copilot Studio:Copilot Studio 直接与 Azure 通信服务中的电话服务集成。 此集成专为语音机器人和 IVR 而设计。
  • 客户端辅助字幕:通话客户端 SDK 提供用于实现实时隐藏式字幕的 API,针对辅助功能进行了优化。
  • Azure 门户中的 Copilot:可以使用 Azure 门户中的 Copilot 提问有关 Azure 通信服务的问题。 Copilot 使用 Azure 技术文档来回答你的问题,最适用于询问有关错误代码和 API 行为的问题。
  • 客户端背景效果:通话客户端 SDK 提供用于模糊或替换用户背景的 API。
  • 客户端噪音增强和效果:通话客户端 SDK 集成了 DeepVQE 机器学习模型,可通过回声消减和背景噪音抑制来提高音频质量。 此转换通过使用客户端 SDK 打开和关闭。

访问器

与 Azure 通信服务消息传送类似,有面向许多语音和视频通话功能的 REST API。 但是,通话的实时性质需要闭源 SDK 和更复杂的 API,例如 Websocket 流式处理。

  • 呼叫自动化 REST API 和 SDK:服务和 AI 应用程序使用呼叫自动化 REST API 来应答、路由和管理所有类型的 Azure 语音和视频呼叫。
  • 服务到服务音频流式处理:AI 应用程序使用 Azure 的服务到服务 WebSocket API 来流式传输音频数据。 此方法适用于两个方向,AI 可以倾听通话并说话。
  • 服务到服务实时听录:AI 应用程序使用 Azure 的服务到服务 WebSocket API 来流式传输 Azure 生成的实时听录。 与音频或视频内容相比,AI 模型通常可以更轻松地基于脚本数据进行推理。
  • 通话记录:可以在你自己的数据存储中记录 Azure 通话,然后指示 AI 服务处理该内容。
  • 客户端原始音频和视频:通话客户端 SDK 提供用于访问和修改原始音频和视频源的 API。 一个示例应用场景是获取视频源、使用计算机视觉将人类说话者与其背景区分开来并自定义该背景。