你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

使用语音转文本听录管道来分析录制的对话

Azure AI 语音
Azure AI 语言
Azure AI 服务
Azure Synapse Analytics
Azure 逻辑应用

语音识别和记录的客户通话分析可以提供有关当前趋势、产品缺陷和成功的宝贵信息。

本文中所述的示例解决方案概述了用于听录和分析对话数据的可重复管道。

体系结构

该体系结构由两个管道组成:一个用于将音频转换为文本的听录管道,以及一个扩充和可视化管道。

听录管道

说明如何使用 Azure AI 服务引入语音并将其转换为文本的示意图。

下载此体系结构的 Visio 文件

数据流

  1. 音频文件通过任何受支持的方法上传到 Azure 存储帐户。 可使用基于 UI 的工具(例如 Azure 存储资源管理器)或使用存储 SDK 或 API
  2. 上传到 Azure 存储会触发 Azure 逻辑应用。 逻辑应用访问 Azure Key Vault 中的任何必要凭据,并向语音服务的批量听录 API 发出请求。
  3. 逻辑应用将音频文件调用提交给语音服务,包括说话人分割聚类的可选设置。
  4. 语音服务完成批量听录并将听录结果加载到存储帐户。

扩充和可视化管道

说明扩充和可视化管道的示意图。

下载此体系结构的 Visio 文件

数据流

  1. 运行 Azure Synapse Analytics 管道,以检索和处理听录的音频文本。
  2. 管道通过 API 调用将处理后的文本发送到语言服务。 该服务执行各种自然语言处理 (NLP) 扩充功能,例如情绪和观点挖掘、摘要以及自定义和预生成的命名实体识别。
  3. 处理后的数据存储在 Azure Synapse Analytics SQL 池中,可在其中提供给 Power BI 等可视化工具。

组件

  • Azure Blob 存储。 大规模可缩放且安全的对象存储,适用于云原生工作负载、存档、Data Lake、高性能计算和机器学习。 在此解决方案中,它会存储音频文件和听录结果,并用作下游分析的 Data Lake。
  • Azure 逻辑应用。 基于容器化运行时构建的集成平台即服务 (iPaaS)。 在此解决方案中,它会集成存储和语音 AI 服务。
  • AI 语音服务。 一个基于 AI 的 API,可提供语音转文本、文本转语音、语音翻译和说话人识别等语音功能。 此解决方案中使用了其批量听录功能。
  • AI 语言。 一项基于 AI 的托管服务,它提供情绪分析、实体提取和自动问题解答等自然语言功能。
  • Azure Synapse Analytics。 一组提供数据集成、企业数据仓库和大数据分析的服务。 在此解决方案中,它将转换和扩充听录数据,并将该数据提供给下游可视化工具。
  • Power BI。 数据建模和可视化分析工具。 在此解决方案中,它将向用户和决策者提供听录的音频见解。

备选方法

以下是此解决方案体系结构的一些替代方法:

  • 考虑将 Blob 存储帐户配置为使用分层命名空间。 此配置提供基于访问控制列表 (ACL) 的安全控制,并且可以提高某些大数据工作负载的性能。
  • 你可以将 Azure Functions 用作代码优先集成工具,而不是逻辑应用或 Azure Synapse 管道,具体取决于工作负载的大小和规模。

方案详细信息

客户服务中心是许多行业中许多企业成功不可或缺的一部分。 此解决方案使用 Azure AI 服务中的语音 API 对录制的客户通话进行音频听录和分割聚类。 Azure Synapse Analytics 用于通过对 AI 语言进行 API 调用来处理和执行 NLP 任务,例如情绪分析和自定义命名实体识别。

可使用此处所述的服务和管道来处理听录的文本,以识别和删除敏感信息、执行情绪分析等。 可以缩放服务和管道以容纳任何记录的数据量。

可能的用例

此解决方案可为许多行业的组织提供价值,包括电信、金融服务和政府。 它适用于任何记录对话的组织。 特别是,面向客户或内部呼叫中心或支持台可从该解决方案中获得的见解中受益。

注意事项

这些注意事项实施 Azure 架构良好的框架的支柱原则,即一套可用于改进工作负载质量的指导原则。 有关详细信息,请参阅 Microsoft Azure 架构良好的框架

安全性

安全性针对蓄意攻击及滥用宝贵数据和系统提供保障措施。 有关详细信息,请参阅安全性支柱概述

  • 对语音 API 的请求可以包括 Azure 存储中目标容器的共享访问签名 (SAS) URI。 利用 SAS URI,语音服务能够将听录文件直接输出到容器位置。 如果组织不允许使用 SAS URI 进行存储,则需要实现一个函数来定期轮询语音 API,以获取已完成的资产。
  • 帐户或 API 密钥等凭据应作为机密存储在 Azure Key Vault 中。 将逻辑应用和 Azure Synapse 管道配置为使用托管标识访问密钥保管库,以避免将机密存储在应用程序设置或代码中。
  • 存储在 Blob 中的音频文件可能包含敏感的客户数据。 如果多个客户端正在使用该解决方案,则需要限制对这些文件的访问。 在存储帐户上使用分层命名空间并强制实施文件夹和文件级别的权限,以将访问权限限制为仅需要的 Microsoft Entra 实例。

成本优化

成本优化是关于寻找减少不必要的费用和提高运营效率的方法。 有关详细信息,请参阅成本优化支柱概述

此体系结构中所述的所有 Azure 服务都提供了即用即付计费选项,因此解决方案成本呈线性缩放。

Azure Synapse 为无服务器 SQL 池提供了一个选项,因此可以按需启动针对数据仓库工作负载的计算。 如果你不使用 Azure Synapse 为其他下游用例提供支持,请考虑使用无服务器来降低成本。

有关更多成本优化策略,请参阅成本优化要素概述

有关此处建议的服务的定价,请参阅 Azure 定价计算器中的此估算

性能效率

性能效率是指工作负载能够以高效的方式扩展以满足用户对它的需求。 有关详细信息,请参阅性能效率要素概述

批量语音 API 专为大容量而设计,但其他 Azure AI 服务 API 可能对每个订阅层都有请求限制。 请考虑将这些 API 容器化,以避免限制大容量处理。 利用容器,可灵活地在云端或本地进行部署。 还可以通过使用容器来缓解新版本推出的副作用。 有关详细信息,请参阅 Azure AI 服务中的容器支持

作者

本文由 Microsoft 维护, 它最初是由以下贡献者撰写的。

主要作者:

其他参与者:

若要查看非公开的 LinkedIn 个人资料,请登录到 LinkedIn。

后续步骤