你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

什么是语音助手?

通过使用语音服务的语音助理,开发人员为其应用程序和体验创建自然的、类似于人类的对话界面。 语音助理服务在设备和助理实现之间提供快速、可靠的交互。

选择助理解决方案

创建语音助理的第一步是确定希望其执行什么操作。 语音服务为构建助手交互提供多种补充性解决方案。 你可能希望你的应用程序支持使用“我需要去西雅图”或“我可以点什么样的披萨?”之类的短语进行开放式对话。为了获得灵活性和多功能性,可通过将 Azure AI 机器人服务和 Direct Line Speech 频道结合使用,为机器人添加语音输入和语音输出功能。

如果不确定希望助理做什么,我们建议使用 Direct Line Speech 作为最佳选项。 它可与丰富的工具和创作辅助工具(例如虚拟助理解决方案和企业模板QnA Maker 服务)相集成,构建通用模式并可使用现有的知识源。

通过使用语音 SDK 构建语音助手的参考体系结构

语音助理业务流程服务流的概念图。

核心功能

无论选择 Direct Line Speech 还是其他解决方案来创建助理交互,均可使用一套丰富的自定义功能来自定义助理,使其符合自己品牌、产品和个性。

类别 功能
自定义关键字 用户可以使用自定义关键字(例如“Hey Contoso”)与助理开始对话。应用程序使用语音 SDK 中的自定义关键字引擎执行此操作,可以前往自定义关键字入门来配置语音 SDK。 语音助手可以使用服务端关键字验证来提升关键字激活的准确度(相比使用设备自身)。
语音转文本 语音助手通过使用语音服务中的语音转文本将实时音频转换为识别的文本。 此文本是听录而成的,因此可供助理实现和客户端应用程序使用。
文本转语音 助手使用语音服务中的文本转语音合成其文本响应。 然后,这些合成内容可作为音频流提供给客户端应用程序使用。 Microsoft 提供构建自己的自定义优质神经文本转语音(神经 TTS)语音的功能,可为你的品牌提供专属语音。

开始使用语音助手

我们提供以下快速入门文章,旨在实现 10 分钟内运行代码:快速启动:使用 Direct Line Speech 创建自定义语音助理

示例代码和教程

GitHub 上提供了用于创建语音助理的示例代码。 这些示例涵盖使用几种常用编程语言连接到助手的客户端应用程序。

自定义

使用语音服务构建的语音助理可以使用各种自定义选项。

注意

自定义选项因语言和区域设置而异。 若要了解详细信息,请参阅支持的语言

后续步骤