你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

什么是说话人识别?

重要

Azure AI 语音中的说话人识别将于 2025 年 9 月 30 日停用。 应用程序将无法在此日期之后使用说话人识别。

此项变更不会影响其他 Azure AI 语音功能,例如语音转文本文本转语音语音翻译

“说话人识别”可以帮助确定在某个音频剪辑中说话的人是谁。 该服务可以使用语音生物统计技术,通过说话人独一无二的语音特征来验证和识别说话人。

你为单个说话人提供音频训练数据,这会基于说话人语音的独有特征创建注册配置文件。 然后,可以根据此配置文件交叉检查音频语音样本,以验证说话人是否为同一人(说话人验证)。 还可以根据一组已注册的说话人配置文件交叉检查音频语音样本,以查看是否与组中的任何配置文件匹配(说话人识别)。

说话人验证

说话人验证利用密码或自由格式的语音输入来简化验证已注册说话人身份的过程。 例如,可将它用于呼叫中心的客户身份验证和无接触设施访问。

说话人验证是如何工作的?

以下流程图直观显示了其工作原理:

显示说话人验证的工作原理的流程图。

说话人验证可以依赖于文本,也可以独立于文本。 依赖于文本 的验证意味着说话人需要选择相同密码以在注册和验证阶段进行使用。 独立于文本 的验证意味着说话人可以在注册和验证阶段以日常语言说话。

对于依赖于文本的验证,通过从一组预定义短语中说出密码来注册说话人的语音。 语音特征从音频录制中进行提取,以构成唯一的语音签名,同时还会识别所选密码。 语音签名和密码一起用于验证说话人。

说话人在注册过程中除了可以说启用活动注册时的初始激活短语外,也可以说其他任何内容,独立于文本的验证对此没有限制。 此验证对于要验证的音频样本没有任何限制,因为它只是提取语音特征来对相似性进行评分。

这些 API 并不旨在用于确定音频是来自真实的个人、模仿内容,还是已注册的说话人的录音。

说话人识别

说话人识别可帮助在一组已注册说话人中确定未知说话人的身份。 说话人识别使你能够将语音归属于各个说话人,并从具有多个说话人的场景中解锁值,例如:

  • 支持远程会议工作效率解决方案。
  • 构建多用户设备个性化。

说话人识别是如何工作的?

说话人识别的注册是独立于文本的。 说话人在音频中所说的内容无任何限制,除了可以说启用活动注册时的初始激活短语外,也可以说其他任何内容。 与说话人验证类似,在注册阶段会录制说话人的语音,并且会提取语音特征来构成独一无二的语音签名。 在标识阶段,输入语音样本会与指定列表中的已注册语音(每个请求中最多 50 个)进行比较。

数据安全和隐私

说话人注册数据存储在受保护的系统中,其中包括用于注册的语音音频和语音签名特征。 仅当升级算法,并且需要再次提取特征时,才使用用于注册的语音音频。 在识别阶段,服务不会保留语音录音,也不会保留已发送到服务的提取语音特征。

可控制保留数据的时间长度。 你可以通过 API 调用创建、更新和删除说话人的个人注册数据。 删除订阅时,也会删除与订阅相关联的所有说话人注册数据。

与所有 Azure AI 服务资源一样,使用说话人辨识功能的开发人员必须了解 Microsoft 针对客户数据的政策。 应确保从用户处获得了适当的权限。 有关更多详细信息,请参阅说话人识别的数据和隐私。 有关详细信息,请参阅 Microsoft 信任中心内的“Azure AI 服务”页

常见问题和解决方案

问题 解决方案
说话人识别最有可能用于哪些情形? 适合的示例包括呼叫中心客户验证、基于语音的患者签入、会议听录以及多用户设备个性化。
识别与验证之间有何区别? 识别是检测一组说话人中哪个成员正在说话的过程。 验证是确认说话人与已知、已注册的 语音匹配的操作。
支持哪些语言? 请参阅说话人识别语言支持
支持哪些 Azure 区域? 请参阅说话人识别区域支持
支持哪些格式的音频? 单声道 16 位,16 kHz PCM 编码的 WAV。
是否可以多次注册一个说话人? 可以,对于依赖于文本的验证,最多可以将一个说话人注册 50 次。 对于独立于文本的验证或说话人识别,最多可使用 300 秒的音频进行注册。
哪些数据存储在 Azure 中? 注册音频存储在服务中,直到删除语音配置文件。 不保留或存储识别音频样本。

负责任的 AI

AI 系统不仅包括技术,还包括使用它的人员、受其影响的人员以及部署它的环境。 阅读透明度说明,了解如何在系统中负责任地使用和部署 AI。