通过


你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

文本转语音的数据、隐私和安全性

重要

仅为方便起见,提供非英语翻译。 请参阅EN-US本文档的版本以获取最终版本。

本文详细介绍了 Azure 语音在 Foundry Tools 文本转语音功能中如何处理、使用和存储您提供的数据。 作为一项重要提醒,你对使用和实施此技术负有责任,并且需要获取所有必要的权限,包括在适用的情况下,从语音和虚拟形象的创作者以及个人语音集成的用户获取权限,用于处理他们的语音、图像、肖像和/或其他数据,以开发合成语音和/或虚拟形象。

你还负责获取将内容输入到语音合成服务以生成音频、图像和/或视频输出所需的任何许可、授权或其他权利。 某些司法管辖区可能会对某些类别数据(如生物识别数据)的收集、处理和存储施加特殊的法律要求,并强制向用户披露合成语音、图像和/或视频的使用。 在使用文本转语音处理和存储任何类型的数据之前,以及(如果适用)创建自定义神经语音、个人语音或自定义虚拟形象模型,必须确保符合可能适用于你的所有法律要求。

文本转语音服务处理哪些数据?

  • 用于语音合成的文本输入。 这是你选择的文本并将其发送到语音服务,以使用一组预生成的神经语音生成音频输出,或生成预生成的虚拟形象,该虚拟形象用于表达从预生成或自定义神经语音生成的音频。

文本转语音服务如何处理数据?

预生成的神经语音

下图演示了如何处理数据以使用预生成的神经语音进行合成。 输入为文本,输出为音频。 输入文本和输出音频内容都不会存储在Microsoft日志中。

预生成的神经语音数据处理示意图。

神经网络自定义语音

下图演示了如何为自定义神经语音处理数据。 此图涵盖三种不同类型的处理:Microsoft 如何在自定义神经语音模型训练之前验证语音人才录制的确认语句文件、如何Microsoft使用训练数据创建自定义神经语音模型,以及文本到语音处理文本输入以生成音频内容的方式。

自定义神经语音如何处理数据

文本转语音虚拟形象

下图演示了如何处理您的数据,以便通过预建的文本到语音头像进行合成。 虚拟形象内容生成工作流中有三个组件:文本分析器、TTS 音频合成器和 TTS 虚拟形象视频合成器。 若要生成头像视频,文本首先输入到文本分析器中,该分析器以音素序列的形式提供输出。 然后,TTS 音频合成器预测输入文本的声学特征并合成语音。 这两部分由文本转语音模型提供。 接下来,神经文本转语音的虚拟人偶模型会根据声学特征预测唇形同步的图像,从而生成合成视频。

文本到语音虚拟形象数据流的关系图。

视频翻译(预览版)

下图演示了如何使用视频翻译处理数据。 客户将视频作为视频翻译的输入上传,提取对话音频,语音转文本会将音频转录为文本内容。 然后,文本内容将翻译为目标语言内容,并使用文本转语音功能将翻译的音频与原始视频内容合并为视频输出。

视频翻译数据流示意图。

没有提供任何预设语音或虚拟形象的附加模块。

数据存储和保留期

语音合成的文本输入: Microsoft不会保留或存储您通过实时文本转语音合成 API 提交的文本。 通过用于文本转语音的 长音频 API 或文本到语音头像批处理 API 提供的脚本存储在 Azure 存储中,以处理批处理合成请求。 可以随时通过 删除 API 删除输入文本。

输出音频和视频内容: Microsoft不存储使用实时合成 API 生成的音频或视频内容。 如果使用视频翻译或 长音频 API 进行文本转语音头像批处理 API,输出音频或视频内容将存储在 Azure 存储中。 这些音频或视频可以通过删除操作随时删除。

防止滥用和有害内容生成(预览版)

为了降低对 Azure 文本转语音虚拟形象服务的有害使用风险,Azure 文本转语音虚拟形象提供内容安全功能。 当服务处理文本以生成音频时,内容安全会同步发生。 内容分类器模型中不存储任何文本或生成的结果,并且不会使用文本和结果来训练、重新训练或改进分类器模型。 若要详细了解内容安全功能的危害类别,请参阅 “危害”类别

另请参阅