本文详细介绍了您提供的数据如何被 Azure 语音在 Foundry Tools 文字转语音中处理、使用和存储。 作为一项重要提醒,你对使用和实施此技术负有责任,并且需要获取所有必要的权限,包括在适用的情况下,从语音和虚拟形象的创作者以及个人语音集成的用户获取权限,用于处理他们的语音、图像、肖像和/或其他数据,以开发合成语音和/或虚拟形象。
你还负责获取将内容输入到语音合成服务以生成音频、图像和/或视频输出所需的任何许可、授权或其他权利。 某些司法管辖区可能会对某些类别数据(如生物识别数据)的收集、处理和存储施加特殊的法律要求,并强制向用户披露合成语音、图像和/或视频的使用。 在使用文本转语音处理和存储任何类型的数据之前,以及(如果适用)创建自定义神经语音、个人语音或自定义虚拟形象模型,必须确保符合可能适用于你的所有法律要求。
文本转语音服务处理哪些数据?
-
用于语音合成的文本输入。 这是你选择的文本并将其发送到语音服务,以使用一组预生成的神经语音生成音频输出,或生成预生成的虚拟形象,该虚拟形象用于表达从预生成或自定义神经语音生成的音频。
录制的语音演员确认声明书。 客户需要上传由语音人才说出的特定录制声明,声明中应明确他们承认你将使用他们的声音来创建合成语音。
注释
在准备录制脚本时,请确保包含供配音演员录制的必要确认声明。 可以在多种语言here中找到该语句。 确认语句的语言必须与录音训练数据的语言相同。
训练数据(包括音频文件和相关文本脚本)。 这包括来自配音演员的录音,他们已经同意将其声音用于模型训练以及相关的文本转录。 在自定义神经语音专业项目中,可以提供自己的音频文本听录,或使用语音工作室中提供的自动语音识别听录功能生成音频的文本听录。 录音和文本听录文件都将用作语音模型训练数据。 在一个自定义神经语音简化版项目中,你将被要求在 Speech Studio 中录制 Microsoft 定义的脚本语音。 个人语音功能不需要文本记录。
文本作为测试脚本。 可以通过生成语音合成音频示例来上传自己的基于文本的脚本来评估和测试自定义神经语音模型的质量。 这不适用于个人语音功能。
用于语音合成的文本输入。 这是你选择的文本并将其发送到语音服务,以使用自定义神经语音生成音频输出。
录制的虚拟形象代言人确认声明文件。 客户需要上传虚拟形象人才说出的特定视频录制声明,他们确认你将使用他们的语音和图像来创建虚拟形象模型(s)。
注释
制定视频录制计划时,请确保包含虚拟形象代言人需要录制的必备确认声明。 可以在多种语言here中找到该语句。 确认语句的语言必须与视频录制训练数据的语言相同。
确认声明视频无需与视频录制训练数据保持相同条件(如录制环境、虚拟形象代言人服装),但演员面部应完全暴露,无任何遮挡。
训练数据(包括音频文件和图像/视频文件)。 这包括已同意使用其图像和语音进行模型训练的虚拟形象人才的视频和录音。 我们不需要视频中音频的文本听录。
文本作为测试脚本。 可以通过生成合成虚拟形象视频示例来上传自己的基于文本的脚本来评估和测试自定义虚拟形象模型的质量。
用于语音合成的文本输入。 这是你选择的文本并将其发送到语音服务,以使用自定义头像生成音频和视频输出。
文本转语音服务如何处理数据?
预生成的神经语音
下图演示了如何处理数据以使用预生成的神经语音进行合成。 输入为文本,输出为音频。 输入文本和输出音频内容都不会存储在Microsoft日志中。
神经网络自定义语音
下图演示了如何为自定义神经语音处理数据。 此图涵盖三种不同类型的处理:Microsoft 如何在自定义神经语音模型训练之前验证语音人才录制的确认语句文件、如何Microsoft使用训练数据创建自定义神经语音模型,以及文本到语音处理文本输入以生成音频内容的方式。
文本转语音虚拟形象
下图演示了如何处理的数据,以便通过预建的文本到语音头像进行合成。 虚拟形象内容生成工作流中有三个组件:文本分析器、TTS 音频合成器和 TTS 虚拟形象视频合成器。 若要生成头像视频,文本首先输入到文本分析器中,该分析器以音素序列的形式提供输出。 然后,TTS 音频合成器预测输入文本的声学特征并合成语音。 这两部分由文本转语音模型提供。 接下来,神经文本转语音的虚拟人偶模型会根据声学特征预测唇形同步的图像,从而生成合成视频。
视频翻译
下图演示了如何使用视频翻译处理数据。 客户将视频作为视频翻译的输入上传,提取对话音频,语音转文本会将音频转录为文本内容。 然后,文本内容将翻译为目标语言内容,并使用文本转语音功能将翻译的音频与原始视频内容合并为视频输出。
确认声明的记录验证
Microsoft要求客户将音频文件上传到 Speech Studio,其中包含语音人才的录制声明,确认客户将使用其语音创建合成语音。 Microsoft可以使用 Microsoft的语音转文本和语音识别 技术将此录制的确认语句转录为文本,并验证录制内容是否与Microsoft提供的预定义脚本匹配。 此确认声明及您提供的音频人才信息将用于创建语音人才资料。 启动神经网络定制声音训练时,必须将训练数据与相关的发音人资料关联。
Microsoft还可以使用 Azure AI Speaker Verification,从语音人才录制的确认声明文件中处理生物识别语音签名,并从训练数据集中的随机音频中提取,以确保确认声明中的语音签名与训练数据录音匹配,并具有合理的置信度。 语音签名也可以称为“语音模板”或“语音打印”,是一个数字向量,表示从说话人的录音中提取的单个语音特征。 此技术保护措施旨在帮助防止滥用自定义神经语音,例如,阻止客户使用录音训练语音模型,并使用模型欺骗某人的声音,而无需知情或同意。
语音签名由Microsoft仅用于说话人验证,或者出于其他需要调查滥用服务的情况。
Microsoft产品和服务数据保护附录(“DPA”)规定了客户和Microsoft在处理和保护客户数据与个人数据方面的义务,与Azure相关联,并通过引用纳入客户的企业Azure服务协议。 本部分中Microsoft数据处理受数据保护附录的“合法利益业务运营”部分的约束。
训练自定义神经语音模型
客户提交到 Speech Studio 的训练数据(语音音频)是使用自动化工具进行质量检查的预处理,包括数据格式检查、发音评分、噪音检测、脚本映射等。然后将训练数据导入到自定义语音平台的模型训练组件。 在训练过程中,训练数据(语音音频和文本听录)被分解为语音声学和文本的细粒度映射,例如一系列音素。 通过进一步复杂的机器学习建模,该服务生成一个声音模型,然后可用于生成与声音演示者类似的音频,甚至可以根据训练数据的录音以不同语言生成。 语音模型是一种文本转语音计算机模型,可以模拟特定扬声器的独特声乐特征。 它以二进制格式表示一组参数,这些参数不可读且不包含音频录制。
客户的训练数据仅用于开发客户的自定义语音模型,Microsoft不会使用这些数据来训练或改进任何微软的文本到语音的语音模型。
语音合成/音频内容生成
创建语音模型后,可以使用它通过文本到语音服务创建音频内容,并采用两种不同的选项。
对于实时语音合成,可以通过 TTS SDK 或 RESTful API 将输入文本发送到语音服务。 文本转语音处理输入文本,并将输出音频内容文件实时返回到发出请求的应用程序。
对于长音频(批量合成)的异步合成,可以通过 长音频 API 将输入文本文件提交到语音批处理服务,以异步创建超过 10 分钟的音频(例如音频书籍或讲座)。 与使用文本转语音 API 执行的合成不同,长音频 API 不会实时返回响应。 音频是异步创建的,可以在从批处理合成服务获取合成文件时访问和下载合成的音频文件。
还可以使用自定义语音模型通过无代码 Audio 内容创建工具生成音频内容,并选择在Azure存储中使用该工具保存文本输入或输出音频内容。
神经网络定制声音精简版的数据处理(预览版)
自定义神经语音精简版是公共预览版中的项目类型,可用于在 Speech Studio 上录制 20-50 个语音示例,并创建用于演示和评估的轻型自定义神经语音模型。 录制脚本和测试脚本均由Microsoft预定义。 仅当你申请并获得对自定义神经语音的完全访问权限(受适用条款的约束)时,才能更广泛地部署和使用你使用自定义神经语音 lite 创建的合成语音模型。
通过 Speech Studio 提交的合成语音和相关录音将在 90 天内自动删除,除非你获得对自定义神经语音的完全访问权限并选择部署合成语音,在这种情况下,你将控制其保留期。 如果配音员希望在 90 天前删除合成语音和相关录音,他们可以直接在门户中删除它们,或联系其企业执行此作。
此外,在部署使用自定义神经语音精简项目创建的任何合成语音模型之前,语音人才必须提供一个额外的录音,他们确认合成语音将用于演示和评估以外的其他用途。
个人语音 API 的数据处理(预览版)
个人语音允许客户使用简短的人声样本创建合成语音。 每个在你的应用程序中使用集成功能的用户都需要提供上述确认声明文件。 Microsoft 可能会处理每个用户录制的语音声明文件及其录制的训练样本(又称提示词)中的生物识别语音特征,使用 Azure AI 说话人验证,以合理的置信度确认确认声明录制和训练数据录制中的语音特征是否匹配。
训练示例将用于创建语音模型。 然后,可以使用语音模型通过 API 使用提供给服务的文本输入生成语音,无需进行额外的部署。
视频确认声明验证
Microsoft要求客户提供视频文件,并提供其头像人才的录制确认声明,确认客户将使用人才的图像和语音创建自定义头像。 Microsoft将验证确认语句录制中的内容是否与Microsoft提供的预定义脚本匹配。
Microsoft可能会将录制的确认视频语句文件中的虚拟形象的面部和声音与相关培训数据集中的随机视频进行比较,以核实培训数据集视频录制中的人员与确认视频语句文件中的人员是否匹配。
仅当提供确认声明视频录制文件和视频训练数据并且通过演员验证测试时,Microsoft 才会开始训练自定义虚拟形象模型。
训练自定义文本转语音虚拟形象模型
客户通过自定义虚拟形象门户将其训练数据提交到 Speech Studio。 数据是使用自动化工具预处理的,用于检查质量,包括数据格式、文件大小和数据总量。 然后,训练数据将导入自定义虚拟形象门户的模型训练组件。 在训练过程中,训练数据(视频文件中的视频图像和语音音频)被分解为唇部运动和语音声学的细粒度映射。 通过进一步复杂的机器学习建模,该服务构建一个虚拟形象模型,然后可用于生成与虚拟形象人物相似的视频,甚至可以生成与训练数据中录制的不同语言的声音相匹配。
客户的训练数据仅用于开发该客户的自定义化身模型,不会被 Microsoft 用于训练或改进任何 Microsoft 的文本转语音化身模型。
数据存储和保留期
语音合成的文本输入: Microsoft不会保留或存储您通过实时文本转语音合成 API 提交的文本。 通过长音频 API 为文本转语音提供的脚本或通过文本转语音虚拟形象批 API 为文本转语言虚拟形象提供的脚本存储在 Azure 存储中以处理批合成请求。 可以随时通过 删除 API 删除输入文本。
输出音频和视频内容: Microsoft不存储使用实时合成 API 生成的音频或视频内容。 如果使用视频翻译或 Long Audio API 文本转语音虚拟形象批处理 API,输出音频或视频内容将存储在Azure存储中。 这些音频或视频可以通过删除操作随时删除。
语音合成的文本输入: Microsoft不会保留或存储您通过实时文本转语音合成 API 提交的文本。 通过 Long Audio API 提供的脚本用于文本转语音,或者通过文本转语音头像批处理 API 用于生成文本转语音虚拟形象时,这些脚本会存储在 Azure 存储中,以处理批量合成请求。 可以随时通过 删除 API 删除输入文本。
输出音频和视频内容: Microsoft不存储使用实时合成 API 生成的音频或视频内容。 如果使用视频翻译或 Long Audio API 文本转语音虚拟形象批处理 API,输出音频或视频内容将存储在Azure存储中。 这些音频或视频可以通过删除操作随时删除。
录制的确认声明和说话人验证数据:语音签名由Microsoft仅用于说话人验证目的,或者出于其他需要调查滥用服务的情况。 将仅在执行说话人验证所需的时间内保留声音签名,这种验证可能不时发生。 Microsoft 可能会要求您进行此验证,然后才允许您在 Speech Studio 中创建或重新创建自定义神经语音模型,或在必要时采取其他措施。 为维护 Azure Speech 的安全性和完整性,Microsoft 将根据需要保留录制的确认声明文件和语音代言人档案数据。
自定义神经语音模型:虽然您保留对自定义神经语音模型的独占使用权限,但Microsoft可以在必要的情况下独立保留这些模型的副本。 Microsoft可以使用自定义神经语音模型来保护 Foundry 工具的安全性和完整性。
Microsoft将保护并存储每个语音人才录制的确认语句和自定义神经语音模型的副本,该模型具有与其他Azure服务相同的高级安全性。 了解更多信息,请访问Microsoft 信任中心。
训练数据: 通过 Speech Studio 提交发音人的语音训练数据以生成语音模型,默认情况下,这些数据将保留并存储在 Azure 存储中(有关详细信息,请参静态数据的 Azure 存储加密)。 可以通过 Speech Studio 访问和删除用于生成语音模型的任何训练数据。
可以通过 BYOS 管理训练数据的 存储(自带存储)。 使用此存储方法,只能出于语音模型训练的目的访问训练数据,否则将通过 BYOS 存储。
注释
个人语音不支持 BYOS。 数据将存储在由Microsoft管理的Azure存储中。 你可以访问和删除用于通过 API 生成语音模型的任何训练数据(提示音频)。 Microsoft可以根据需要独立保留个人语音模型的副本。 Microsoft可以使用个人语音模型来保护 Foundry 工具的安全性和完整性。
语音合成的文本输入: Microsoft不会保留或存储您通过实时文本转语音合成 API 提交的文本。 通过 Long Audio API提供的脚本用于文本转语音,或通过文本转语音头像批处理 API,存储在 Azure 存储中,以处理批处理合成请求。 可以随时通过 删除 API 删除输入文本。
输出音频和视频内容: Microsoft不存储使用实时合成 API 生成的音频或视频内容。 如果使用视频翻译或 Long Audio API 文本转语音虚拟形象批处理 API,输出音频或视频内容将存储在Azure存储中。 这些音频或视频可以通过删除操作随时删除。
录制的确认语句数据:Microsoft可以在允许训练或重新训练自定义虚拟形象模型之前比较确认语句视频和训练数据。 为维护 Foundry Tools 的安全性和完整性,Microsoft 将根据需要保留录制的确认声明文件和虚拟形象代言人档案数据。
自定义文本转语音头像模型: 虽然维护自定义头像模型的独占使用权限,但Microsoft可以根据需要独立保留自定义头像模型的副本。 Microsoft可以使用自定义虚拟形象模型来保护 Foundry 工具的安全性和完整性。
Microsoft将以与其用于其他Azure服务相同的高级安全性来保护和存储虚拟形象人才记录的确认声明和自定义虚拟形象模型的副本。 了解更多信息,请访问Microsoft 信任中心。
训练数据:通过 Speech Studio 提交的训练数据将保留并存储在 Azure 存储中(有关详细信息,请参阅适用于静态数据的 Azure 存储加密)。 可以通过 Speech Studio 访问和删除用于生成虚拟形象模型的任何训练数据。
防止滥用和有害内容生成(预览版)
为了降低滥用 Azure 文本转语音 Avatar 服务的风险,Azure 文本转语音 Avatar 包含内容安全功能。 当服务处理文本以生成音频时,内容安全会同步发生。 内容分类器模型中不存储任何文本或生成的结果,并且不会使用文本和结果来训练、重新训练或改进分类器模型。 若要详细了解内容安全功能的危害类别,请参阅 “危害”类别。
另请参阅