你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
重要
仅为方便起见,提供非英语翻译。 查看此文档的
本文的目的是帮助语音和形象人才了解他们的声音和图像如何支持创建文本转语音能力背后的技术。 它还包含有关Microsoft如何处理、使用和保留包含人才录制语音和图像的音频和视频文件的重要隐私披露,并帮助Microsoft防止和/或响应对 Foundry 工具滥用的投诉。
Microsoft致力于负责任地设计 AI。 我们希望这一说明能促进技术建设者、语音人才、头像人才和公众对这项技术的预期和有益用途的更大共同理解。
文本转语音关键术语
语音模型: 文本转语音计算机模型,可以模拟目标扬声器的唯一声乐特征。 语音模型也称为语音字体或合成语音。 语音模型是一组二进制格式的参数,该参数不可读且不包含音频录制。 无法反向工程来派生或构造人类说话的录音。
配音员: 个人的声音或目标播音员的声音会被录制并用来创建听起来像配音员声音的语音合成模型。
虚拟形象模型: 文本转语音虚拟形象计算机模型,可以模仿目标参与者的独特面部特征。 虚拟形象模型是一组二进制格式的参数,该参数不可读且不包含视频或音频录制。 它不能通过逆向工程来推导或构建人类表演的视频录制。
虚拟形象发音人:自定义文本转语音虚拟形象模型构建需要对真实人类说话的视频录制进行训练。 这个人是化身人才。 客户必须根据虚拟形象人才的所有相关法律法规获得足够的同意,才能使用其图像创建自定义头像。
神经文本语音工作原理
工作原理: 语音到语音的神经文本使用深度神经网络合成语音,这些神经网络“学习”了拼音在自然人语音中组合的方式,而不是使用经典编程或统计方法。 除了特定配音演员的录音之外,神经文本到语音技术还使用一个源库,其中包含许多不同说话者的语音录音。
需要了解的是:由于其语音合成方式,神经文本到语音可以产生原始录音中不存在的语音样式,例如语音语调和感情色彩的变化。 神经网络文本转语音声音听起来流畅,擅长模仿人们在说话时表现出的自然停顿、个性和犹豫不决。 那些听到通过神经网络技术生成的合成语音的人往往评价它们比标准文本到语音的声音更接近人类语音。
Microsoft使用方式的示例
- 预生成的神经语音 是文本转语音的一项功能,它提供“现成”语音模型供客户使用。 预生成的神经语音还用于多个Microsoft产品,包括 Edge 浏览器、讲述人、Office 和 Teams。
-
自定义神经语音 是文本转语音的一项功能,可用于创建一种自定义合成语音模型。 以下是自定义神经语音的功能:
- 语言传输 可以用不同于原始录音的语言表达。
- 风格传输 可以表达与原始录音不同的说话风格。 例如,新闻播音员语音。
- 语音转换 可以表达与原始语音录制不同的方式。 例如,通过修改音高或音调来创建不同的角色声音。
- Microsoft产品和服务中使用的其他语音,例如 Cortana。
录制时需要执行的操作: 为用于概念验证的语音模型贡献至少 300 行,以及大约 2,000 行用于生成生产用途的新语音模型。
文本转语音头像的工作原理
工作原理:文本转语音虚拟形象以预生成的神经网络语音和神经网络定制声音为基础,并使用与之同步的文本转语音预生成的神经网络语音或神经网络定制声音,来合成虚拟形象的视频内容。 合成过程使用基于虚拟形象发音人视频录制开发的模型进行训练的深度神经网络。 模型使用从录制的音频元素中提取的声学特征进行训练,以及从录制的视频元素中提取的物理特征、嘴部运动、面部表情和相关视觉元素。
相关须知内容:合成的文本转语音虚拟形象的面部、身体和动作与虚拟形象发音人高度相似,但文本转语音虚拟形象的声音可能是根据 Microsoft 提供的任何预构建神经语音或根据神经网络定制声音生成的,这包括发音人与虚拟形象发音人是同一人的情况,前提是该个人已授权这类使用。
Microsoft使用方式的示例
- 预制文本转语音虚拟形象是 Foundry Tools 文本转语音中的一项 Azure 语音功能,它提供“现成”的文本转语音虚拟形象模型供客户使用。
- 自定义文本到语音头像是 Azure 语音合成的一个功能,可以创建独特的定制合成文本到语音头像模型。
录制时的相关须知:若用于概念验证版的自定义虚拟形象模型,你需要提供至少 10 分钟的视频录制素材;若要生成用于生产环境的完整自定义虚拟形象模型,则需提供约 20 分钟的视频录制素材。
配音员和合成声音:不断发展的关系
认识到语音人才与合成语音之间的整体关系,Microsoft采访了语音人才,以更好地了解他们对技术新发展的看法。 我们在 2019 年进行的研究表明,语音人才从神经文本引入语音的功能中获益,例如节省工作室完成录音作业的时间,以及增加完成更多语音表演工作的能力。 与此同时,人们对文本转语音技术的发展如何影响其职业有着不同程度的了解。
总的来说,配音员表达了对透明度和清晰性的愿望:
- 对声音相似度可用于表达的内容和不可用于表达的内容的限制。
- 允许使用声音相似度的持续使用。
- 对未来录音机会的潜在影响。
- 与其声音相似度关联的角色。
更广泛的使用合成语音
传统上,由于机器人声音,文本转语音在采用方面受到限制。 大多数用于支持辅助功能,例如,作为失明或视力不佳的人的屏幕阅读器。 文本转语音技术也被语音障碍人士使用。 例如,已故的斯蒂芬·霍金就曾使用文本转语音生成的声音。
现在,随着越来越逼真的合成声音和机器和人类之间更熟悉的日常交互的上升,这项技术的使用已经激增和扩大。 文本转语音系统支持跨设备和应用程序的语音助手。 他们阅读了新闻、搜索结果、公共服务公告、教育内容等。
合成头像得到更广泛的应用
与文本转语音的声音相似,如今的虚拟形象也能够提供逼真的外观、动作和面部表情,并配备有栩栩如生的声音。 这些演讲头像可用于各种情况,例如在在线培训中呈现内容、代表公司演示演讲、在客户服务设置中与客户交互等等。
Microsoft负责任使用文本转语音的策略
每天,人们都会找到将文本应用于语音技术的新方法,并不是所有人都适合个人或社会。 如果被滥用,听起来逼真如人类语音的文本转语音声音或逼真的说话虚拟形象可能会造成危害。 例如,如果错误信息活动使用知名公众人物的声音和形象,可能会变得更加有效。
我们认识到,没有完美的方法来防止媒体被修改或明确证明它来自哪里。 因此,我们在负责任的使用方法中,侧重于让Azure语音文本转语音功能的使用透明化,限制这些功能的定制版本的允许使用,并通过行动体现我们的价值观。
关于从发音人和虚拟形象发音人获取有意义的同意的要求和提示
如果使用Microsoft产品或服务处理生物识别数据,则你负责:(i)向数据主体提供通知,包括保留期和销毁:(二)获得数据主体的同意:和 (iii),删除生物识别数据,在适用的数据保护要求下全部适当和必需。 “生物识别数据”将具有 GDPR 第 4 条中规定的含义,如果适用,其他数据保护要求中的等效条款。
若要使用自定义神经语音,我们合同要求客户执行以下操作:
- 需从发音人处获取明确的书面许可,授权使用其声音来创建神经网络定制声音。
- 向语音人才提供此文档,以便他们可以了解语音文本的工作原理,以及完成录音过程后如何使用它。
- 获得语音人才的必要权限,以便 Microsoft 能处理、使用和保留语音人才的音频文件,来进行与训练数据对比的说话人验证,以及 Microsoft 对语音模型的使用和保留,如下所示。
我们还建议客户执行以下操作:
- 共享与语音人才一起使用的预期上下文,以便他们知道谁将听到自己的声音,在什么情况下,以及人们能否与语音交互。
- 确保配音演员了解,根据他们录音制作的语音模型可以表达出他们未在工作室中特意录制的内容。
- 讨论他们是否会对语音模型被用于表达某些内容感到不适。
Microsoft数据的处理、使用和保留
Microsoft使用语音人才音频文件进行说话人验证
客户必须获得配音演员的许可,才能使用他们的声音来创建合成声音的自定义语音模型。 此技术保护措施旨在帮助防止滥用我们的服务,例如,防止有人使用录音训练语音模型,并使用模型欺骗语音,而无需说话人的知识或同意。
在 Speech Studio 中,必须上传包含配音演员录制的确认声明的音频文件。 Microsoft保留在此录制的确认声明中使用Microsoft的说话人识别技术的权利,并将其与训练音频数据进行核实,以确认声音来自同一位说话人,或调查Azure语音服务潜在滥用行为所需的情况下使用。
Microsoft使用从录制的确认语句文件和训练音频数据创建的说话人的语音特征,仅用于上述目的。 Microsoft 将保留录制的声明文件,保留时长以维持 Microsoft Foundry Tools 的安全性和完整性所需的时间为准。 详细了解如何在 数据、隐私和安全文档中处理、使用和保留数据。
Microsoft自定义模型的使用
虽然客户对其自定义神经语音模型拥有独家使用权限,但Microsoft可以根据需要独立保留自定义神经语音模型的副本。 Microsoft可以使用自定义神经语音模型来保护 Foundry 工具的安全性和完整性。
Microsoft将以与其其他Azure服务相同的高水平安全措施,保护并存储语音人才的录音确认声明和自定义神经语音模型的副本。 在Microsoft信任中心了解详细信息。
我们将继续识别并明确说明文字转语音技术在当前社会规范及人们对媒体真实性或虚假性期望下的故意、有益和预期用途。 根据Microsoft的信任原则,Microsoft不会主动监视或审查使用自定义神经语音生成的音频内容。 客户完全负责确保使用符合所有适用的法律和法规,并按照客户与语音人才的协议条款。
Microsoft 将发音人数据与神经网络定制声音精简版一起使用
自定义神经语音精简版是公共预览版中的项目类型,可用于在 Speech Studio 上录制 20-50 个语音示例,并创建用于演示和评估的轻型自定义语音模型。 录制脚本和测试脚本均由Microsoft预定义。 仅当你申请并获得对自定义神经语音的完全访问权限(受适用条款约束)时,使用Custom Neural Voice Lite创建的合成语音模型才能被更广泛地部署和使用。
通过语音工作室提交的合成语音和相关录音将在 90 天内自动删除,除非你获得对自定义神经语音的完全访问权限,并选择部署合成语音,在这种情况下,你将控制其保留期。 如果配音员希望在 90 天前删除合成语音和相关录音,他们可以直接在门户中删除它们,或联系其企业执行此操作。
此外,在部署使用自定义神经语音精简项目创建的任何合成语音模型之前,语音人才必须提供一个额外的录音,他们确认合成语音将用于演示和评估以外的其他用途。
负责任的部署指南
由于文本转语音是一种可适应的技术,因此确定应或不应使用文本转语音的方式存在灰色区域。 为了导航这些内容,我们制定了以下使用合成语音和虚拟形象模型的准则:
- 保护语音和图像/肖像的所有者免受滥用或身份盗窃。
- 防止虚假和误导性内容的激增。
- 鼓励在使用者希望与合成内容交互的情况下使用。
- 鼓励在使用者观察合成内容的生成的情况下使用。
不当使用的示例
不得使用 Azure AI 文本转语音功能:
- 欺骗人和/或故意提供错误信息。
- 出于虚假广告目的,包括通过直播广告;冒充来自任何个人、公司、政府机构或实体,而未经明确许可进行此类声明。
- 冒充未经明确许可的任何人,包括获取信息或特权;
- 煽动或伪装仇恨言论、歧视、诽谤、恐怖主义或暴力行为:
- 利用或操纵儿童;
- 发出未经请求的电话、批量通信、帖子或消息;
- 伪装政策立场或政治意识形态:
- 传播未经证实的内容或虚假陈述来源。
适当使用的示例
适当的用例可能包括,但包括但不限于:
- 基于虚构角色的虚拟代理。 例如,按需网页搜索、物联网控制或由公司的品牌角色提供的客户支持。
- 用于虚构内容的娱乐媒体。 例如,电影、视频游戏、电视、录制的音乐或音频书籍。
- 认可的教育机构或教育媒体。 例如,交互式课程计划或引导式博物馆之旅。
- 辅助技术和实时翻译。 例如,ALS 患者留存他们的声音。
- 使用虚构角色的公共服务公告。 例如,机场或火车候机楼公告。
- 广告/实时传送视频流:广告内容、与产品营销或销售相关的实时传送视频流。