通过


你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

透明度说明:文字转语音

重要

仅为方便起见,提供非英语翻译。 有关最终版本,请参阅本文档的 EN-US 版本

什么是透明度说明?

AI 系统不仅包括技术,还包括使用它的人员、受其影响的人员以及部署它的环境。 创建适合其预期用途的系统需要了解技术的工作原理、其功能和限制,以及如何实现最佳性能。 Microsoft 的透明度说明旨在帮助你了解 AI 技术的工作原理、系统所有者可通过哪些选择来影响系统性能和行为,以及保持系统全局观(包括技术、人员和环境)的重要性。 开发或部署自己的系统时,可以使用透明度说明,或者与将使用或受系统影响的人员共享它们。

Microsoft 的透明度说明是 Microsoft 将其 AI 原则付诸实践的广泛努力的一部分。 若要了解详细信息,请参阅 Microsoft AI 原则

语音合成基础知识

介绍

Text to speech是 Foundry Tools 中Azure语音的一部分,是一种通用工具,可将书面文本转换为自然语音音频。 该功能采用文本形式输入,并生成可在设备上播放的高质量语音音频输出。 对于语音输出,文本转语音为有限访问客户提供一系列预设的神经语音,或者提供为您的产品或品牌创建自定义神经语音的选项。

Text to speech还具有视觉功能。 使用text to speech头像,客户可以输入文本并创建虚拟形象演讲的合成视频。 预构建的文本到语音合成和自定义文本到语音合成都可用,可用于预构建的神经语音和自定义神经语音,但某些功能仅对有限访问的客户开放。

在text to speech系统中,客户可以将书面信息转换为可听见的语音,并改进用户的可访问性。 无论是倾听文档还是通过合成语音增强用户体验,文本转语音技术将文本转换为自然流畅的语音。

关键术语

术语 定义
实时语音合成 使用 Speech SDKREST API 将文本转换为语音,使用 预生成的神经语音预生成的文本到语音虚拟形象自定义神经语音自定义文本到语音虚拟形象
语音模型 在text to speech系统中,语音模型是指基于machine learning的模型或算法,该模型或算法从书面文本生成合成语音。 此模型经过训练,可将文本输入转换为口语输出,模仿人类语音的特征,包括音调、音调和发音。
韵律 韵律是指对语音元素(如音调、时长、音量和停顿)的调节,使合成语音更具自然和表现力的特质,传达情感细微差别和上下文含义,从而减少合成语音的机器人感,增强对听众的吸引力和理解度。
语音合成标记语言(“SSML”) 语音合成标记语言(SSML)是基于 XML 的标记语言,用于自定义文本转语音输出。 使用 SSML,你可以调整音调、添加暂停、改进发音、更改语速、调整音量,以及将多个语音归属到单个文档。 可以使用 SSML 定义自己的词典或切换到不同的说话风格。
长音频的异步合成 使用 批量合成 API(预览版) 异步合成时长超过 10 分钟的文本到语音文件(例如,有声书或讲座)。 与通过语音 SDK 或语音转文本 REST API 执行的合成不同的是,响应不会实时返回。 预期会异步发送请求,以轮询的方式获取响应,并会下载合成音频(在服务使其可用时)。
Visemes 视素是观察到的语音中的关键姿态,包括发出特定音素时唇、下颌和舌头的位置。 视素与语音和音素有很强的关联性。

介绍

预生成的神经语音提供了广泛的语音选择,涵盖超过 400 种声音选项,支持 140 多种语言和地区。 这些文本转语音语音可让你快速将朗读功能集成到应用中,以提升无障碍体验。

关键术语

术语 定义
预生成的神经语音 Microsoft提供了一组预生成的神经语音,这些语音使用深度神经网络来克服传统语音合成对口语压力和语调的限制。 韵律预测和语音合成以同步方式发生,使输出听起来更流畅且自然。 每个预生成的神经网络语音模型在 24kHz 和高保真 48kHz 上可用,输出可以向上采样或向下采样到其他格式。

能力

系统行为

文本转语音

Text to speech将文本转换为自然语音。

下面是调用text to speech服务的主要选项。

实时文本转语音API

这是通过 Speech SDKREST API,用于发送文本输入并实时接收音频输出。 语音系统使用text to speech语音模型将文本转换为类似人类的合成语音。 输出音频可以另存为文件或播放回输出设备(例如扬声器)(详细了解 如何从文本合成语音)。 用户也可以使用 SSML 微调文本转语音的输出。

文本转语音模型在大量多样化音频上训练,覆盖典型使用场景和广泛的说话者。 例如,text to speech服务通常用于启用语音的聊天机器人或音频内容创建。

批处理合成 API

批处理合成是另一种类型的 API 调用。 它通常用于发送大型文本文件和异步接收音频输出(即稍后)。 若要使用此 API,可以指定多个文本文件的位置。 文本到语音技术从文件读取文本输入,并生成音频文件,这些文件会被返回到您指定的存储位置。 此功能用于支持更大的语音合成作业,无需实时向最终用户提供音频输出。 例如,创建音频书籍。

Text to speech – 自定义神经语音

自定义神经语音是文本到语音(TTS)功能,它允许有限访问客户通过提供客户选择的配音人才的音频数据,为他们的应用程序创建一种独一无二的自定义合成语音。

使用自定义神经语音技术,你可以在语音工作室中让语音人才朗读Microsoft提供的脚本,录制他们的声音,并通过轻量级项目(预览版)快速创建一个听起来像他们的合成语音。 轻量级项目非常适合快速试用或概念验证。

使用专业项目,你可以上传录音棚录制的高质量语音数据,并创建逼真自然的语音。 Pro 支持高度自然的语音训练,这些训练更类似于你的发音人的声音,并且调整,以便以多种情感和使用多种语言说话,而无需额外的特定于情感或语言的培训数据。

创建自定义神经语音后,可以使用唯一终结点部署语音模型,并使用模型通过上述实时合成 API 或批处理合成 API 生成合成语音。

有关自定义神经语音的详细信息,请参阅 自定义神经语音概述

个人语音

个性化语音功能使受限访问用户能够从简短的人声样本创建语音模型。 该功能可以在几秒钟内根据提示创建语音模型。 此功能通常用于为业务客户的应用程序提供个性化的语音体验。 个人语音模型能够创建以接近 100 种语言说话的逼真的声音。

使用个人语音功能创建的自定义神经语音中会加入水印。 水印可以让用户识别出语音是否是通过Azure语音合成生成的,以及具体使用了哪种声音。 符合条件的客户可以使用Azure语音水印检测功能。 若要请求向应用程序添加水印检测,请联系 mstts[at]microsoft.com

有关个人语音的详细信息,请参阅 个人语音

文本转语音虚拟化身

文本转语音头像将文本转换为逼真人类数字视频(预建头像或自定义头像),通过预建神经语音或自定义神经语音等文本转语音功能实现自然发声。 将文本转语音的虚拟形象视频可以异步或实时合成。 开发人员可以通过 API 构建与text to speech头像集成的应用程序,或使用语音工作室上的内容创建工具在不编码的情况下创建视频内容。

借助文本转语音头像的高级神经网络模型,该功能使用户能够为各种应用提供栩栩如生的高质量合成语音头像视频。

文本转语音虚拟形象采用内容证明和真实性联盟(C2PA)标准,让观众更清楚地了解虚拟形象制作的视频内容的来源和历史。 此标准提供有关 AI 生成视频内容的透明信息。 有关 C2PA 与文本转语音化身集成的详细信息,请参阅 Azure Text to Speech Avatar 中的 Content 凭据

此外,头像输出会自动水印。 水印允许获准用户识别视频是否使用Azure语音的虚拟形象功能进行合成。 若要请求水印检测,请联系 avatarvoice[at]microsoft.com

视频翻译

视频翻译可以有效地本地化视频内容,以满足全球不同受众的需求。 视频翻译将自动提取对话音频,进行转录和翻译,然后使用预生成或个人语音将内容配音成目标语言,并提供准确的字幕,以提高可访问性。 多说话人功能将有助于识别个人说话的数量,并推荐合适的语音。 在人工参与的编辑流程中进行内容编辑可以精确地与客户偏好对齐。 增强的翻译质量可确保精确音频和视频与 GPT 集成保持一致。 视频翻译支持使用个人语音的真实和个性化的配音体验。

用例

Text to speech提供各种功能,适用于跨行业和领域的各种预期用途。 包括视频翻译在内的所有文本转语音功能都受客户Azure订阅适用的条款和条件约束,包括Azure可接受使用政策和Azure语音文本转语音行为规范

此外,自定义text to speech功能(如自定义神经语音、个人语音和自定义text to speech头像)仅限于批准的用例,具体方案如下所述:

自定义神经语音专业版和自定义神经语音轻量版的用途

以下是自定义神经语音 Pro 和自定义神经语音 Lite 的已批准用例:

  • 教育或互动学习:要创建一个虚构的品牌或角色语音,用于阅读或演讲教育材料、在线学习、互动课程计划、模拟学习或引导式博物馆之旅。
  • 媒体:娱乐:为视频游戏、电影、电视、录制音乐、播客、有声书籍或增强现实和虚拟现实中的阅读或演讲娱乐内容创建虚构品牌或角色语音。
  • 媒体:营销:创建虚构的品牌或角色语音,用于阅读或讲话营销和服务媒体、产品简介、商业促销或广告。
  • 自创作内容:创建语音,用于阅读由配音演员创作的内容。
  • 辅助功能:用于音频描述系统和旁白,包括任何虚构的品牌或角色语音,或促进有语音障碍的人的沟通。
  • 交互式语音响应(IVR)系统:创建语音,包括任何虚构的品牌或角色语音,用于呼叫中心运营、电话系统或电话互动的响应。
  • 公共服务和信息公告:创建一个虚构的品牌或角色语音来传达公共服务信息,包括公共场所的公告,或信息广播,如交通、天气、事件信息和日程安排。 此用例不适用于新闻或新闻内容。
  • 翻译和本地化:用于翻译应用程序中以不同语言翻译对话或翻译音频媒体。
  • 虚拟助手或聊天机器人:用于为智能助手或虚拟 Web 助手、家电、汽车、家用设备、玩具、物联网设备控制、导航系统、个人信息朗读、虚拟陪伴或客服场景创建虚构品牌或角色声音。

个人语音的拟定用途

个人语音 API(请参阅 Personal voice 了解详细信息)在 Limited Access 预览版中提供。 只有满足有限Access资格条件的客户才能将个人语音 API 与其应用程序集成。 这些符合条件的客户只能对以下用例使用个人语音:

  • 应用程序:用于语音输出受客户约束和定义,且语音不读取用户生成的内容或开放式内容的应用程序。 语音模型使用必须保留在应用程序中,并且输出不能从应用程序发布或共享。 适合此说明的应用程序的一些示例是智能设备中的语音助理和在游戏中自定义角色语音。
  • 媒体、影视和电视:仅用于娱乐场景下的影片、电视、视频和音频配音,客户对语音模型及其输出的创建、访问和使用拥有完全控制权。
  • 业务内容:为业务方案创建音频和视频内容,以传达产品信息、营销材料、业务促销内容和内部业务通信。
  • 特别用途,与视频翻译一起使用:为视频中的每位说话者合成语音。 客户还可以使用目标语言编辑和生成唇同步音频内容。 在此场景下,客户无需向微软提交视频内容的额外音频同意,但必须对语音模型及其输出的创建、访问和使用保持完全控制。

禁止使用自定义神经语音(包括自定义神经语音 Pro、自定义神经语音 Lite 和个人语音)的所有其他用途。 此外,自定义神经语音是一个限量访问服务,需要注册才能使用此服务。 若要详细了解 Microsoft 的有限访问策略,请参阅 Foundry Tools 的 Limited Access 功能。 某些功能仅适用于Microsoft托管客户和合作伙伴,并且仅适用于注册时Microsoft批准的特定用例。

预构建的神经语音也可用于上述自定义神经语音用例,还可用于客户选择的其他用例,该用例需符合Azure可接受使用策略和Azure语音文本转语音行为守则。 对于满足所有适用条款和条件的预生成神经网络语音,无需注册或预先批准。

视频翻译的预期用例

视频翻译可用于影视作品和其他视觉和听觉应用(包括但不限于视频或动画),客户拥有完全控制权来创建、访问和使用语音模型及其输出。 个人语音和唇部同步受限于有限访问框架,符合条件的客户可以使用这些功能进行视频翻译。 以下是视频翻译服务的已批准用例:

  • 教育与学习:为多语言学习者翻译在教育视觉资料、在线课程、培训模块、模拟学习或导览博物馆旅游中的音频。 
  • 媒体:娱乐:为全球观众翻译电影、电影、电视节目、纪录片、视频游戏、迷你系列、短剧和 AR/VR 内容,确保跨语言无缝讲故事。 
  • 媒体:营销:在促销视觉对象、产品演示、广告和品牌活动中翻译音频,以与国际市场和文化产生共鸣。 
  • 自创内容:在 vlog、短格式视觉内容、网红内容、旅行指南、目的地宣传视频、社交媒体视觉内容和文化亮点集锦中翻译音频,使其易于访问且引人入胜。 
  • 企业培训和沟通:在内部沟通中使用的视觉材料、员工入职资料、合规培训以及针对国际团队的全球公司公告中进行音频翻译。 
  • 电子商务与产品演示:在产品开箱视频、教程、客户评价和讲解视频中翻译音频,以满足国际购物者的需求。 
  • 公共服务和信息性公告:翻译适用于公众意识宣传材料、活动日程、安全公告以及政府信息广播中的音频,以实现多语言可访问性。 
  • 辅助功能:通过多语言音频和字幕扩大视频内容的可访问性。
  • 新闻和新闻内容:为各种语言受众翻译新闻片段、采访、新闻稿和突发新闻报道。 希望翻译新闻来源的客户将需要额外的审查。

自定义文本转语音化身和预生成文本转语音化身的用途

以下是自定义text to speech虚拟形象的已批准用例:

  • 虚拟助手或聊天机器人:用于创建虚拟助手、虚拟伴侣、虚拟销售助理或客户服务应用程序。
  • 企业上下文的内容生成:用于传达产品信息、营销材料、业务促销内容和内部业务通信。 示例包括商业领导者的角色头像或数字孪生来推广品牌。
  • 教育或互动学习:创建虚构的品牌或人物形象,用于演示教育材料、在线学习、互动课程计划、模拟学习或引导式博物馆之旅。
  • 媒体:娱乐:提供更新、共享知识、创建交互式媒体,或为娱乐场景(如视频、游戏和扩充或虚拟现实)制作谈话头视频。
  • 辅助功能:用于促进有语音障碍的人的沟通。
  • 自著内容:创建虚拟形象,用于阅读由头像人才创作的内容。
  • 公共服务和信息性公告:创建一个虚构的品牌或人物形象来传达公共服务信息,包括公共场所的公告,或用于交通、天气、事件信息和日程安排等信息广播。 此用例不适用于新闻或新闻内容。
  • 翻译和本地化:用于翻译应用程序中以不同语言翻译对话或以视频格式翻译音频媒体。

禁止所有其他使用自定义语音合成化身的行为。 此外,自定义文本到语音的头像是一个受限访问的服务,并且需要注册才能访问此功能。 若要详细了解 Microsoft 的有限访问策略,请访问 aka.ms/limitedaccesscogservices。 某些功能仅适用于Microsoft托管客户和合作伙伴,并且仅适用于注册时Microsoft批准的特定用例。

预生成的文本转语音头像可以用于上述自定义头像用例,也可以用于客户选择的其他用例,并且要符合Azure可接受的使用策略和Azure语音文本转语音行为准则。 对于适用于满足所有相关条款和条件的预构建语音合成虚拟形象的额外用例,无需注册或预审批。

选择用例时的注意事项

我们鼓励客户在其创新的解决方案或应用程序中使用text to speech功能。 所有文本转语音功能都必须遵循Azure可接受的使用策略和Azure语音文本转语音的行为准则。 此外,自定义神经语音和自定义text to speech头像只能用于通过 Limited Access 注册表单批准的用例。 此外,对于任何text to speech功能选择用例时,以下是一些注意事项:

  • 确保应用对齐:确保任何文本到语音功能的实际用途与其功能和预期目的保持一致。
  • 负责任的 AI 注意事项:通过避免创建误导性或有害内容,确定负责任的 AI 做法的优先级。 使用text to speech功能时,遵守隐私、数据保护和法律法规。
  • 查看行为准则:Microsoft建立了禁止使用所有text to speech功能的某些用途的行为准则。 选择text to speech服务的用例时,请确保遵守行为准则。
  • 练习编辑控制:仔细考虑将合成语音与缺少正确编辑控制的内容一起使用,因为合成语音可以听起来像人一样,并放大不正确或误导性内容的效果。
  • 披露:向用户披露语音、图像和/或视频的合成性质,以便用户不太可能被欺骗或蒙骗(或无法轻易捉弄他人)而误以为自己正在与真实人互动。
  • 法律和法规注意事项:组织在使用任何 Foundry 工具和解决方案时需要评估潜在的特定法律和监管义务,这些义务可能不适合在每个行业或方案中使用。 此外,Foundry 工具或解决方案并非设计用于,也不得以适用的服务条款和相关行为准则所禁止的方式使用。

通过遵循这些注意事项,用户可以更负责任地使用预设和定制的神经语音。

局限性

在技术与影响其使用的人类、社会和组织因素的结合点上,应考虑语音合成技术的限制。 虽然text to speech提供高级语音合成功能,但部署语音合成功能时,需要注意一些限制,以尽量减少潜在的错误。

技术限制、操作因素和范围

使用text to speech时要考虑的技术限制包括发音和语调的准确性。 虽然文本转语音被设计用于生成自然语音,但它可能会在某些字词、名称或不常见短语上遇到困难。 用户应注意,在某些情况下,系统可能会错误提示或错误地强调字词,尤其是在处理利基或特定于域的词汇时。

请务必注意,某些人群受到这些技术限制的负面影响可能更严重。 例如,严重依赖合成语音的听力障碍的个人在理解不明确或扭曲的语音输出方面可能面临挑战。 同样,具有认知或语言相关障碍的用户可能会发现难以理解带有非自然语调或发音错误的语音。

  • 语言限制:虽然我们精心策划和准备训练数据以尽量减少偏见,特别是与性别、种族或区域口音相关的偏见,而text to speech支持多种语言和口音,但不同语言的语音质量和可用性可能存在差异。 用户应注意发音准确性、语调以及某些特定语言或方言中的语言细微差别的潜在限制。
  • 上下文和情感:Text to speech在准确传达上下文信息和情感方面可能有限制。 客户应注意系统无法理解输入文本中存在的情感细微差别或微妙线索。 应考虑提供其他上下文或利用其他方法来有效传达情感。
  • 可用性:除非安全、法律或系统性能注意事项需要加快删除,否则 Microsoft 将提前 12 个月通知客户,然后才从目录中删除任何预生成的神经网络语音。 这不适用于预览版。

每个应用程序各不相同,我们的基本模型可能与你的背景不匹配,或者无法涵盖用例所需的所有情况。 我们鼓励开发人员使用反映用例的实际数据全面评估text to speech合成语音和视频的质量,包括测试来自不同人口群体的用户和具有不同语音特征的用户。 有关生成高质量语音模型的最佳做法,请参阅 训练的语音模型质量部分

除了确保性能之外,还必须考虑如何最大程度地降低合成语音和虚拟形象可能导致的陈规定型和擦除风险。 例如,如果要为智能语音助手创建自定义神经语音,请仔细考虑什么语音是合适的,并征求来自不同背景的人的多元化意见。 在构建和评估系统时,请始终寻求不同的输入。

公平性注意事项

在微软,我们努力赋予地球上的每一个人以实现更多的能力。 此目标的重要组成部分是努力创建公平和包容的技术和产品。 公平是一个多维的社会技术主题,影响我们产品开发的许多不同方面。 可以 在此处了解有关Microsoft公平性方法的详细信息。

使用 AI 系统(包括text to speech)时要考虑的一个重要维度是系统对不同人群的表现。 研究表明,如果不有意识地努力提高所有群体的性能,AI 系统可以在不同的人口因素(如种族、种族、性别和年龄)中表现出不同级别的性能。

作为我们对Azure AI文本转语音评估的一部分,我们进行了一项分析,以评估潜在的公平性风险。 我们已经研究了该系统在不同人口群体中的表现,旨在确定可能存在的任何差异,并可能影响公平性。

在某些情况下,可能存在性能差异。 请务必注意,这些差异可能超过目标,我们正在积极努力解决和尽量减少任何潜在的偏见或性能差距,仔细考虑演员的人口群体选择,并从各种背景寻求不同的视角。

关于代表性伤害,例如刻板印象、贬低或抹除性的输出,我们承认存在与这些问题相关的风险。 虽然我们的评估过程旨在缓解此类风险,但我们鼓励用户仔细考虑其特定用例,并适当地实施其他缓解措施。 引入人工参与可以提供额外的监督层,以应对潜在的偏差或意外后果。 使用阻止列表或允许列表还可以帮助确保合成的语音符合所需标准,并避免任何有害或不适当的内容。

我们致力于不断改进公平评估,以便更深入地了解系统在不同人口群体的表现和潜在的公平关切。 评估过程正在进行中,我们正在积极努力提高公平性和包容性,并缓解任何确定的差距。 我们理解解决公平考虑的重要性,努力确保text to speech提供可靠和公平的合成语音输出。

请注意,此信息表示到目前为止我们对公平评估的了解,我们仍然致力于完善我们的评估方法,并解决可能出现的任何公平问题。

系统性能

语音合成系统的性能指的是其将书面文本准确且自然地转换为合成语音的能力。 这是使用各种指标测量的,以评估生成的音频输出的质量和有效性。 使用的一些常见性能指标包括:

  • 平均意见分数(MOS):一个分级系统,法官提供一个分数,代表合成语音和虚拟形象视频的整体质量。 更高的 MOS 表示质量更好。
  • MOS 差距:人类录音的 MOS 分数与生成的音轨/视频之间的差异。 较小的MOS差距表示与人类语音或人类特征的相似度更高。
  • 相似性 MOS (SMOS):测量生成的音轨/视频与人类录音的相似性。 更高的 SMOS 表示更好的相似性。
  • Intelligibility:合成语音中正确识别单词的百分比。

即使使用最先进的模型,text to speech等 AI 系统也会产生错误。 例如,系统可能会生成具有微妙的非自然语调或发音错误的合成语音,从而导致不太理想的用户体验,或者系统可能误解文本或与异常语言构造作斗争,从而导致不自然或难以理解的语音。

提高系统性能的最佳做法

为了提高系统性能和适应text to speech中的系统行为,可以遵循几种最佳做法。 这些做法涉及调整各种组件和参数,以优化权衡并满足特定的用例要求。 然而,请务必考虑对不同人群的潜在影响,以确保公平和包容性。

使用 SSML(语音合成标记语言)被认为是增强text to speech输出质量的最佳做法。 SSML 允许用户更好地控制合成语音,从而自定义发音、语调、强调和其他专业功能。 通过将 SSML 标记合并到文本中,用户可以添加暂停、调整语音速率、指定拼音发音以及控制音调和音量等参数。 这种微调水平有助于创建更自然和富有表现力的语音,使文本转语音的输出更加接近于人类的声音,并更具吸引力。 所有 SSML 标记都可以直接传递给 API。 我们还提供在线工具“音频内容创建”,使客户能够使用直观的用户界面微调。

如果用例涉及专用词汇或特定于域的内容,请考虑使用自定义词典功能来改进系统准确发音和传达特定于域的术语或短语的能力。

文本转语音评估

评估方法

用于评估text to speech整体系统性能的一些常用指标包括:

  • 与真人录音的平均意见分(MOS)差距:通常用于比较文本转语音语音模型与真人录音的质量。 与人类录音相比,由自定义神经语音创建的语音模型的质量预计将接近,MOS 分数中差距不超过 0.5。
  • 对于自定义神经语音,还可以使用相似性 MOS (SMOS) 来测量与原始人类录音相比自定义语音声音的相似程度。 通过 SMOS 研究,评委被要求收听一组配对的音频轨道,一个是由自定义语音生成的,另一个来自训练数据中的原始人类录音,并评估每对音轨是否由同一个人讲话,使用五分制(1 为最低,5 为最高)。 平均分数被报告为 SMOS 分数。 我们建议良好的自定义神经语音应实现高于 4.0 的 SMOS。
  • 除了使用 MOS 和 SMOS 测量自然性外,还可以通过检查生成的语音的发音准确性来评估语音模型的可知性。 这是通过让法官听一组测试样本,确定他们能否理解含义并指示任何难以理解的字词来完成的。 使用测试单词总数(即已测试单词数/已测试单词总数 * 100%)中正确可理解单词的百分比计算 Intelligibility 率。 通常,一个可用的文本转语音引擎需要达到 > 98% 的分数才能实现可理解性。

评估结果

Text to speech始终提供高质量的自然合成语音,满足不同行业和领域的要求。 我们的评估包括对系统的训练和测试数据进行广泛的测试,确保它代表真实场景中的预期用途和操作因素,同时进行合成语音输出的样本测试。

评估结果影响了系统设计中关于约束的决策,例如最大案例大小和所需的最低训练数据量。 通过跨不同的数据集、设置和参数分析系统的性能,已设置适当的约束以优化系统的行为、可靠性和安全性。

虽然评估涵盖广泛的用例,但请务必注意,结果在一定程度上适用于不属于评估的用例。 系统的稳健性和性能让人对其处理各种场景的能力充满信心,包括那些可能尚未经过明确测试的场景。

下面是一些建议的测试和分数范围,具体取决于我们的体验:

测量 定义 计算方式 建议的文本大小 建议的分数
MOS 音轨质量的平均意见分数 每个音频中每个法官的评分分数的平均值 > 30 个生成的音轨 >4.0(通常人类录音的 MOS 需要高于 4.5)
MOS 间隙 人类录音和生成的音轨之间的 MOS 分数差异 人类录音上的 MOS 分数减去生成的音频轨道上的 MOS 分数 > 10 次人工录音, > 30 个生成音频曲目, > 每个音频上有 20 个评委 < 0.5
SMOS 生成的音轨与人类录音的相似性 每个音轨对相似度级别的评分的平均值 > 40 对, > 每对 20 位评委 > 4.0、 > 3.5(次要语言)
可理解性 在单词级别生成的语音的发音准确性 测试的单词总数中正确可理解单词的百分比 > 60 个生成的音频曲目, > 每个音频上有 10 个评委 > 98%

评估和集成文本转语音技术以供使用

下面是一些最佳做法,可帮助你将text to speech功能负责任地集成到用例中。

透露语音合成时间

披露语音是计算机生成的,不仅最大限度地减少了欺骗带来有害结果的风险,而且增加了对组织提供语音的信任。 详细了解 如何披露

微软要求客户向其用户披露文本转语音语音的合成性质。

  • 请确保向受众提供足够的披露,尤其是在使用知名人士的声音时。 人们根据交付信息的人(无论是有意识还是无意识地这样做)来判断信息。 例如,可以在广播开始时口头披露信息。 有关详细信息,请访问 公开模式
  • 考虑向父母或其他参与方进行适当的披露,特别是在涉及未成年人和儿童的使用情况或可能用于这些情况的场合。 如果你的用例适用于未成年人或儿童,则需要确保你的披露清晰透明,以便家长或法定监护人能够理解合成媒体的作用,并代表未成年人或儿童就是否使用体验做出明智的决定。

披露虚拟形象视频何时是合成的

披露虚拟形象讲话视频是计算机生成的,不仅最大限度地减少了欺骗带来的有害结果的风险,而且增加了对提供视频的组织的信任。 详细了解 如何披露

Microsoft要求其客户向其用户披露text to speech虚拟形象的合成性质。

  • 请确保向受众提供足够的披露,尤其是在使用知名人士的图像(和声音)时。 人们根据交付信息的人(无论是有意识还是无意识地这样做)来判断信息。 例如,可以在视频开头通过文本或语音(例如,“此视频中的语音和形象是 AI 生成的”)告知。 有关详细信息,请访问 公开模式
  • 考虑向父母或其他参与方进行适当的披露,特别是在涉及未成年人和儿童的使用情况或可能用于这些情况的场合。 如果你的用例适用于未成年人或儿童,则需要确保你的披露清晰透明,以便家长或法定监护人能够理解合成媒体的作用,并代表未成年人或儿童就是否使用体验做出明智的决定。

为场景选择适当的语音类型

仔细考虑使用场景以及与使用文本转语音语音或虚拟形象相关的潜在危害。 例如,高保真合成语音在高风险方案中可能不适用,例如,对于个人消息传递、金融交易或需要人类适应性或同理心的复杂情况。

用户也可能对语音类型和虚拟形象表达式或手势有不同的期望,具体取决于上下文。 例如,当听合成语音阅读的敏感新闻时,一些用户更喜欢更同情和人类般的语气,而另一些用户则更喜欢中立的声音。 请考虑测试应用程序以更好地了解用户首选项。

公开功能和限制

与高保真合成语音代理交互时,用户更有可能有更高的期望。 当系统功能不符合这些期望时,信任可能会受到影响,并可能导致令人不快甚至有害的体验。

提供可选的人工支持

在不明确的事务性方案中(例如呼叫支持中心),用户并不总是信任计算机代理来适当响应其请求。 无论系统的语音或功能的现实质量如何,都可能需要人工支持。

配音人才注意事项

当客户与语音人才合作创建自定义神经语音时,以下指南适用。

  • 发音人应该控制其语音模型(使用方式和用途),并获取使用补偿。 Microsoft要求自定义神经语音客户从语音人才获取明确的书面权限,以创建合成语音,并确保客户与每个人的协议考虑持续时间、使用和任何内容限制。 如果要创建知名人士的合成语音,则应为配音员提供一种方法来编辑或批准你计划使用语音模型生成的输出内容
  • 一些语音人才可能不知道潜在的恶意使用技术,应该受到系统所有者关于技术能力的教育。 Microsoft要求客户直接或通过语音人才的授权代表,与语音人才共享Microsoft的语音和虚拟形象人才披露声明,以说明合成语音如何与语音合成服务一同开发和运行。

虚拟形象原型注意事项

当客户与虚拟形象人才合作创建自定义头像时,以下指南适用。

  • 虚拟形象原型应该控制他们的虚拟形象模型(使用方式和用途),并获取使用补偿。 Microsoft要求自定义头像客户从其声优获得明确的书面许可,以创建语音合成头像,并确保客户与每个人的协议包含持续时间、使用方式和任何内容限制。 如果要创建自定义知名人士的虚拟形象,则应为头像人才提供一种方法,以便编辑或批准计划使用语音模型生成的输出内容
  • 一些头像人才可能不知道潜在的恶意使用技术,应该受到系统所有者对技术能力的教育。 Microsoft 要求客户直接与虚拟形象原型共享 Microsoft 的语音和虚拟形象原型披露,或通过虚拟形象原型的授权代表来描述合成的虚拟形象视频是如何开发的,以及是如何与文本转语音服务结合使用的。

语音障碍患者的注意事项

在为有语音障碍的个人创建或部署合成语音技术时,应遵循以下准则。

为辅助功能方案中与发音人的合同提供指南

客户应制定与使用合成语音协助说话的个人建立合同的准则。 客户应考虑在与个人签订的合同中指定使用期限、所有权转让和/或许可证条件、删除语音模型的具体步骤,以及如何防止未经授权的访问。

将语音模式的不一致性考虑在内

对于记录自己语音字体的语音障碍患者,其语音模式(含糊或无法发音某些字词)中的不一致可能会使录制过程复杂化。 在这些情况下,应根据客户确定的适当调整来设计合成语音技术和录制流程(例如,提供休息时间或额外的录制会话)。

允许随时间推移进行修改

患有语音障碍的个人可能希望更新其合成语音,以反映老化或其他因素的变化。 个人也可能具有随时间变化的风格偏好,并且可能希望对音调、口音或其他语音特征进行更改。

详细了解负责任 AI

详细了解 Azure 语音