你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

使用 SSML 来自定义语音和声音

可以使用语音合成标记语言 (SSML) 为语音输出指定文本转语音的语音、语言、名称、样式和角色。 还可以在单个 SSML 文档中使用多种语音,并调整重音、语速、音调和音量。 此外,SSML 还能够插入预先录制的音频,例如音效或音符。

本文介绍如何使用 SSML 元素来指定语音和声音。 有关 SSML 语法的详细信息,请参阅 SSML 文档结构和事件

使用语音元素

必须在每个 SSML speak 元素中至少指定一个 voice 元素。 此元素可确定用于文本转语音的语音。

可以在单个 SSML 文档中包含多个 voice 元素。 每个 voice 元素可以指定不同的语音。 还可以通过不同的设置多次使用同一语音,例如,当更改句子之间的静音持续时间时。

下表介绍了 voice 元素的属性的用法:

属性 说明 必需还是可选
name 用于文本转语音输出的语音。 有关受支持的预生成语音的完整列表,请参阅语言支持 必需
effect 音频效果处理器,用于在设备上针对特定方案优化合成语音输出的质量。

对于生产环境中的某些方案,听觉体验可能会因某些设备上的播放失真而降级。 例如,由于扬声器响应、房间混响和背景噪音等环境因素,来自汽车扬声器的合成语音可能会听起来迟钝而低沉。 乘客可能必须调高音量才能听得更清楚。 为了避免在这种情况下进行手动操作,音频效果处理器可以通过补偿播放失真来让声音更清晰。

支持以下值:
  • eq_car - 在汽车、公共汽车和其他封闭车辆中提供高保真语音时,优化听觉体验。
  • eq_telecomhp8k - 优化电信或电话方案中窄带语音的听觉体验。 应使用 8 kHz 的采样率。 如果采样率不是 8 kHz,则不会优化输出语音的听觉质量。

如果值缺失或无效,则会忽略此属性,不会应用任何效果。
可选

语音示例

若要了解 voice 元素的属性支持的值,请参阅使用语音元素

单个语音的示例

本示例使用 en-US-AvaMultilingualNeural 语音。

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        This is the text that is spoken.
    </voice>
</speak>

多个语音的示例

speak 元素中,可为文本转语音输出指定多种语音。 这些语音可以采用不同的语言。 对于每种语音,必须将文本包装在 voice 元素中。

此示例在 en-US-AvaMultilingualNeuralen-US-AndrewMultilingualNeural 语音之间进行交替。 神经多语言语音可以根据输入文本生成不同的语言输出。

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        Good morning!
    </voice>
    <voice name="en-US-AndrewMultilingualNeural">
        Good morning to you too Ava!
    </voice>
</speak>

神经网络定制声音示例

若要使用自定义神经语音,请在 SSML 中将模型名称指定为语音名称。

此示例使用名为“my-custom-voice”的定制声音。

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="my-custom-voice">
        This is the text that is spoken.
    </voice>
</speak>

音频效果示例

使用 effect 属性优化汽车和电信等方案的听觉体验。 以下 SSML 示例结合使用了 effect 属性和汽车方案中的配置。

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural" effect="eq_car">
        This is the text that is spoken.
    </voice>
</speak>

使用讲话风格和角色

默认情况下,神经网络声音采用中性讲话风格。 可在句子层面调整讲话风格、风格强度和角色。

注意

语音风格和角色文档中所述,语音服务支持对一部分神经网络声音使用风格、风格程度和角色。 若要确定每种声音支持的风格和角色,还可以使用列出声音 API 和有声内容创作 Web 应用程序。

下表介绍了 mstts:express-as 元素的属性的用法:

属性 说明 必需还是可选
style 声音特定的讲话风格。 可以表达快乐、同情和平静等情绪。 也可以针对不同场景(例如客户服务、新闻广播和语音助理)优化语音。 如果风格值缺失或无效,则会忽略整个 mstts:express-as 元素,服务将使用默认的中性语音。 有关神经网络定制声音风格,请参阅神经网络定制声音风格示例 必需
styledegree 讲话风格的强度。 可以指定更强或更柔和的风格,使语音更具表现力或更柔和。 可接受值的范围为:0.012(含)。 默认值为 1,表示预定义的风格强度。 最小单位为 0.01,表示略倾向于目标风格。 值为 2 表示是默认风格强度的两倍。 如果风格程度缺失或不受声音的支持,则会忽略此属性。 可选
role 讲话角色扮演。 声音可以模仿不同的年龄和性别,但声音名称不会更改。 例如,男性语音可以提高音调和改变语调来模拟女性语音,但语音名称不会更改。 如果角色缺失或不受声音的支持,则会忽略此属性。 可选

下表介绍了每个受支持的 style 属性:

Style 说明
style="advertisement_upbeat" 用兴奋和精力充沛的语气推广产品或服务。
style="affectionate" 以较高的音调和音量表达温暖而亲切的语气。 说话者处于吸引听众注意力的状态。 说话者的个性往往是讨喜的。
style="angry" 表达生气和厌恶的语气。
style="assistant" 数字助理用的是热情而轻松的语气。
style="calm" 以沉着冷静的态度说话。 语气、音调和韵律与其他语音类型相比要统一得多。
style="chat" 表达轻松随意的语气。
style="cheerful" 表达积极愉快的语气。
style="customerservice" 以友好热情的语气为客户提供支持。
style="depressed" 调低音调和音量来表达忧郁、沮丧的语气。
style="disgruntled" 表达轻蔑和抱怨的语气。 这种情绪的语音表现出不悦和蔑视。
style="documentary-narration" 用一种轻松、感兴趣和信息丰富的风格讲述纪录片,适合配音纪录片、专家评论和类似内容。
style="embarrassed" 在说话者感到不舒适时表达不确定、犹豫的语气。
style="empathetic" 表达关心和理解。
style="envious" 当你渴望别人拥有的东西时,表达一种钦佩的语气。
style="excited" 表达乐观和充满希望的语气。 似乎发生了一些美好的事情,说话人对此满意。
style="fearful" 以较高的音调、较高的音量和较快的语速来表达恐惧、紧张的语气。 说话人处于紧张和不安的状态。
style="friendly" 表达一种愉快、怡人且温暖的语气。 听起来很真诚且满怀关切。
style="gentle" 以较低的音调和音量表达温和、礼貌和愉快的语气。
style="hopeful" 表达一种温暖且渴望的语气。 听起来像是会有好事发生在说话人身上。
style="lyrical" 以优美又带感伤的方式表达情感。
style="narration-professional" 以专业、客观的语气朗读内容。
style="narration-relaxed" 为内容阅读表达一种舒缓而悦耳的语气。
style="newscast" 以正式专业的语气叙述新闻。
style="newscast-casual" 以通用、随意的语气发布一般新闻。
style="newscast-formal" 以正式、自信和权威的语气发布新闻。
style="poetry-reading" 在读诗时表达出带情感和节奏的语气。
style="sad" 表达悲伤语气。
style="serious" 表达严肃和命令的语气。 说话者的声音通常比较僵硬,节奏也不那么轻松。
style="shouting" 表达一种听起来好像声音在远处或在另一个地方的语气,努力让别人听清楚。
style="sports_commentary" 表达一种既轻松又感兴趣的语气,用于播报体育赛事。
style="sports_commentary_excited" 用快速且充满活力的语气播报体育赛事精彩瞬间。
style="whispering" 表达一种柔和的语气,试图发出安静而柔和的声音。
style="terrified" 表达一种害怕的语气,语速快且声音颤抖。 听起来说话人处于不稳定的疯狂状态。
style="unfriendly" 表达一种冷淡无情的语气。

下表描述了每个受支持的 role 属性:

角色 说明
role="Girl" 声音模仿女孩。
role="Boy" 声音模仿男孩。
role="YoungAdultFemale" 声音模仿年轻的成年女性。
role="YoungAdultMale" 声音模仿年轻的成年男性。
role="OlderAdultFemale" 声音模仿年长的成年女性。
role="OlderAdultMale" 声音模仿年长的成年男性。
role="SeniorFemale" 声音模仿年老女性。
role="SeniorMale" 声音模仿年老男性。

mstts express-as 示例

若要了解 mstts:express-as 元素的属性支持的值,请参阅使用讲话风格和角色

风格和程度示例

可使用 mstts:express-as 元素来表达情感(例如愉悦、同情和冷静)。 也可以针对不同场景(例如客户服务、新闻广播和语音助理)优化语音。

以下 SSML 示例使用 sad 风格程度为 2<mstts:express-as> 元素。

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="zh-CN">
    <voice name="zh-CN-XiaomoNeural">
        <mstts:express-as style="sad" styledegree="2">
            快走吧,路上一定要注意安全,早去早回。
        </mstts:express-as>
    </voice>
</speak>

角色示例

除了调整说话风格和风格程度,还可调整 role 参数,使语音模拟不同的年龄和性别。 例如,男性语音可以提高音调和改变语调来模拟女性语音,但语音名称不会更改。

此 SSML 片段说明了如何使用 role 属性来更改 zh-CN-XiaomoNeural 的角色扮演。

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="zh-CN">
    <voice name="zh-CN-XiaomoNeural">
        女儿看见父亲走了进来,问道:
        <mstts:express-as role="YoungAdultFemale" style="calm">
            “您来的挺快的,怎么过来的?”
        </mstts:express-as>
        父亲放下手提包,说:
        <mstts:express-as role="OlderAdultMale" style="calm">
            “刚打车过来的,路上还挺顺畅。”
        </mstts:express-as>
    </voice>
</speak>

神经网络定制声音风格示例

你可以训练神经网络定制声音以某些预设风格(例如 cheerfulsadwhispering)说话。 还可以训练神经网络定制声音以根据训练数据确定的自定义风格讲话。 若要在 SSML 中使用神经网络定制声音风格,请指定先前在 Speech Studio 中输入的风格名称。

此示例使用名为“my-custom-voice”的定制声音。 自定义语音在预设风格为“cheerful”、风格程度为“2”的情况下读出,然后在名为“my-custom-style”的自定义风格和风格程度为“0.01”的情况下读出。

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="my-custom-voice">
        <mstts:express-as style="cheerful" styledegree="2">
            That'd be just amazing!
        </mstts:express-as>
        <mstts:express-as style="my-custom-style" styledegree="0.01">
            What's next?
        </mstts:express-as>
    </voice>
</speak>

说话人配置文件 ID

请使用 mstts:ttsembedding 元素指定个人语音speakerProfileId 属性。 个人语音是根据自己的语音或客户的语音进行训练的神经网络定制声音。 有关详细信息,请参阅创建个人语音

以下 SSML 示例使用带有语音名称和说话人配置文件 ID 的 <mstts:ttsembedding> 元素。

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
    <voice xml:lang='en-US' xml:gender='Male' name='PhoenixV2Neural'> 
    <mstts:ttsembedding speakerProfileId='your speaker profile ID here'> 
    I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun. 我很高兴听到你觉得我很了不起,我让你的旅行计划更轻松、更有趣。Je suis heureux d'apprendre que vous me trouvez incroyable et que j'ai rendu la planification de votre voyage plus facile et plus amusante.  
    </mstts:ttsembedding> 
    </voice> 
</speak> 

调整讲话语言

默认情况下,多语言语音可以自动检测输入文本的语言,并以输入文本的默认区域设置中的语言说出文本,而无需使用 SSML。 此外,你还可以使用 <lang xml:lang> 元素调整这些语音的说话语言,以设置首选口音,例如表示英国英语的 en-GB。 你可在句子和字词层面调整讲话语言。 若要了解多语言语音支持的语言,请参阅使用 lang 元素的多语言语音,获取一个展示 <lang> 语法和属性定义的表。

下表介绍了 <lang xml:lang> 元素的属性的用法:

属性 说明 必需还是可选
xml:lang 你希望神经网络声音讲述的语言。 调整神经网络声音的讲话语言时必需。 如果使用的是 lang xml:lang,则必须提供区域设置。

注意

<lang xml:lang>元素与 prosodybreak 元素不兼容。 你无法调整此元素中的停顿和韵律,如音调、调型、速率或音量。

使用 lang 元素的多语言语音

使用多语言语音部分来确定语音服务支持的每个神经语音的语言,如以下示例表格中所示。 如果语音使用的不是输入文本的语言,则语音服务不会输出合成的音频。

语音 支持的语言编号 支持的语言 为每种语言自动检测的默认区域设置
en-US-AndrewMultilingualNeural1(男)
en-US-AvaMultilingualNeural1(女)
en-US-BrianMultilingualNeural1(男)
en-US-EmmaMultilingualNeural1(女)
77 南非荷兰语、阿尔巴尼亚语、阿姆哈拉语、阿拉伯语、亚美尼亚语、阿塞拜疆语、印度尼西亚语、孟加拉语、巴斯克语、孟加拉语、波斯尼亚语、保加利亚语、缅甸语、加泰罗尼亚语、粤语、普通话、中国台湾话、克罗地亚语、捷克语、丹麦语、荷兰语、英语、爱沙尼亚语、菲律宾语、芬兰语、法语、加利西亚语、格鲁吉亚语、德语、希腊语、希伯来语、印度语、匈牙利语、冰岛语、爱尔兰语、意大利语、日语、爪哇语、卡纳达语、哈萨克语、高棉语、韩语、老挝语、拉脱维亚语、立陶宛语、马其顿语、马来语、马拉雅拉姆语、马耳他语、蒙古语、尼泊尔语、挪威博克马尔语、普什图语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、塞尔维亚语、僧伽罗语、斯洛伐克语、斯洛文尼亚语、索马里语、西班牙语、巽他语、斯瓦希里语、瑞典语、泰米尔语、泰卢固语、泰语、土耳其语、乌克兰语、乌尔都语、乌兹别克语、越南语、威尔士语、祖鲁语 af-ZAam-ETar-EGaz-AZbg-BGbn-BDbn-INbs-BAca-EScs-CZcy-GBda-DKde-DEel-GRen-USes-ESet-EEeu-ESfa-IRfi-FIfil-PHfr-FRga-IEgl-EShe-ILhi-INhr-HRhu-HUhy-AMid-IDis-ISit-ITja-JPjv-IDka-GEkk-KZkm-KHkn-INko-KRlo-LAlt-LTlv-LVmk-MKml-INmn-MNms-MYmt-MTmy-MMnb-NOne-NPnl-NLpl-PLps-AFpt-BRro-ROru-RUsi-LKsk-SKsl-SIso-SOsq-ALsr-RSsu-IDsv-SEsw-KEta-INte-INth-THtr-TRuk-UAur-PKuz-UZvi-VNzh-CNzh-HKzh-TWzu-ZA

1 这些是 Azure AI 语音中的神经网络多语言语音。 所有多语言语音都可以使用输入文本默认区域设置中的语言说话,而无需使用 SSML。 不过,你仍然可以使用 <lang xml:lang> 元素调整每种语言的口音,以设置首选口音,例如英语的英国口音 (en-GB)。 每个语音的主要区域设置由名称中的前缀(如语音 en-US-AndrewMultilingualNeural)指示,其主要区域设置为 en-US。 查看通过 SSML 支持的区域设置的完整列表

注意

多语言语音并不完全支持某些 SSML 元素,例如 breakemphasissilencesub

语言示例

若要了解 lang 元素的属性支持的值,请参阅调整口语语言

你必须在 speak 元素内将 en-US 指定为默认语言,无论是否在其他地方调整该语言。 在此示例中,en-US-AvaMultilingualNeural 的主要语言为 en-US

此 SSML 片段演示如何使用 <lang xml:lang>en-US-AvaMultilingualNeural 神经语音说出 de-DE

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <lang xml:lang="de-DE">
            Wir freuen uns auf die Zusammenarbeit mit Ihnen!
        </lang>
    </voice>
</speak>

speak 元素内,可以为文本转语音输出指定包括 en-US 在内的多种语言。 对于每种调整后的语言,文本必须与该语言匹配并包装在 voice 元素中。 此 SSML 片段演示如何使用 <lang xml:lang> 将讲话语言更改为 es-MXen-USfr-FR

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <lang xml:lang="es-MX">
            ¡Esperamos trabajar con usted!
        </lang>
        <lang xml:lang="en-US">
           We look forward to working with you!
        </lang>
        <lang xml:lang="fr-FR">
            Nous avons hâte de travailler avec vous!
        </lang>
    </voice>
</speak>

调整韵律

可以使用 prosody 元素来指定文本转语音输出的音高、语调曲线、范围、速率和音量的变化。 prosody 元素可包含文本和以下元素:audiobreakpphonemeprosodysay-assubs

由于韵律属性值可在较大范围内变化,因此,语音识别器会将分配的值解释为所选语音的建议实际韵律值。 文本转语音可限制或替代不支持的值。 例如,音节 1 MHz 或音量 120 就是不支持的值。

下表介绍了 prosody 元素的属性的用法:

属性 说明 必需还是可选
contour 调型表示音节的变化。 这些变化以语音输出中指定时间处的目标数组形式表示。 参数对集定义每个目标。 例如:

<prosody contour="(0%,+20Hz) (10%,-2st) (40%,+10Hz)">

每参数集中的第一个值以文本持续时间百分比的形式指定音节变化的位置。 第二个值使用音节的相对值或枚举值指定音节的升高或降低量(请参阅 pitch)。
可选
pitch 指示文本的基线音节。 可在句子层面应用音节的变化。 音调变化应为原始音频的 0.5 到 1.5 倍。 可将音调表述为:
  • 绝对值:以某个数字后接“Hz”(赫兹)表示。 例如 <prosody pitch="600Hz">some text</prosody>
  • 相对值:
    • 以相对数字表示:以前面带有“+”或“-”且后接“Hz”或“st”(用于指定音节的变化量)的数字表示。 例如 <prosody pitch="+80Hz">some text</prosody><prosody pitch="-2st">some text</prosody>。 “st”表示变化单位为半音,即,标准全音阶中的半调(半步)。
    • 以百分比表示:以“+”(可选)或“-”开头且后跟“%”的数字表示,指示相对变化。 例如 <prosody pitch="50%">some text</prosody><prosody pitch="-50%">some text</prosody>
  • 常量值:
    • x-low
    • low
    • high
    • x-high
    • default
可选
range 表示文本音节范围的值。 可使用用于描述 pitch 的相同绝对值、相对值或枚举值表示 range 可选
rate 指示文本的讲出速率。 可在字词或句子层面应用语速。 速率变化应为原始音频的 0.52 倍。 可将 rate 表述为:
  • 相对值:
    • 以相对数字表示:以充当默认值乘数的数字表示。 例如,如果值为 1,则原始速率不会变化。 如果值为 0.5,则速率为原始速率的一半。 如果值为 2,则速率为原始速率的 2 倍。
    • 以百分比表示:以“+”(可选)或“-”开头且后跟“%”的数字表示,指示相对变化。 例如 <prosody rate="50%">some text</prosody><prosody rate="-50%">some text</prosody>
  • 常量值:
    • x-slow
    • slow
    • fast
    • x-fast
    • default
可选
volume 指示语音的音量级别。 可在句子层面应用音量的变化。 可将音量表示为:
  • 绝对值:以从 0.0100.0(从最安静到最大声,例如 75)的数字表示。 默认值为 100.0
  • 相对值:
    • 以相对数字表示:以前面带有“+”或“-”的数字表示,指定音量的变化量。 例如 +10-5.5
    • 以百分比表示:以“+”(可选)或“-”开头且后跟“%”的数字表示,指示相对变化。 例如 <prosody volume="50%">some text</prosody><prosody volume="+3%">some text</prosody>
  • 常量值:
    • silent
    • x-soft
    • soft
    • loud
    • x-loud
    • default
可选

韵律示例

若要了解 prosody 元素的属性支持的值,请参阅调整韵律

更改语速示例

此 SSML 片段演示如何使用 rate 属性将语速更改为比默认语速高 30%。

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <prosody rate="+30.00%">
            Enjoy using text to speech.
        </prosody>
    </voice>
</speak>

更改音量示例

此 SSML 片段演示如何使用 volume 属性将音量更改为比默认音量高 20%。

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <prosody volume="+20.00%">
            Enjoy using text to speech.
        </prosody>
    </voice>
</speak>

更改音调示例

此 SSML 片段演示如何使用 pitch 属性来以高音调讲话。

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        Welcome to <prosody pitch="high">Enjoy using text to speech.</prosody>
    </voice>
</speak>

更改音调升降曲线示例

此 SSML 片段演示如何使用 contour 属性更改升降曲线。

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <prosody contour="(60%,-60%) (100%,+80%)" >
            Were you the only person in the room?
        </prosody>
    </voice>
</speak>

调整强调

可以使用可选的 emphasis 元素来添加或删除文本的单词级强调。 此元素只能包含文本和以下元素:audiobreakemphasislangphonemeprosodysay-assubvoice

注意

单词级强调优化仅适用于以下神经网络声音:en-US-GuyNeuralen-US-DavisNeuralen-US-JaneNeural

对于音调低且持续时间较短的字词,音调可能不够高,无法引起注意。

下表介绍了 emphasis 元素的属性:

特性 说明 必需还是可选
level 指示要应用的强调强度:
  • reduced
  • none
  • moderate
  • strong

如果未指定 level 属性,则默认级别为 moderate。 有关每个属性的详细信息,请参阅 emphasis 元素
可选

重音示例

若要了解 emphasis 元素的属性支持的值,请参阅调整重音

此 SSML 代码片段演示如何使用 emphasis 元素为单词“meetings”添加中等级别的重音。

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="en-US-AndrewMultilingualNeural">
    I can help you join your <emphasis level="moderate">meetings</emphasis> fast.
    </voice>
</speak>

添加录制的音频

audio 元素是可选的。 可以使用它将预先录制的音频插入 SSML 文档。 如果音频文件不可用或不可播放,可在 audio 元素的正文中包含可讲述的纯文本或 SSML 标记。 audio 元素还包含文本和以下元素:audiobreakpsphonemeprosodysay-assub

包含在 SSML 文档中的任何音频必须满足以下要求:

  • 音频文件必须是有效的 *.mp3、*.wav、*.opus、*.ogg、*.flac 或 *.wma 文件。
  • 单个响应中所有文本和音频文件的总时间不能超过 600 秒。
  • 音频不得包含任何客户特定的信息或其他敏感信息。

注意

长音频 API 不支持 audio 元素。 对于长格式文本转语音,请改用批量合成 API(预览版)。

下表介绍了 audio 元素的属性的用法:

属性 说明 必需还是可选
src 音频文件的 URI 位置。 音频必须托管在可通过 Internet 访问的 HTTPS 终结点上。 需要 HTTPS。 托管文件的域必须提供有效的受信任 TLS/SSL 证书。 应该将音频文件放在文本转语音终结点所在 Azure 区域的 Blob 存储中,以最大程度地减少延迟。 必须

音频示例

若要了解 audio 元素的属性支持的值,请参阅添加录制的音频

此 SSML 代码片段演示如何使用 src 属性插入两个 .wav 文件中的音频。

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <p>
            <audio src="https://contoso.com/opinionprompt.wav"/>
            Thanks for offering your opinion. Please begin speaking after the beep.
            <audio src="https://contoso.com/beep.wav">
                Could not play the beep, please voice your opinion now.
            </audio>
        </p>
    </voice>
</speak>

调整音频持续时间

使用 mstts:audioduration 元素设置输出音频的持续时间。 使用此元素可帮助同步音频输出完成的时间。 音频持续时间可以在原始音频速率的 0.52 倍之间减少或增加。 原始音频是不包含任何其他速率设置的音频。 语速会根据设定值相应地减慢或加快。

音频持续时间设置应用于其所在 voice 元素中的所有输入文本。 若要再次重置或更改音频持续时间设置,必须使用包含相同或不同语音的新 voice 元素。

下表介绍了 mstts:audioduration 元素的属性的用法:

属性 说明 必需还是可选
value 请求的输出音频持续时间,以秒(例如 2s)或毫秒(例如 2000ms)为单位。

此值应介于原始音频的 0.52 倍,没有任何其他速率设置。 例如,如果请求的音频持续时间为 30s,则原始音频必须介于 15 到 60 秒之间。 如果设置的值超出这些界限,则会根据相应的最小或最大倍数设置持续时间。

鉴于你请求的输出音频持续时间,语音服务会相应地调整语速。 使用语音列表 API 并查看 WordsPerMinute 属性,找出正在使用的神经网络语音的语速。 可以将输入文本中的字数除以 WordsPerMinute 属性的值,以获得近似的原始输出音频持续时间。 将音频持续时间设置为最接近估计的持续时间时,输出音频听起来最自然。
必须

mstts 音频持续时间示例

若要了解 mstts:audioduration 元素的属性支持的值,请参阅调整音频持续时间

在此示例中,原始音频大约为 15 秒。 mstts:audioduration 元素用于将音频持续时间设置为 20 秒或 20s

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
<mstts:audioduration value="20s"/>
If we're home schooling, the best we can do is roll with what each day brings and try to have fun along the way.
A good place to start is by trying out the slew of educational apps that are helping children stay happy and smash their schooling at the same time.
</voice>
</speak>

添加背景音频

可以使用 mstts:backgroundaudio 元素将背景音频添加到 SSML 文档,或者使用文本转语音来混合音频文件)。 使用 mstts:backgroundaudio,可以在后台循环音频文件,在文本转语音的开头淡入,并在文本转语音的末尾淡出。

如果提供的背景音频短于文本转语音或淡出持续时间,则会循环该音频。 如果其长度超过文本转语音的持续时间,则它在完成淡出后将会停止。

每个 SSML 文档仅允许一个背景音频文件。 可以在 voice 元素中散布 audio 标记,以将更多的音频添加到 SSML 文档。

注意

mstts:backgroundaudio 元素应放在所有 voice 元素的前面。 如果已指定,它必须是 speak 元素的第一个子项。

长音频 API 不支持 mstts:backgroundaudio 元素。 对于长格式文本转语音,请改用批量合成 API(预览版)。

下表介绍了 mstts:backgroundaudio 元素的属性的用法:

属性 说明 必需还是可选
src 背景音频文件的 URI 位置。 必需
volume 背景音频文件的音量。 接受的值:0100(含)。 默认值为 1 可选
fadein 背景音频淡入的持续时间,以毫秒为单位。 默认值为 0,即,不淡入。 接受的值:010000(含)。 可选
fadeout 背景音频淡出的持续时间,以毫秒为单位。 默认值为 0,即,不淡出。接受的值:010000(含)。 可选

mstss backgroundaudio 示例

若要了解 mstts:backgroundaudi 元素的属性支持的值,请参阅添加背景音频

<speak version="1.0" xml:lang="en-US" xmlns:mstts="http://www.w3.org/2001/mstts">
    <mstts:backgroundaudio src="https://contoso.com/sample.wav" volume="0.7" fadein="3000" fadeout="4000"/>
    <voice name="en-US-AvaMultilingualNeural">
        The text provided in this document will be spoken over the background audio.
    </voice>
</speak>

后续步骤