你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
语音合成标记语言 (SSML) 概述
语音合成标记语言 (SSML) 是一种基于 XML 的标记语言,可用于微调文本转语音输出属性,例如音调、发音、语速、音量等。 与纯文本输入相比,你拥有更大的控制权和灵活性。
提示
你可以通过语音库听到不同风格和音调的声音阅读示例文本。
方案
可以使用 SSML 来执行以下操作:
- 定义输入文本结构,用于确定文本转语音输出的结构、内容和其他特征。 例如,可以使用 SSML 来定义段落、句子、中断/暂停或静音。 可以使用事件标记(例如书签或视素)来包装文本,这些标记可以稍后由应用程序处理。
- 选择语音、语言、名称、样式和角色。 可以在单个 SSML 文档中使用多个语音。 调整重音、语速、音调和音量。 还可以使用 SSML 插入预先录制的音频,例如音效或音符。
- 控制输出音频的发音。 例如,可以将 SSML 与音素和自定义词典配合使用来改进发音。 还可以使用 SSML 定义单词或数学表达式的具体发音。
使用 SSML
重要
按照转换为语音的每个字符(包括标点)付费。 尽管 SSML 文档本身不计费,但用于调整文本转语音方式的可选元素(例如音素和音节)将算作计费字符。 有关详细信息,请参阅文本转语音定价说明。
可以按下列方式使用 SSML:
- 有声内容创作工具:在 Speech Studio 中创作纯文本和 SSML:可以聆听输出音频并调整 SSML 以改进语音合成。 有关详细信息,请参阅通过音频内容创建工具进行音频合成。
- 批量合成 API:通过
inputs
属性提供 SSML。 - 语音 CLI:通过
spx synthesize --ssml SSML
命令行参数提供 SSML。 - 语音 SDK:通过“speak”SSML 方法提供 SSML。