你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

语音合成标记语言 (SSML) 概述

语音合成标记语言 (SSML) 是一种基于 XML 的标记语言,可用于微调文本转语音输出属性,例如音调、发音、语速、音量等。 与纯文本输入相比,它可以提供更多的控制权和灵活性。

提示

可以通过使用语音库听到不同风格和音调的声音阅读示例文本。

用例场景

SSML 旨在让你灵活选择语音输出的声音,并提供不同的属性用于自定义该输出。 可以使用 SSML 来执行以下操作:

  • 定义输入文本结构,用于确定文本转语音输出的结构、内容和其他特征。 例如,可以使用 SSML 来定义段落、句子、中断/暂停或静音。 可以使用事件标记(例如书签或视素)包装文本,应用程序稍后可以处理这些标记。 视素是口语中音素(单个语音)的视觉描述。
  • 选择语音、语言、名称、样式和角色。 可以在单个 SSML 文档中使用多个语音。 还可以调整重音、语速、音调和音量。 SSML 还可以插入预先录制的音频,例如音效或音符。
  • 控制输出音频的发音。 例如,可以将 SSML 与音素和自定义词典配合使用来改进发音。 还可以使用 SSML 定义单词或数学表达式的具体发音。

使用 SSML 的方法

SSML 功能可在可能适合你的用例的各种工具中使用。

重要

按照转换为语音的每个字符(包括标点)付费。 尽管 SSML 文档本身不计费,但该服务将用于调整文本转语音方式的可选元素(例如音素和音调)算作计费字符。 有关详细信息,请参阅定价说明

可以按下列方式使用 SSML:

后续步骤