你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
准备好为应用程序创建自定义语音时,第一步是收集录音和关联的脚本,开始专业语音微调。 “自定义语音”是一个伞式术语,包括专业语音微调和个人语音。 语音服务使用此数据进行专业语音微调,创建经过优化的唯一语音以匹配录制中的语音。 微调专业语音后,可以在应用程序中开始合成语音。
提示
若要创建生产用的语音,建议使用专业录音棚和发音人。 有关详细信息,请参阅录制声音样本以进行专业声音微调。
用于专业语音微调的数据类型
用于专业语音微调的数据集包括音频录制和包含关联听录的文本文件。 每个音频文件应包含单个语句(对话系统的单个句子或单个轮次),长度不能超过 15 秒。
在某些情况下,你可能尚未准备好正确的数据集。 可以使用可用的音频文件进行专业语音微调测试,无论音频文件是短或长,是否带有转录文本。
此表列出了数据类型以及每个数据类型如何用于专业语音微调。
数据类型 | 说明 | 何时使用 | 需要额外的处理 | 处理为 |
---|---|---|---|---|
单个语句 + 匹配的脚本 | 单个语句形式的音频文件 (.wav) 集合 (.zip)。 每个音频文件的长度不应超过 15 秒,并与带格式的脚本 (.txt) 配对。 | 包含匹配脚本的专业录制内容 | 准备好微调。 | 已分段 |
长音频 + 脚本 | 未分段的长音频文件(.wav 或 .mp3,长度超过 20 秒,最多 1,000 个音频文件)集合 (.zip) 与包含所有口语的脚本集合 (.zip) 配对。 | 有音频文件和匹配的脚本,但它们未分段成语句。 | 分段(使用批量听录)。 根据需要进行音频格式转换。 |
已分段,上下文 |
仅音频(预览版) | 不包含脚本的音频文件(.wav 或 .mp3,最多 1,000 个音频文件)集合 (.zip)。 | 只有音频文件,没有脚本。 | 分段 + 脚本生成(使用批量听录)。 根据需要进行音频格式转换。 |
已分段,上下文 |
文件应按类型分组成数据集,并作为 zip 文件上传。 每个数据集只能包含一种数据类型。
注意
每个订阅允许导入的数据集的最大数目对于标准订阅 (S0) 用户而言为 500 个 .zip 文件。
作为上下文处理将保留整个音频,以保留上下文信息,从而获取更自然的语调。
单个语句 + 匹配的脚本
可通过两种方式准备单个语句和匹配脚本的录制内容。 先编写脚本,然后让发音人朗读该脚本;或者使用公开提供的音频,然后将其转录成文本。 如果是后一种情况,请编辑音频文件中的不流畅之处,例如“嗯”之类的无意义声音、口吃音、喃喃自语或错读音。
若要生成好的声音模型,请在安静的房间中使用优质麦克风创建录制内容。 必须确保使用一致的音量、语速、语调以及有表现力的语音方式。
有关数据格式示例,请参阅 GitHub 上的示例数据集。 示例数据集包括示例脚本和关联的音频。
各个语句的音频数据 + 匹配的脚本
每个音频文件应包含单个语句(对话系统的单个句子或单个轮次),长度不超过 15 秒。 所有文件必须使用相同的口语。 不支持多语言自定义文本转语音的语音,但中-英双语除外。 每个音频文件必须使用扩展名为 .wav 的唯一文件名。
准备音频时,请遵循这些指导原则。
属性 | 值 |
---|---|
文件格式 | RIFF (.wav),分组成 .zip 文件 |
文件名 | Windows OS 支持的文件名字符,扩展名为 .wav。 不允许使用 \ / : * ? " < > \| 字符。 不能以空格开头或结尾,不能以点开头。 不允许重复的文件名。 |
采样率 | 微调专业语音时,需要 24 KHz 及更高频率。 |
示例格式 | PCM,至少 16 位 |
音频长度 | 短于 15 秒 |
存档格式 | .zip |
最大存档大小 | 2048 MB |
注意
专业语音微调的默认采样率为 24 KHz。 采样率低于 16,000 Hz 的音频文件将被拒绝。 如果 .zip 文件包含具有不同采样率的 .wav 文件,只会导入等于或高于 16,000 Hz 的波形。 采样率高于 16,000 Hz 且低于 24 KHz 的音频文件将向上采样到 24 KHz,以便进行微调。 建议使用采样率为 24 KHz 和更高,以便微调数据。
各个语句的听录数据 + 匹配的脚本
听录文件是一个纯文本文件。 请遵循以下指导原则准备听录内容。
属性 | 值 |
---|---|
文件格式 | 纯文本 (.txt) |
编码格式 | ANSI、ASCII、UTF-8、UTF-8-BOM、UTF-16-LE 或 UTF-16-BE。 对于 zh-CN,不支持 ANSI 和 ASCII 编码。 |
每行的语句数 | 1 - 听录文件的每一行应包含一个音频文件的名称,后接相应的听录。 必须使用制表符 (\t) 分隔文件名和听录。 |
文件大小上限 | 2048 MB |
以下示例演示如何在一个 .txt 文件中按语句组织脚本:
0000000001[tab] This is the waistline, and it's falling.
0000000002[tab] We have trouble scoring.
0000000003[tab] It was Janet Maslin.
必须确保脚本是相应音频的完全准确的听录。 脚本中的错误会在微调过程中引入质量损失。
长音频 + 脚本(预览版)
注意
对于 长音 +听录(预览版),仅支持以下语言:中文(普通话、简体中文)、中文(粤语、繁体中文)、中文(台湾普通话)、英语(印度)、英语(英国)、英语(美国)、法语(法国)、德语(德国)、印地语(印度)、意大利语(印度)、日语(日本)、葡萄牙语(巴西)、西班牙语(西班牙)和西班牙语(墨西哥)。
作为上下文处理目前仅适用于中文(普通话、简体中文)和英语(美国)。
在某些情况下,你可能没有可用的分段音频。 Speech Studio 可以帮助你将长音频文件分段以及创建听录内容。 长音频分段服务将使用语音转文本的批量听录 API 功能。
该服务提供两种处理模式:
- 分段:适用于所有支持语言的默认处理模式
- 上下文:一种增强模式,将音频保留为整体,以保持上下文信息以获得更多自然的语调。
在处理分段期间,还会将音频文件和脚本发送到自定义语音识别服务来优化识别模式,以改善数据的准确性。 在此过程中不会保留任何数据。 分段完成后,仅存储分段的话语及其映射脚本,以供下载和微调。
长音频的音频数据 + 脚本
准备要分段的音频时,请遵循这些指导原则。
属性 | 值 |
---|---|
文件格式 | RIFF (.wav) 或 .mp3,分组成 .zip 文件 |
文件名 | Windows OS 支持的文件名字符,扩展名为 .wav。 不允许使用 \ / : * ? " < > \| 字符。 不能以空格开头或结尾,不能以点开头。 不允许重复的文件名。 |
采样率 | 在微调专业语音时,需使用 24 KHz 以上的频率。 |
示例格式 | RIFF (.wav):PCM,至少 16 位。 mp3:至少 256 KBps 比特率。 |
音频长度 | 超过 30 秒 |
存档格式 | .zip |
最大存档大小 | 2048 MB,最多包含 1,000 个音频文件 |
注意
专业语音微调的默认采样率为 24 KHz。 采样率低于 16,000 Hz 的音频文件将被拒绝。 采样率高于 16,000 Hz 且低于 24 KHz 的音频文件将向上采样到 24 KHz,以便进行微调。 建议对微调数据使用 24 KHz 及更高的采样率。
理想情况下,分段话语的长度应介于 5 到 15 秒之间。 为了获得最佳分段结果,建议每 5 到 15 秒包含 0.5 到 1 秒的自然暂停,最好是短语或句子的末尾。
所有音频文件应分组成一个 .zip 文件。 可以将 .wav 文件和 .mp3 文件放入同一个 zip 文件。 例如,可以在同一 zip 文件中上传一个名为“kingstory.wav”且长度为 45 秒的音频文件和一个名为“queenstory.mp3”且长度为 200 秒的长音频文件。 处理后,所有 .mp3 文件将转换为 .wav 格式。
长音频的听录数据 + 脚本
必须根据此表中所列的规范准备脚本。 每个音频文件必须与某个脚本匹配。
属性 | 值 |
---|---|
文件格式 | 纯文本 (.txt),分组成 .zip |
文件名 | 使用与匹配的音频文件相同的名称 |
编码格式 | ANSI、ASCII、UTF-8、UTF-8-BOM、UTF-16-LE 或 UTF-16-BE。 对于 zh-CN,不支持 ANSI 和 ASCII 编码。 |
每行的语句数 | 无限制 |
文件大小上限 | 2048 MB |
此数据类型的所有脚本文件应分组成一个 zip 文件。 例如,可以在同一 zip 文件中上传一个名为“kingstory.wav”且长度为 45 秒的音频文件和一个名为“queenstory.mp3”且长度为 200 秒的长音频文件。 现在,你需要上传另一个 zip 文件,其中包含两个相应的脚本,一个名为“kingstory.txt”,另一个名为“queenstory.txt”。 在每个纯文本文件中,需要为匹配的音频提供完全正确的听录内容。
成功上传数据集后,我们会帮助你根据提供的脚本将音频文件分段成语句。 可以通过下载数据集来检查分段的语句和匹配的脚本。 系统会自动将唯一 ID 分配到分段的语句。 请确保提供的脚本完全准确,这一点非常重要。 脚本中的错误可以减少音频分段期间的准确性,并进一步在稍后的微调阶段引入质量损失。
仅音频(预览版)
注意
对于 仅音频(预览版),仅支持以下语言:中文(普通话、简体中文)、中文(粤语、繁体中文)、中文(台湾普通话)、英语(印度)、英语(英国)、英语(美国)、法语(法国)、德语(德国)、印地语(印度)、意大利语(意大利)、日语(日本)、葡萄牙语(巴西)、西班牙语(西班牙)和西班牙语(墨西哥)。
作为上下文处理目前仅适用于中文(普通话、简体中文)和英语(美国)。
如果音频录制内容没有听录,请使用“仅限音频”选项上传数据。 我们的系统可帮助你分段和听录音频文件。
该服务提供两种处理模式:
- 分段:适用于所有支持语言的默认处理模式
- 上下文:一种增强模式,将音频保留为整体,以保持上下文信息以获得更多自然的语调。
准备音频时,请遵循这些指导原则。
属性 | 值 |
---|---|
文件格式 | RIFF (.wav) 或 .mp3,分组成 .zip 文件 |
文件名 | Windows OS 支持的文件名字符,扩展名为 .wav。 不允许使用 \ / : * ? " < > \| 字符。 不能以空格开头或结尾,不能以点开头。 不允许重复的文件名。 |
采样率 | 在微调专业语音时,需要 24 KHz 及更高频率。 |
示例格式 | RIFF (.wav):PCM,至少 16 位 mp3:至少 256 KBps 比特率。 |
音频长度 | 无限制 |
存档格式 | .zip |
最大存档大小 | 2048 MB,最多包含 1,000 个音频文件 |
注意
专业语音微调的默认采样率为 24 KHz。 采样率高于 16,000 Hz 且低于 24 KHz 的音频文件将向上采样到 24 KHz,以便进行微调。 建议在微调数据中使用24 KHz及以上的采样率。
理想情况下,分段话语的长度应介于 5 到 15 秒之间。 为了获得最佳分段结果,建议每 5 到 15 秒包含 0.5 到 1 秒的自然暂停,最好是短语或句子的末尾。
所有音频文件应分组成一个 .zip 文件。 成功上传数据集后,语音服务会基于语音批量听录服务帮助你将音频文件分段成语句。 可以根据语言和要求选择标准或上下文处理模式。 系统会自动将唯一 ID 分配到分段的语句。 匹配的脚本将通过语音识别生成。 处理后,所有 .mp3 文件将转换为 .wav 格式。 可以通过下载数据集来检查分段的语句和匹配的脚本。