你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

训练用于神经网络定制声音的数据

项目
09/03/2024

准备好为应用程序创建自定义文本转语音的语音后，第一步是收集音频录制内容和关联的脚本，以开始训练语音模型。语音服务会使用此数据创建与录制内容中的语音相匹配的、经过优化的独特声音。训练该语音后，可以开始合成应用程序中的语音。

提示

若要创建生产用的语音，建议使用专业录音棚和发音人。有关详细信息，请参阅录制语音样本以创建神经网络定制声音。

训练数据类型

语音训练数据集包括音频录制内容，以及一个包含关联听录内容的文本文件。每个音频文件应包含单个语句（对话系统的单个句子或单个轮次），长度不能超过 15 秒。

在某些情况下，你可能尚未准备好正确的数据集。可以使用可用音频文件（短或长；带或不带脚本）测试自定义神经语音训练。

下表列出了数据类型，以及如何使用每种类型来创建自定义文本转语音的语音模型。

数据类型	说明	何时使用	需要额外的处理
单个语句 + 匹配的脚本	单个语句形式的音频文件 (.wav) 集合 (.zip)。每个音频文件的长度不应超过 15 秒，并与带格式的脚本 (.txt) 配对。	包含匹配脚本的专业录制内容	做好训练准备。
长音频 + 脚本	未分段的长音频文件（.wav 或 .mp3，超过 20 秒，最多 1000 个音频文件）集合 (.zip)，与包含所有口语的脚本集合 (.zip) 配对。	有音频文件和匹配的脚本，但它们未分段成语句。	分段（使用批量听录）。根据需要进行音频格式转换。
仅音频（预览版）	不包含脚本的音频文件（.wav 或 .mp3，最多 1000 个音频文件）集合 (.zip)。	只有音频文件，没有脚本。	分段 + 脚本生成（使用批量听录）。根据需要进行音频格式转换。

文件应按类型分组成数据集，并作为 zip 文件上传。每个数据集只能包含一种数据类型。

注意

每个订阅允许导入的数据集的最大数目对于标准订阅 (S0) 用户而言为 500 个 .zip 文件。

单个语句 + 匹配的脚本

可通过两种方式准备单个语句和匹配脚本的录制内容。先编写脚本，然后让发音人朗读该脚本；或者使用公开提供的音频，然后将其转录成文本。如果是后一种情况，请编辑音频文件中的不流畅之处，例如“嗯”之类的无意义声音、口吃音、喃喃自语或错读音。

若要生成好的声音模型，请在安静的房间中使用优质麦克风创建录制内容。必须确保使用一致的音量、语速、语调以及有表现力的语音方式。

有关数据格式示例，请参阅 GitHub 上的示例训练集。示例训练集包括示例脚本和关联的音频。

各个语句的音频数据 + 匹配的脚本

每个音频文件应包含单个语句（对话系统的单个句子或单个轮次），长度不超过 15 秒。所有文件必须使用相同的口语。不支持多语言自定义文本转语音的语音，但中-英双语除外。每个音频文件必须使用扩展名为 .wav 的唯一文件名。

准备音频时，请遵循这些指导原则。

属性	值
文件格式	RIFF (.wav)，分组成 .zip 文件
文件名	Windows OS 支持的文件名字符，扩展名为 .wav。不允许使用 `\ / : * ? " < > \\|` 字符。不能以空格开头或结尾，不能以点开头。不允许重复的文件名。
采样率	创建自定义神经语音时，需要使用 24,000 Hz。
示例格式	PCM，至少 16 位
音频长度	短于 15 秒
存档格式	.zip
最大存档大小	2048 MB

注意

神经网络定制声音的默认采样率为 24,000 Hz。采样率低于 16,000 Hz 的音频文件将被拒绝。如果 .zip 文件包含具有不同采样率的 .wav 文件，只会导入等于或高于 16,000 Hz 的波形。采样率高于 16,000 Hz 且低于 24,000 Hz 的音频文件将向上采样至 24,000 Hz，以训练神经网络声音。建议对训练数据使用 24,000 Hz 的采样频率。

各个语句的听录数据 + 匹配的脚本

听录文件是一个纯文本文件。请遵循以下指导原则准备听录内容。

属性	值
文件格式	纯文本 (.txt)
编码格式	ANSI、ASCII、UTF-8、UTF-8-BOM、UTF-16-LE 或 UTF-16-BE。对于 zh-CN，不支持 ANSI 和 ASCII 编码。
每行的语句数	1 - 听录文件的每一行应包含一个音频文件的名称，后接相应的听录。必须使用制表符 (\t) 分隔文件名和听录。
文件大小上限	2048 MB

以下示例演示如何在一个 .txt 文件中按语句组织脚本：

0000000001[tab]	This is the waistline, and it's falling.
0000000002[tab]	We have trouble scoring.
0000000003[tab]	It was Janet Maslin.

必须确保脚本是相应音频的完全准确的听录。脚本中的错误会在训练期间造成质量损失。

长音频 + 脚本（预览版）

注意

对于“长音频 + 脚本（预览版）”，只支持以下语言：中文（普通话、简体中文）、英语（印度）、英语（英国）、英语（美国）、法语（法国）、德语（德国）、意大利语（意大利）、日语（日本）、葡萄牙语（巴西）和西班牙语（墨西哥）。

在某些情况下，你可能没有可用的分段音频。 Speech Studio 可以帮助你将长音频文件分段以及创建听录内容。长音频分段服务将使用语音转文本的批量听录 API 功能。

在处理分段期间，还会将音频文件和脚本发送到自定义语音识别服务来优化识别模式，以改善数据的准确性。在此过程中不会保留任何数据。分段完成后，只会存储已分段的语句及其匹配的脚本供你下载和训练。

注意

此服务会产生语音转文本订阅使用费。只有标准 (S0) 语音资源支持长音频分段服务。

长音频的音频数据 + 脚本

准备要分段的音频时，请遵循这些指导原则。

属性	值
文件格式	RIFF (.wav) 或 .mp3，分组成 .zip 文件
文件名	Windows OS 支持的文件名字符，扩展名为 .wav。不允许使用 `\ / : * ? " < > \\|` 字符。不能以空格开头或结尾，不能以点开头。不允许重复的文件名。
采样率	创建自定义神经语音时，需要使用 24,000 Hz。
示例格式	RIFF (.wav)：PCM，至少 16 位。 mp3：至少 256 KBps 比特率。
音频长度	长于 20 秒
存档格式	.zip
最大存档大小	2048 MB，最多包含 1000 个音频文件

注意

神经网络定制声音的默认采样率为 24,000 Hz。采样率低于 16,000 Hz 的音频文件将被拒绝。采样率高于 16,000 Hz 且低于 24,000 Hz 的音频文件将向上采样至 24,000 Hz，以训练神经网络声音。建议对训练数据使用 24,000 Hz 的采样频率。

所有音频文件应分组成一个 .zip 文件。可以将 .wav 文件和 .mp3 文件放入同一个 zip 文件。例如，可以在同一 zip 文件中上传一个名为“kingstory.wav”且长度为 45 秒的音频文件和一个名为“queenstory.mp3”且长度为 200 秒的长音频文件。处理后，所有 .mp3 文件将转换为 .wav 格式。

长音频的听录数据 + 脚本

必须根据此表中所列的规范准备脚本。每个音频文件必须与某个脚本匹配。

属性	值
文件格式	纯文本 (.txt)，分组成 .zip
文件名	使用与匹配的音频文件相同的名称
编码格式	ANSI、ASCII、UTF-8、UTF-8-BOM、UTF-16-LE 或 UTF-16-BE。对于 zh-CN，不支持 ANSI 和 ASCII 编码。
每行的语句数	无限制
文件大小上限	2048 MB

此数据类型的所有脚本文件应分组成一个 zip 文件。例如，可以在同一 zip 文件中上传一个名为“kingstory.wav”且长度为 45 秒的音频文件和一个名为“queenstory.mp3”且长度为 200 秒的长音频文件。现在，你需要上传另一个 zip 文件，其中包含两个相应的脚本，一个名为“kingstory.txt”，另一个名为“queenstory.txt”。在每个纯文本文件中，需要为匹配的音频提供完全正确的听录内容。

成功上传数据集后，我们会帮助你根据提供的脚本将音频文件分段成语句。可以通过下载数据集来检查分段的语句和匹配的脚本。系统会自动将唯一 ID 分配到分段的语句。请确保提供的脚本完全准确，这一点非常重要。如果脚本中有错误，在音频分段期间可能会降低准确性，并在后续的训练阶段进一步造成质量损失。

仅音频（预览版）

注意

对于“仅音频（预览版）”，只支持以下语言：中文（普通话、简体中文）、英语（印度）、英语（英国）、英语（美国）、法语（法国）、德语（德国）、意大利语（意大利）、日语（日本）、葡萄牙语（巴西）和西班牙语（墨西哥）。

如果音频录制内容没有听录，请使用“仅限音频”选项上传数据。我们的系统可帮助你分段和听录音频文件。请记住，此服务会产生语音转文本订阅使用费。

准备音频时，请遵循这些指导原则。

注意

长音频分段服务将利用语音转文本的批量听录功能，该功能仅支持标准订阅 (S0) 用户。

属性	值
文件格式	RIFF (.wav) 或 .mp3，分组成 .zip 文件
文件名	Windows OS 支持的文件名字符，扩展名为 .wav。不允许使用 `\ / : * ? " < > \\|` 字符。不能以空格开头或结尾，不能以点开头。不允许重复的文件名。
采样率	创建自定义神经语音时，需要使用 24,000 Hz。
示例格式	RIFF (.wav)：PCM，至少 16 位 mp3：至少 256 KBps 比特率。
音频长度	无限制
存档格式	.zip
最大存档大小	2048 MB，最多包含 1000 个音频文件

注意

神经网络定制声音的默认采样率为 24,000 Hz。采样率高于 16,000 Hz 且低于 24,000 Hz 的音频文件将向上采样至 24,000 Hz，以训练神经网络声音。建议对训练数据使用 24,000 Hz 的采样频率。

所有音频文件应分组成一个 .zip 文件。成功上传数据集后，语音服务会基于语音批量听录服务帮助你将音频文件分段成语句。系统会自动将唯一 ID 分配到分段的语句。匹配的脚本将通过语音识别生成。处理后，所有 .mp3 文件将转换为 .wav 格式。可以通过下载数据集来检查分段的语句和匹配的脚本。

通过