你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

神经网络定制声音精简版(预览版)

Speech Studio 提供两种神经网络定制声音 (CNV) 项目类型:CNV 精简版和 CNV 专业版。

  • 神经网络定制声音 (CNV) 专业版允许你上传通过专业录音棚收集的训练数据,并创建与人体样本几乎无法区分的更高质量的语音。 CNV 专业版访问权限根据资格和使用标准受到限制。 在引入表单上请求访问。
  • 神经网络定制声音 (CNV) 精简版处于公共预览阶段的项目类型。 在投资专业录音以创建更高质量的语音之前,你可以演示和评估神经网络定制声音。 不需要应用程序。 Microsoft 限制并选择用于 CNV 精简版的录音和测试样本。 必须申请到对 CNV 专业版的完全访问权限,才能部署 CNV 精简版模型并将其用于业务目的。

使用 CNV 精简版项目,你可以通过阅读 Microsoft 提供的 20-50 个预定义脚本来在线录制你的声音。 记录至少 20 个样本后,可以开始训练模型。 成功训练模型后,你可以查看模型并查看使用另一组预定义脚本生成的 20 个输出示例。

请参阅自定义神经语音支持的语言

比较项目类型

下表总结了 CNV 精简版和 CNV 专业版项目类型之间的主要区别。

精简版(预览版) Pro
目标方案 演示或评估 专业方案,如聊天机器人的品牌和角色语音,或音频内容阅读。
训练数据 使用 Speech Studio 进行在线录制 自带数据。 建议在专业录音室录音。
录音脚本 在 Speech Studio 中提供 使用与用例方案匹配的脚本。 微软提供了示例脚本以供参考。
所需的数据大小 20 到 50 个语句 300 到 2000 个语句
训练时间 计算小时数不到 1 计算小时数大约 20 到 40
语音质量 中等质量 高质量
可用性 任何人都可以在线录制样本并训练模型以进行演示和评估。 如果要部署 CNV 精简版模型供业务使用,则需要对神经网络定制声音的完全访问权限。 数据上传不受限制,但你只能在访问权限获得批准后训练和部署 CNV 专业版模型。 CNV 专业版访问权限根据资格和使用标准受到限制。 在引入表单上请求访问。
定价 单价同样适用于 CNV 精简版和 CNV 专业版项目。 请在此处查看定价详细信息 单价同样适用于 CNV 精简版和 CNV 专业版项目。 请在此处查看定价详细信息

创建神经网络定制声音精简版项目

若要神经网络定制声音精简版项目,请执行以下步骤:

  1. 登录 Speech Studio

  2. 选择要使用的订阅和语音资源。

    重要

    神经网络定制声音训练目前仅在部分区域可用。 有关详细信息,请参阅区域表中的脚注。

  3. 选择“定制声音”>“创建项目”

  4. 选择“神经网络定制声音精简版”>“下一步”

    注意

    若要创建神经网络定制声音专业版项目,请参阅创建神经网络定制声音项目

  5. 遵照向导中的说明创建项目。

  6. 按名称选择新项目,或选择“转到项目”。 左侧面板将显示这些菜单项:“录制和生成”、“审阅模型”以及“部署模型”
    Screenshot with an overview of the CNV lite record, train, test, and deploy workflow.

CNV 精简版项目将在 90 天后过期,除非提交发音人录制的发音人声明

录制并生成 CNV 精简版模型

使用联机提供的脚本录制至少 20 个(最多 50 个)语音样本。 此处录制的语音样本将用于合成语音。

下面是一些有助于录制语音样本的提示:

  • 使用优质麦克风。 通过使用优质麦克风来提高样本的清晰度。 在距离麦克风约 8 英寸远的位置说话,以避免出现嘴部噪音。
  • 避免背景噪音。 在没有背景噪音或回声的安静场所中进行录制。
  • 放松且自然地说话。 在读出句子时可以流露情感。
  • 一次性地完成录制。 要保持一致的能量级别,请在一个会话中录制所有句子。
  • 对每个单词完成正确且清晰的发音。

若要录制并生成 CNV 精简版模型,请执行以下步骤:

  1. 选择“定制声音”> 你的项目名称 >“录制和生成”
  2. 选择“开始”。
  3. 请仔细阅读发音人使用条款。 勾选复选框,表示接受使用条款。
  4. 选择“接受”
  5. 按下麦克风图标,开始检查噪音。 此噪音检查只需几秒钟,且在该过程中无需说话。
  6. 如果检测到噪音,则可以选择“再次检查”以重复噪音检查环节。 如果未检测到任何噪音,则可以选择“完成”以继续进行下一步。 Screenshot of the noise check results when noise was detected.
  7. 查看录制提示,然后选择“知道了”。 为了获得最佳结果,请在录制语音样本之前到安静的、没有背景噪音的区域。
  8. 按下麦克风图标,开始录制。 Screenshot of the record sample dashboard.
  9. 按下停止图标即可停止录制。
  10. 查看质量指标。 每当录制完样本后,请先检查其质量指标,然后再继续下一项录制。
  11. 录制更多样本。 虽然只需 20 个样本即可创建模型,但建议多录制几个样本(最多 50 个)以获得更好的质量。
  12. 选择“训练模型”以启动训练过程。

训练过程大约需要一个计算小时。 可以在“审阅模型”页中检查训练进度。

审阅模型

若要审阅 CNV 精简版模型并收听自己的合成语音,请执行以下步骤:

  1. 选择“定制声音”> 你的项目名称 >“审阅模型”。 可在此处查看语音模型名称、模型语言、示例数据大小和训练进度。 语音名称由项目名称后面追加的单词“Neural”(神经网络)组合而来。
  2. 选择语音模型名称,可以查看模型详细信息并收听示例文本转语音结果。
  3. 选择播放图标,可以听到你的声音说出每个脚本。 Screenshot of the review sample output dashboard.

提交发音人声明

部署模型以用于业务之前,还需要由发音人录制发音人声明。

若要提交发音人的发音人声明,请执行以下步骤:

  1. 选择“定制声音”> 你的项目名称 >“部署模型”>“管理发音人”Screenshot of the record voice talent consent dashboard.
  2. 选择该模型。
  3. 输入发音人姓名和公司名称。
  4. 读出并录制声明。 选择麦克风图标,开始录制。 选择停止图标即可停止录制。
  5. 选择“提交”以提交声明。
  6. 在仪表板底部的脚本表中检查处理状态。 状态显示为“成功”后,即可部署模型

部署模型

若要部署语音模型并在应用程序中使用它,必须获取对神经网络定制声音的完全访问权限。 在引入表单上请求访问。 在大约 10 个工作日内,你将收到一封包含审批状态的电子邮件。 在部署模型以用于业务之前,还需要由发音人录制发音人声明

若要部署 CNV 精简版模型,请执行以下步骤:

  1. 选择“定制声音”> 你的项目名称 >“部署模型”>“部署模型”
  2. 选择语音模型名称,然后选择“下一步”。
  3. 为自己的终结点输入名称和说明,然后选择“下一步”。
  4. 勾选复选框以表示自己同意使用条款,然后选择“下一步”。
  5. 选择“部署”以部署模型。

在此处可以像使用 CNV 专业版语音模型一样使用 CNV 精简版语音模型。 例如,可以在创建终结点后挂起或恢复它,以限制支出并节省未使用的资源。 还可以访问 Speech Studio有声内容创作工具中的声音。

后续步骤