你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
定制声音精简版是一种项目类型,你可以先用它来演示和评估定制声音,然后再投资进行专业录制,以制作更高质量的语音。 对于演示和评估,不需要任何应用程序。 但是,Microsoft 会限制并选择用于定制声音精简版的录音和测试样本。 你必须申请对专业声音微调版的完全访问权限,才能出于商业目的部署和使用定制声音精简版模型。 在这种情况下,请申请对引入表单的访问权限。
注意
定制声音精简版仅在 Speech Studio 中提供。 它无法通过 Azure AI Foundry 门户、REST API 或 SDK 使用。
在自定义语音轻量项目中,您可以通过阅读 Microsoft 提供的 20-50 个预定义脚本在线录制您的语音。 记录至少 20 个样本后,可以开始训练模型。 成功训练模型后,你可以查看模型并查看使用另一组预定义脚本生成的 20 个输出示例。
请参阅 自定义语音支持的语言 。
比较项目类型
下表总结了定制声音精简版与专业声音微调版之间的主要差异。
项 | 精简版 | 专业 |
---|---|---|
目标方案 | 演示或评估 | 专业方案,如聊天机器人的品牌和角色语音,或音频内容阅读。 |
训练数据 | 使用 Speech Studio 进行在线录制 | 自带数据。 建议在专业录音室录音。 |
录音脚本 | 在 Speech Studio 中提供 | 使用与用例方案匹配的脚本。 微软提供了示例脚本以供参考。 |
所需的数据大小 | 20 到 50 个语句 | 300 到 2000 个语句 |
训练时间 | 计算小时数不到 1 | 计算小时数大约 20 到 40 |
语音质量 | 中等质量 | 高质量 |
可用性 | 任何人都可以在线录制样本并训练模型以进行演示和评估。 如果要部署商业用途的定制声音精简版模型,则需要对定制声音具有完全访问权限。 | 数据上传不受限制,但在获得访问批准后,只能微调专业语音。 根据资格和使用标准,专业语音微调受到限制。 在引入表单上请求访问。 |
定价 | 定制声音精简版和专业声音微调版的单价相同。 请在此处查看定价详细信息。 | 定制声音精简版和专业声音微调版的单价相同。 请在此处查看定价详细信息。 |
创建定制声音精简版项目
若要创建定制声音精简版项目,请执行以下步骤:
登录 Speech Studio。
选择要使用的订阅和语音资源。
选择“定制声音”“创建项目”>。
选择“神经网络定制声音精简版”“下一步”>。 若要改为创建自定义语音专业项目,请参阅 专业语音微调文档。
遵照向导中的说明创建项目。
重要
定制声音精简版项目将在 90 天后过期,除非提交发音人录制的发音人声明。
按名称选择新项目,或选择“转到项目”。 左侧面板将显示这些菜单项:“录制和生成”、“审阅模型”以及“部署模型”。
录制和构建定制声音精简版模型
使用联机提供的脚本录制至少 20 个(最多 50 个)语音样本。 此处录制的语音样本将用于合成语音。
注意
自定义语音培训目前仅在某些区域中可用。 有关详细信息,请参阅区域表中的脚注。
下面是一些有助于录制语音样本的提示:
- 使用优质麦克风。 通过使用优质麦克风来提高样本的清晰度。 在距离麦克风约 8 英寸远的位置说话,以避免出现嘴部噪音。
- 避免背景噪音。 在没有背景噪音或回声的安静场所中进行录制。
- 放松且自然地说话。 在读出句子时可以流露情感。
- 一次性地完成录制。 要保持一致的能量级别,请在一个会话中录制所有句子。
- 对每个单词完成正确且清晰的发音。
若要录制和生成自定义语音精简模型,请按照 Speech Studio 中的以下步骤作:
- 选择“定制声音” 你的项目名称 >“录制和生成”>。
- 选择“开始”。
- 请仔细阅读发音人使用条款。 勾选复选框,表示接受使用条款。
- 选择“接受”
- 按下麦克风图标,开始检查噪音。 此噪音检查只需几秒钟,且在该过程中无需说话。
- 如果检测到噪音,则可以选择“再次检查”以重复噪音检查环节。 如果未检测到任何噪音,则可以选择“完成”以继续进行下一步。
- 查看录制提示,然后选择“知道了”。 为了获得最佳结果,请在录制语音样本之前到安静的、没有背景噪音的区域。
- 按下麦克风图标,开始录制。
- 按下停止图标即可停止录制。
- 查看质量指标。 每当录制完样本后,请先检查其质量指标,然后再继续下一项录制。
- 录制更多样本。 虽然只需 20 个样本即可创建模型,但建议多录制几个样本(最多 50 个)以获得更好的质量。
- 选择“训练模型”以启动训练过程。
训练过程大约需要一个计算小时。 可以在“审阅模型”页中检查训练进度。
审阅模型
若要查看自定义语音精简模型并收听你自己的合成语音,请执行以下步骤:
- 选择“定制声音” 你的项目名称 >“审阅模型”>。 可在此处查看语音模型名称、模型语言、示例数据大小和训练进度。 语音名称由项目名称后面追加的单词“Neural”(神经网络)组合而来。
- 选择语音模型名称,可以查看模型详细信息并收听示例文本转语音结果。
- 选择播放图标,可以听到你的声音说出每个脚本。
提交发音人声明
在部署模型以用于业务之前,还需要由发音人录制发音人声明。
若要提交语音人才口头陈述,请在 Speech Studio 中执行以下步骤:
- 选择“定制声音” 你的项目名称 >“部署模型”>“管理发音人”>。
- 选择该模型。
- 输入发音人姓名和公司名称。
- 读出并录制声明。 选择麦克风图标,开始录制。 选择停止图标即可停止录制。
- 选择“提交”以提交声明。
- 在仪表板底部的脚本表中检查处理状态。 状态显示为“成功”后,即可部署模型。
部署模型
若要部署自定义语音精简模型并将其用于应用程序中,您必须获得自定义语音的完整访问权限。 在引入表单上请求访问。 在大约 10 个工作日内,你将收到一封包含审批状态的电子邮件。 在部署模型以用于业务之前,还需要由发音人录制发音人声明。
若要部署自定义语音精简模型,请在 Speech Studio 中执行以下步骤:
- 选择“定制声音” 你的项目名称 >“部署模型”>“部署模型”>。
- 选择语音模型名称,然后选择“下一步”。
- 为自己的终结点输入名称和说明,然后选择“下一步”。
- 勾选复选框以表示自己同意使用条款,然后选择“下一步”。
- 选择“部署”以部署模型。
在此处,可以像使用专业声音模型一样使用定制声音精简版模型。 例如,可以在创建终结点后挂起或恢复它,以限制支出并节省未使用的资源。 还可以访问 Speech Studio 中有声内容创作工具中的声音。