Q: 文本转语音是如何计费的？

文本转语音服务按字符计费。 查看 定价说明 中可计费字符的定义。

Q: 文本转语音合成请求的速率限制是多少？

文本转语音的合成速率在收到更多请求时会自动调整。 每个语音资源都设有默认速率限制。 费率可根据业务理由进行调整，不会因费率上限增加而产生额外的费用。 请在 语音服务配额和限制 中查看更多详细信息。

Q: 如何向最终用户披露语音是合成语音？

我们建议每个用户在使用文本转语音功能时都应遵守我们的 行为准则 。 披露语音的合成性质有多种方式，包括隐式和显式署名。 请参考 披露设计准则 。

Q: 如何降低语音应用的延迟？

我们为你提供了一些提示，以降低延迟并为用户提供最佳性能。 请参阅 使用语音 SDK 降低语音合成延迟 。

Q: 文本转语音支持哪些输出音频格式？

Azure AI 文本转语音支持采用常用采样率的各种流式处理和非流式处理音频格式。 创建所有 TTS 标准语音以支持具有 48 kHz 和 24 kHz 的高保真音频输出。 可以根据需要对音频重新采样以支持其他速率。 请参阅 音频输出 。

Q: 是否可以自定义语音以重读特定字词？

某些语音支持调整强调，具体取决于区域设置。 请参阅 强调标记 。

Q: 每种情绪是否可以有多种不同的强烈程度，比如悲伤、有点悲伤等？

某些语音支持调整风格程度，具体取决于区域设置。 请参阅 mstts:express-as 标记 。

Q: 视位 ID 和嘴形之间是否有对应关系？

是的。 请参阅 使用视位获取面部位置 。

Q: 专业语音微调需要多少数据？

你需要至少 300 行录音（或大约 30 分钟的语音）的培训数据，以便进行专业语音微调。 建议使用 2,000 行录音（或大约 2-3 小时的语音）创建用于生产的语音。 有关脚本选择条件，请参阅 录制自定义语音示例 。

Question 1

文本转语音是如何计费的？

Accepted Answer

文本转语音服务按字符计费。查看定价说明中可计费字符的定义。

Question 2

文本转语音合成请求的速率限制是多少？

Accepted Answer

文本转语音的合成速率在收到更多请求时会自动调整。每个语音资源都设有默认速率限制。费率可根据业务理由进行调整，不会因费率上限增加而产生额外的费用。请在语音服务配额和限制中查看更多详细信息。

Question 3

如何向最终用户披露语音是合成语音？

Accepted Answer

我们建议每个用户在使用文本转语音功能时都应遵守我们的行为准则。披露语音的合成性质有多种方式，包括隐式和显式署名。请参考披露设计准则。

Question 4

如何降低语音应用的延迟？

Accepted Answer

我们为你提供了一些提示，以降低延迟并为用户提供最佳性能。请参阅使用语音 SDK 降低语音合成延迟。

Question 5

文本转语音支持哪些输出音频格式？

Accepted Answer

Azure AI 文本转语音支持采用常用采样率的各种流式处理和非流式处理音频格式。创建所有 TTS 标准语音以支持具有 48 kHz 和 24 kHz 的高保真音频输出。可以根据需要对音频重新采样以支持其他速率。请参阅音频输出。

Question 6

是否可以自定义语音以重读特定字词？

Accepted Answer

某些语音支持调整强调，具体取决于区域设置。请参阅强调标记。

Question 7

每种情绪是否可以有多种不同的强烈程度，比如悲伤、有点悲伤等？

Accepted Answer

某些语音支持调整风格程度，具体取决于区域设置。请参阅 mstts:express-as 标记。

Question 8

视位 ID 和嘴形之间是否有对应关系？

Accepted Answer

是的。请参阅使用视位获取面部位置。

Question 9

如何在代码中引用在“有声内容创作”平台上创建的词典文件？

Accepted Answer

首先，可以在“有声内容创作”上打开词典文件并获取字典文件 ID，该 ID 显示在文件路径中的“?fileKind=CustomLexiconFile”之前。例如，如果文件路径为 https://speech.microsoft.com/portal/d391a094f76846acbcd11dc2ba835f4f/audiocontentcreation/file/6cbc2527-8d57-4c1b-b9d9-3ea6d13ca95c?fileKind=CustomLexiconFile，则词典文件 ID 为 6cbc2527-8d57-4c1b-b9d9-3ea6d13ca95c。然后，在“有声内容创作”上将引用该词典的文件切换为 SSML 格式。在 SSML 文件中，找到

Question 10

专业语音微调需要多少数据？

Accepted Answer

你需要至少 300 行录音（或大约 30 分钟的语音）的培训数据，以便进行专业语音微调。建议使用 2,000 行录音（或大约 2-3 小时的语音）创建用于生产的语音。有关脚本选择条件，请参阅录制自定义语音示例。

Question 11

是否可以在同一组训练数据中包含重复的文本句子？

Accepted Answer

否。该服务将标记重复的句子，并仅保留第一个导入的句子。有关脚本选择条件，请参阅录制自定义语音示例。

Question 12

是否可以在同一组训练数据中包含多个风格？

Accepted Answer

建议在一组训练数据中保持一致风格。如果风格不同，请将数据放入不同的训练集中。在这种情况下，请考虑使用专业语音微调的多样式训练方法。有关脚本选择条件，请参阅录制自定义语音示例。

Question 13

通过 SSML 切换样式是否适用于自定义语音？

Accepted Answer

通过 SSML 切换样式适用于多样式标准语音和多样式自定义语音。通过多风格训练，可以创建以不同风格说话的语音，还可以通过 SSML 调整这些风格。

Question 14

跨语言语音如何处理具有不同发音结构和组合的语言？

Accepted Answer

在不同语言之间（如英语和日语），句子结构和发音本来就不同。每条神经语音都使用母语配音员录制的音频数据进行训练。对于跨语言语音，我们将转换音色等主要特征，让它听起来像初始讲话人说的一样，并保留正确的发音。例如，跨语言语音将使用当地人的方式说日语，并且听起来仍然类似（但不完全是）出自初始英语说话人之口。

Question 15

是否可以使用专业语音微调来自定义域的发音？

Accepted Answer

专业语音微调使你可以为企业创建品牌语音。也可以针对自己的领域进行优化。建议在训练数据中加入特定于领域的样本，以提高自然性。但是，发音默认由语音服务定义。不支持使用专业语音微调进行发音自定义。如果要自定义语音的发音，请使用 SSML。请参阅使用语音合成标记语言 (SSML) 的发音。

Question 16

训练一次后，可以再次训练语音吗？

Accepted Answer

你可以再次训练。每个训练都会创建新的语音模型。每个训练都会向你收费。

Question 17

模型版本是否与引擎版本相同？

Accepted Answer

否。模型版本与引擎版本不同。模型版本是指模型的训练配方版本，因支持的功能和模型训练时间而各有不同。 Azure AI 服务文本转语音引擎会不时更新，以捕获用于定义语言发音的最新语言模型。在训练你的语音后，你可以通过更新到最新的引擎版本将你的语音应用于新的语言模型。当有新引擎可用时，系统会提示你更新神经声音模型。请参阅更新语音模型的引擎版本。

Question 18

是否可以使用 Azure Policy 或其他功能限制训练次数？ 或者是否有任何方法可以避免错误训练？

Accepted Answer

如果要限制训练权限，可以限制用户角色和访问权限。请参考用于语音资源的基于角色的访问控制。

Question 19

Microsoft 是否可以添加一种机制，用于防止在创建语音时未经授权使用或滥用我们的语音？

Accepted Answer

语音模型只能由本人使用自己的令牌使用。 Microsoft 也不会使用你的数据。请参阅数据、隐私和安全。还可以请求向语音添加水印以保护模型。请参阅 Microsoft Azure 神经 TTS 介绍用于合成语音识别的水印算法。

Question 20

关于与配音演员的合同和协定有什么提示吗？

Accepted Answer

我们没有关于合同的建议，由客户和配音员协定条款。但你应该确保发音人了解文本转语音的功能，包括其潜在风险，并在合同和口头声明中明确同意创建其声音的合成版本。请参阅针对配音员的披露内容。

Question 21

是否需要将配音员的书面许可返回给 Microsoft？

Accepted Answer

Microsoft 不需要书面许可，但你必须获得配音员的同意。配音员还需要录制同意声明，并且必须先将其上传到 Speech Studio 中，然后才能开始训练。请参阅为专业语音微调设置语音人才。

通过

常规

文本转语音是如何计费的？

文本转语音合成请求的速率限制是多少？

如何向最终用户披露语音是合成语音？

如何降低语音应用的延迟？

文本转语音支持哪些输出音频格式？

是否可以自定义语音以重读特定字词？

每种情绪是否可以有多种不同的强烈程度，比如悲伤、有点悲伤等？

视位 ID 和嘴形之间是否有对应关系？

音频内容创建

如何在代码中引用在“有声内容创作”平台上创建的词典文件？

专业语音微调

专业语音微调需要多少数据？

是否可以在同一组训练数据中包含重复的文本句子？

是否可以在同一组训练数据中包含多个风格？

通过 SSML 切换样式是否适用于自定义语音？

跨语言语音如何处理具有不同发音结构和组合的语言？

是否可以使用专业语音微调来自定义域的发音？

训练一次后，可以再次训练语音吗？

模型版本是否与引擎版本相同？

是否可以使用 Azure Policy 或其他功能限制训练次数？或者是否有任何方法可以避免错误训练？

Microsoft 是否可以添加一种机制，用于防止在创建语音时未经授权使用或滥用我们的语音？

关于与配音演员的合同和协定有什么提示吗？

是否需要将配音员的书面许可返回给 Microsoft？

后续步骤

通过

文本转语音常见问题解答

常规

文本转语音是如何计费的？

文本转语音合成请求的速率限制是多少？

如何向最终用户披露语音是合成语音？

如何降低语音应用的延迟？

文本转语音支持哪些输出音频格式？

是否可以自定义语音以重读特定字词？

每种情绪是否可以有多种不同的强烈程度，比如悲伤、有点悲伤等？

视位 ID 和嘴形之间是否有对应关系？

音频内容创建

如何在代码中引用在“有声内容创作”平台上创建的词典文件？

专业语音微调

专业语音微调需要多少数据？

是否可以在同一组训练数据中包含重复的文本句子？

是否可以在同一组训练数据中包含多个风格？

通过 SSML 切换样式是否适用于自定义语音？

跨语言语音如何处理具有不同发音结构和组合的语言？

是否可以使用专业语音微调来自定义域的发音？

训练一次后，可以再次训练语音吗？

模型版本是否与引擎版本相同？

是否可以使用 Azure Policy 或其他功能限制训练次数？ 或者是否有任何方法可以避免错误训练？

Microsoft 是否可以添加一种机制，用于防止在创建语音时未经授权使用或滥用我们的语音？

关于与配音演员的合同和协定有什么提示吗？

是否需要将配音员的书面许可返回给 Microsoft？

后续步骤

反馈

其他资源

是否可以使用 Azure Policy 或其他功能限制训练次数？或者是否有任何方法可以避免错误训练？