你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

什么是语音翻译?

在本文中,你将了解使用 Azure AI 语音进行翻译的优势和功能。 语音服务支持音频流的实时多语言语音转语音和语音转文本翻译。

使用语音 SDK 或语音 CLI,可以为应用程序、工具和设备授予对提供音频的源听录和翻译输出的访问权限。 检测到语音时,会返回过渡性的听录和翻译结果,最终结果可以转换为合成语音。

有关语音翻译支持的语言列表,请参阅语言和语音支持

提示

前往 Speech Studio,以低延迟快速测试语音并将语音翻译为所选的其他语言。

核心功能

语音翻译的核心功能包括:

语音到文本的转换

语音服务的标准功能是能够接收指定源语言的输入音频流,并将其翻译为指定目标语言的文本并输出。

语音转语音翻译

作为上述功能的补充,语音服务还提供使用我们的大型预训练语音数据库大声朗读翻译文本的选项,从而实现输入语音的自然输出。

多语言语音翻译(预览版)

多语言语音翻译实现了一种新的语音翻译技术,可以解锁各种功能,包括没有指定的输入语言、在同一会话中处理语言切换以及支持将实时流翻译成英语。 这些功能提升了语音翻译的技术水平,你可在产品中加以应用。

  • 无指定输入语言。 多语言语音翻译可以接收多种语言的音频,并且无需指定具体的预期输入语言。
  • 语言切换。 多语言语音翻译允许在同一会话中出现多种语言,并将它们全部翻译成相同的目标语言。 更改输入语言或执行任何其他操作时,无需重启会话。
  • 听录。 该服务以指定的目标语言输出听录。 源语言听录尚不可用。

多语言语音翻译的一些用例包括:

  • 旅行翻译。 出国旅行时,多语言语音翻译能够创建一个解决方案,允许客户将任何输入音频翻译成当地语言或从当地语言翻译成本地语言。 这使他们能够与当地人交流并更好地了解周围的环境。
  • 商务会议。 在与使用不同语言的人开会时,多语言语音翻译可以让与会人员都能自然地沟通,好似没有语言障碍一样。

对于多语言语音翻译,语音服务可以自动检测输入的语言并在这些语言之间进行切换:阿拉伯语 (ar)、巴斯克语 (eu)、波斯尼亚语 (bs)、保加利亚语 (bg)、简体中文 (zh)、 繁体中文 (zhh)、捷克语 (cs)、丹麦语 (da)、荷兰语 (nl)、英语 (en)、爱沙尼亚语 (et)、芬兰语 (fi)、法语 (fr)、加利西亚语 (gl)、德语 (de) 、希腊语 (el)、印地语 (hi)、匈牙利语 (hu)、印度尼西亚语 (id)、意大利语 (it)、日语 (ja)、韩语 (ko)、拉脱维亚语 (lv)、立陶宛语 (lt)、马其顿语 (mk) , 挪威语 (nb)、波兰语 (pl)、葡萄牙语 (pt)、罗马尼亚语 (ro)、俄语 (ru)、塞尔维亚语 (sr)、斯洛伐克语 (sk)、斯洛文尼亚语 (sl)、西班牙语 (es)、瑞典语 (sv) 、泰语 (th)、土耳其语 (tr)、乌克兰语 (uk)、越南语 (vi) 和威尔士语 (cy)。

有关支持的输出(目标)语言的列表,请参阅语言和语音支持文档中的翻译为文本语言表。

有关多语言语音翻译的更多信息,请参阅 GitHub 上的语音翻译指南语音翻译示例

多个目标语言翻译

在需要多种语言的输出时,语音服务可以直接提供将输入语言翻译成两种目标语言的功能。 这样,他们就可以接收两个输出,并通过单个 API 调用将这些翻译共享给更广泛的受众。 如果需要更多输出语言,可以创建多服务资源或使用单独的翻译服务。

如果需要翻译成两种以上的目标语言,则需要创建多服务资源或针对第二种以外的更多语言使用单独的翻译服务。 如果选择使用多服务资源调用语音翻译服务,请注意,根据翻译的字符数,除第二种语言外,还需支付翻译费用。

若要计算应用的翻译费用,请参阅 Azure AI 翻译定价

多个目标语言翻译定价

请务必注意,语音翻译服务实时运行,在中间过程中,系统会翻译语音结果以生成翻译结果。 因此,实际翻译量大于输入音频的标记量。 需要支付每种目标语言的语音转文本听录和文本翻译费用。

例如,假设你需要将一小时音频文件的文本翻译为三种目标语言。 如果初始语音转文本听录包含 10,000 个字符,则你可能需支付 2.80 美元的费用。

警告

此示例中的价格仅用于说明目的。 有关最新的定价信息,请参阅 Azure AI 语音定价Azure AI 翻译定价

在上一个示例中,价格为 2.80 美元,是通过结合语音转文本听录和文本翻译成本计算得出。 计算方法如下:

  • 语音翻译标价为每小时 2.50 美元,涵盖最多 2 种目标语言。 价格用作如何计算成本的示例。 请参阅 Azure AI 语音定价表中的“按需付费”>“语音翻译”>“标准”,了解最新的定价信息。
  • 在此示例中,第三语言翻译的成本为 30 美分。 翻译标价为每百万字符 10 美元。 由于音频文件包含 10,000 个字符,因此翻译成本为 $10 * 10,000 / 1,000,000 * 3 = $0.3。 该等式中的数字“3”代表中间流量的加权系数,其可能根据所涉及的语言而异。 价格用作如何计算成本的示例。 请参阅 Azure AI 翻译定价表中的“即用即付”>“标准翻译”>“文本翻译”,了解最新的定价信息。

开始使用

首先,请尝试使用语音翻译快速入门。 语音翻译服务通过语音 SDK语音 CLI 提供。

可以在 GitHub 上找到 Speech SDK 语音转文本和翻译示例。 这些示例涵盖了常见方案,例如,从文件或流中读取音频、连续和单发识别和翻译,以及使用自定义模型。

后续步骤