合成翻译

已完成

TranslationRecognizer 返回语音输入的翻译听录,实质上是将语音转换为文本。

还可以将翻译合成为语音,以创建语音转语音翻译解决方案。 可以通过以下两种方法实现此目的。

基于事件的合成

如果要执行一对一翻译(从一种源语言翻译成单种目标语言),可以使用基于事件的合成将翻译捕获为音频流。 若要实现此目的,需要:

在 TranslationConfig 中为翻译后的语音指定所需的语音。 为 TranslationRecognizer 对象的 Synthesizing 事件创建事件处理程序。 在事件处理程序中,使用 Result 参数的 GetAudio() 方法检索经过翻译的音频的字节流。 用于实现事件处理程序的特定代码因所使用的编程语言而异。 请参阅语音 SDK 文档中的 C# 示例和 Python 示例。

手动合成

手动合成是基于事件的合成的替代方法,无需实现事件处理程序。 可以使用手动合成为一种或多种目标语言生成音频翻译。

手动合成翻译实质上只是以下两个不同操作的组合:

  1. 使用 TranslationRecognizer 将语音输入翻译成一种或多种目标语言的文本转录。
  2. 在翻译操作结果中循环访问翻译字典,并使用 SpeechSynthesizer 合成每种语言的音频流。