如何辨識和翻譯語音

文章
10/16/2024

在此操作指南中，您將了解如何辨識人類語音，並將其翻譯為另一種語言。

請參閱語音翻譯概觀，以了解下列項目的詳細資訊：

翻譯語音轉換文字
將語音翻譯成多種目標語言
執行直接語音轉換語音翻譯

機密資料和環境變數

本文中的範例原始程式碼相依於儲存敏感性資料的環境變數，例如語音資源的索引碼和區域。 Program 類別包含兩個從主機電腦環境變數指派的 static readonly string 值：SPEECH__SUBSCRIPTION__KEY 和 SPEECH__SERVICE__REGION。這兩個欄位都在類別範圍內，所以可在類別的方法主體內存取：

public class Program
{
    static readonly string SPEECH__SUBSCRIPTION__KEY =
        Environment.GetEnvironmentVariable(nameof(SPEECH__SUBSCRIPTION__KEY));
    
    static readonly string SPEECH__SERVICE__REGION =
        Environment.GetEnvironmentVariable(nameof(SPEECH__SERVICE__REGION));

    static Task Main() => Task.CompletedTask;
}

如需有關環境變數的詳細資訊，請參閱環境變數和應用程式設定。

重要

如果您使用 API 金鑰，請將其安全地儲存在別處，例如 Azure Key Vault。請勿在程式碼中直接包含 API 金鑰，且切勿公開將其張貼。

如需 AI 服務安全性的詳細資訊，請參閱驗證對 Azure AI 服務的要求。

建立語音翻譯設定

若要使用語音 SDK 來呼叫語音服務，您必須建立 SpeechTranslationConfig 執行個體。此類別包含訂用帳戶的相關資訊，例如您的金鑰和關聯的區域、端點、主機或授權權杖。

提示

無論您是執行語音辨識、語音合成、翻譯還是意圖辨識，都一定會建立設定。

您有幾種方式可初始化 SpeechTranslationConfig：

使用訂用帳戶：傳入金鑰和相關聯的區域。
使用端點：傳入語音服務端點。金鑰或授權權杖是選用項目。
使用主機：傳入主機位址。金鑰或授權權杖是選用項目。
使用授權權杖：傳入授權權杖和相關聯的區域。

讓我們看看如何使用金鑰和區域來建立 SpeechTranslationConfig 執行個體。取得 Azure 入口網站中的語音資源金鑰和區域。

public class Program
{
    static readonly string SPEECH__SUBSCRIPTION__KEY =
        Environment.GetEnvironmentVariable(nameof(SPEECH__SUBSCRIPTION__KEY));
    
    static readonly string SPEECH__SERVICE__REGION =
        Environment.GetEnvironmentVariable(nameof(SPEECH__SERVICE__REGION));

    static Task Main() => TranslateSpeechAsync();

    static async Task TranslateSpeechAsync()
    {
        var speechTranslationConfig =
            SpeechTranslationConfig.FromSubscription(SPEECH__SUBSCRIPTION__KEY, SPEECH__SERVICE__REGION);
    }
}

變更來源語言

語音翻譯的其中一個常見工作是指定輸入 (或來源) 語言。下列範例示範如何將輸入語言變更為義大利文。在您的程式碼中，將 SpeechTranslationConfig 執行個體指派給 SpeechRecognitionLanguage 屬性以與其互動：

static async Task TranslateSpeechAsync()
{
    var speechTranslationConfig =
        SpeechTranslationConfig.FromSubscription(SPEECH__SUBSCRIPTION__KEY, SPEECH__SERVICE__REGION);

    // Source (input) language
    speechTranslationConfig.SpeechRecognitionLanguage = "it-IT";
}

SpeechRecognitionLanguage 屬性需要語言/地區設定格式字串。請參閱支援的語音翻譯地區設定清單。

新增翻譯語言

語音翻譯的另一個常見工作，是指定目標翻譯語言。至少需要一種語言，但可支援多種語言。下列程式碼片段會將法文和德文設定為翻譯語言目標：

static async Task TranslateSpeechAsync()
{
    var speechTranslationConfig =
        SpeechTranslationConfig.FromSubscription(SPEECH__SUBSCRIPTION__KEY, SPEECH__SERVICE__REGION);

    speechTranslationConfig.SpeechRecognitionLanguage = "it-IT";
    
    speechTranslationConfig.AddTargetLanguage("fr");
    speechTranslationConfig.AddTargetLanguage("de");
}

每次呼叫 AddTargetLanguage 時，會指定新的目標翻譯語言。換句話說，從來源語言辨識語音時，每個目標翻譯都可做為所產生翻譯作業的一部分。

將翻譯辨識器初始化

建立 SpeechTranslationConfig 執行個體之後，下一步是初始化 TranslationRecognizer。當您初始化 TranslationRecognizer 後，即必須將其傳入您的 speechTranslationConfig 執行個體。設定物件會提供語音服務驗證您要求所需的認證。

如果您要使用裝置的預設麥克風來辨識語音，TranslationRecognizer 執行個體看起來應像這樣：

static async Task TranslateSpeechAsync()
{
    var speechTranslationConfig =
        SpeechTranslationConfig.FromSubscription(SPEECH__SUBSCRIPTION__KEY, SPEECH__SERVICE__REGION);

    var fromLanguage = "en-US";
    var toLanguages = new List<string> { "it", "fr", "de" };
    speechTranslationConfig.SpeechRecognitionLanguage = fromLanguage;
    toLanguages.ForEach(speechTranslationConfig.AddTargetLanguage);

    using var translationRecognizer = new TranslationRecognizer(speechTranslationConfig);
}

如果您想要指定音訊輸入裝置，您即必須建立 AudioConfig 類別執行個體，並在初始化 TranslationRecognizer 時提供 audioConfig 參數。

提示

了解如何取得音訊輸入裝置的裝置識別碼。

首先，參考 AudioConfig 物件，如下所示：

static async Task TranslateSpeechAsync()
{
    var speechTranslationConfig =
        SpeechTranslationConfig.FromSubscription(SPEECH__SUBSCRIPTION__KEY, SPEECH__SERVICE__REGION);
    
    var fromLanguage = "en-US";
    var toLanguages = new List<string> { "it", "fr", "de" };
    speechTranslationConfig.SpeechRecognitionLanguage = fromLanguage;
    toLanguages.ForEach(speechTranslationConfig.AddTargetLanguage);

    using var audioConfig = AudioConfig.FromDefaultMicrophoneInput();
    using var translationRecognizer = new TranslationRecognizer(speechTranslationConfig, audioConfig);
}

如果您想要提供音訊檔案而非使用麥克風，您仍然需要提供 audioConfig 參數。不過，建立 AudioConfig 類別執行個體時，不要呼叫 FromDefaultMicrophoneInput，請呼叫 FromWavFileInput 並傳遞 filename 參數：

static async Task TranslateSpeechAsync()
{
    var speechTranslationConfig =
        SpeechTranslationConfig.FromSubscription(SPEECH__SUBSCRIPTION__KEY, SPEECH__SERVICE__REGION);
    
    var fromLanguage = "en-US";
    var toLanguages = new List<string> { "it", "fr", "de" };
    speechTranslationConfig.SpeechRecognitionLanguage = fromLanguage;
    toLanguages.ForEach(speechTranslationConfig.AddTargetLanguage);

    using var audioConfig = AudioConfig.FromWavFileInput("YourAudioFile.wav");
    using var translationRecognizer = new TranslationRecognizer(speechTranslationConfig, audioConfig);
}

翻譯語音

為了翻譯語音，語音 SDK 會依賴麥克風或音訊檔案輸入。語音翻譯之前會進行語音辨識。所有物件都初始化之後，請呼叫 recognize-once 函式並取得結果：

static async Task TranslateSpeechAsync()
{
    var speechTranslationConfig =
        SpeechTranslationConfig.FromSubscription(SPEECH__SUBSCRIPTION__KEY, SPEECH__SERVICE__REGION);
    
    var fromLanguage = "en-US";
    var toLanguages = new List<string> { "it", "fr", "de" };
    speechTranslationConfig.SpeechRecognitionLanguage = fromLanguage;
    toLanguages.ForEach(speechTranslationConfig.AddTargetLanguage);

    using var translationRecognizer = new TranslationRecognizer(speechTranslationConfig);

    Console.Write($"Say something in '{fromLanguage}' and ");
    Console.WriteLine($"we'll translate into '{string.Join("', '", toLanguages)}'.\n");
    
    var result = await translationRecognizer.RecognizeOnceAsync();
    if (result.Reason == ResultReason.TranslatedSpeech)
    {
        Console.WriteLine($"Recognized: \"{result.Text}\":");
        foreach (var element in result.Translations)
        {
            Console.WriteLine($"    TRANSLATED into '{element.Key}': {element.Value}");
        }
    }
}

如需語音轉換文字的詳細資訊，請參閱語音辨識的基本概念。

以事件為基礎的翻譯

TranslationRecognizer 物件會公開 Recognizing 事件。事件會引發數次，並提供中繼翻譯結果的擷取機制。

注意

當您使用多語語音翻譯時，就無法使用中繼翻譯結果。

下列範例會將中繼翻譯結果列印至主控台：

using (var audioInput = AudioConfig.FromWavFileInput(@"whatstheweatherlike.wav"))
{
    using (var translationRecognizer = new TranslationRecognizer(config, audioInput))
    {
        // Subscribes to events.
        translationRecognizer.Recognizing += (s, e) =>
        {
            Console.WriteLine($"RECOGNIZING in '{fromLanguage}': Text={e.Result.Text}");
            foreach (var element in e.Result.Translations)
            {
                Console.WriteLine($"    TRANSLATING into '{element.Key}': {element.Value}");
            }
        };

        translationRecognizer.Recognized += (s, e) => {
            if (e.Result.Reason == ResultReason.TranslatedSpeech)
            {
                Console.WriteLine($"RECOGNIZED in '{fromLanguage}': Text={e.Result.Text}");
                foreach (var element in e.Result.Translations)
                {
                    Console.WriteLine($"    TRANSLATED into '{element.Key}': {element.Value}");
                }
            }
            else if (e.Result.Reason == ResultReason.RecognizedSpeech)
            {
                Console.WriteLine($"RECOGNIZED: Text={e.Result.Text}");
                Console.WriteLine($"    Speech not translated.");
            }
            else if (e.Result.Reason == ResultReason.NoMatch)
            {
                Console.WriteLine($"NOMATCH: Speech could not be recognized.");
            }
        };

        // Starts continuous recognition. Uses StopContinuousRecognitionAsync() to stop recognition.
        Console.WriteLine("Start translation...");
        await translationRecognizer.StartContinuousRecognitionAsync().ConfigureAwait(false);

        // Waits for completion.
        // Use Task.WaitAny to keep the task rooted.
        Task.WaitAny(new[] { stopTranslation.Task });

        // Stops translation.
        await translationRecognizer.StopContinuousRecognitionAsync().ConfigureAwait(false);
    }
}

合成翻譯

成功進行語音辨識和翻譯之後，結果就會在字典中包含所有翻譯。 Translations 字典索引鍵是目標翻譯語言，而值是翻譯的文字。辨識的語音可能會進行翻譯，然後以不同的語言合成 (語音轉換語音)。

以事件為基礎的合成

TranslationRecognizer 物件會公開 Synthesizing 事件。事件會引發數次，並提供從翻譯辨識結果擷取合成音訊的機制。如果您要翻譯成多種語言，請參閱手動合成。

您可以指派 VoiceName 執行個體以指定合成語音，並提供 Synthesizing 事件的事件處理常式，以取得音訊。下列範例會將翻譯的音訊儲存為 .wav 檔案。

重要

以事件為基礎的合成僅適用於單一翻譯。「不要」新增多個目標翻譯語言。此外，VoiceName 值應該與目標翻譯語言的語言相同。例如，"de" 可對應到 "de-DE-Hedda"。

static async Task TranslateSpeechAsync()
{
    var speechTranslationConfig =
        SpeechTranslationConfig.FromSubscription(SPEECH__SUBSCRIPTION__KEY, SPEECH__SERVICE__REGION);
    
    var fromLanguage = "en-US";
    var toLanguage = "de";
    speechTranslationConfig.SpeechRecognitionLanguage = fromLanguage;
    speechTranslationConfig.AddTargetLanguage(toLanguage);

    speechTranslationConfig.VoiceName = "de-DE-Hedda";

    using var translationRecognizer = new TranslationRecognizer(speechTranslationConfig);

    translationRecognizer.Synthesizing += (_, e) =>
    {
        var audio = e.Result.GetAudio();
        Console.WriteLine($"Audio synthesized: {audio.Length:#,0} byte(s) {(audio.Length == 0 ? "(Complete)" : "")}");

        if (audio.Length > 0)
        {
            File.WriteAllBytes("YourAudioFile.wav", audio);
        }
    };

    Console.Write($"Say something in '{fromLanguage}' and ");
    Console.WriteLine($"we'll translate into '{toLanguage}'.\n");

    var result = await translationRecognizer.RecognizeOnceAsync();
    if (result.Reason == ResultReason.TranslatedSpeech)
    {
        Console.WriteLine($"Recognized: \"{result.Text}\"");
        Console.WriteLine($"Translated into '{toLanguage}': {result.Translations[toLanguage]}");
    }
}

手動合成

您可使用 Translations 字典從翻譯文字合成音訊。逐一查看每個翻譯並合成翻譯。建立 SpeechSynthesizer 執行個體時，SpeechConfig 物件必須將其 SpeechSynthesisVoiceName 屬性設定為所需的語音。

下列範例會翻譯成五種語言。每個翻譯都會使用對應類神經語言合成一個音訊檔案。

static async Task TranslateSpeechAsync()
{
    var speechTranslationConfig =
        SpeechTranslationConfig.FromSubscription(SPEECH__SERVICE__KEY, SPEECH__SERVICE__REGION);

    var fromLanguage = "en-US";
    var toLanguages = new List<string> { "de", "en", "it", "pt", "zh-Hans" };
    speechTranslationConfig.SpeechRecognitionLanguage = fromLanguage;
    toLanguages.ForEach(speechTranslationConfig.AddTargetLanguage);

    using var translationRecognizer = new TranslationRecognizer(speechTranslationConfig);

    Console.Write($"Say something in '{fromLanguage}' and ");
    Console.WriteLine($"we'll translate into '{string.Join("', '", toLanguages)}'.\n");

    var result = await translationRecognizer.RecognizeOnceAsync();
    if (result.Reason == ResultReason.TranslatedSpeech)
    {
        var languageToVoiceMap = new Dictionary<string, string>
        {
            ["de"] = "de-DE-KatjaNeural",
            ["en"] = "en-US-AriaNeural",
            ["it"] = "it-IT-ElsaNeural",
            ["pt"] = "pt-BR-FranciscaNeural",
            ["zh-Hans"] = "zh-CN-XiaoxiaoNeural"
        };

        Console.WriteLine($"Recognized: \"{result.Text}\"");

        foreach (var (language, translation) in result.Translations)
        {
            Console.WriteLine($"Translated into '{language}': {translation}");

            var speechConfig =
                SpeechConfig.FromSubscription(
                    SPEECH__SERVICE__KEY, SPEECH__SERVICE__REGION);
            speechConfig.SpeechSynthesisVoiceName = languageToVoiceMap[language];

            using var audioConfig = AudioConfig.FromWavFileOutput($"{language}-translation.wav");
            using var speechSynthesizer = new SpeechSynthesizer(speechConfig, audioConfig);
            
            await speechSynthesizer.SpeakTextAsync(translation);
        }
    }
}

如需語音合成的詳細資訊，請參閱語音合成的基本概念。

使用語言識別的多語言翻譯

在許多案例中，您可能不知道要指定哪些輸入語言。使用語言識別可讓您指定最多 10 種可能的輸入語言，並自動翻譯成您的目標語言。

以下範例預期會偵測到 en-US 或 zh-CN，因為它們都在 AutoDetectSourceLanguageConfig 中定義。然後，會將此語音會翻譯為 de 和 fr，如 AddTargetLanguage() 呼叫中所指定。

speechTranslationConfig.AddTargetLanguage("de");
speechTranslationConfig.AddTargetLanguage("fr");
var autoDetectSourceLanguageConfig = AutoDetectSourceLanguageConfig.FromLanguages(new string[] { "en-US", "zh-CN" });
var translationRecognizer = new TranslationRecognizer(speechTranslationConfig, autoDetectSourceLanguageConfig, audioConfig);

如需完整的程式碼範例，請參閱語言識別。

沒有來源語言候選項目的多語語音翻譯

多語語音翻譯會實現新一層級的語音翻譯技術，可發揮各種功能，包括沒有指定的輸入語言，以及在相同工作階段中的語言切換處理。這些功能可實現新一層級的語音翻譯功能，您可將這些功能導入產品。

目前當使用語言識別碼搭配語音翻譯時，您必須從 v2 端點建立 SpeechTranslationConfig 物件。將字串 “YourServiceRegion” 取代為語音資源區域 (例如 “westus”)。將 "YourSubscriptionKey" 取代為語音資源金鑰。

var v2EndpointInString = String.Format("wss://{0}.stt.speech.microsoft.com/speech/universal/v2", "YourServiceRegion");
var v2EndpointUrl = new Uri(v2EndpointInString);
var speechTranslationConfig = SpeechTranslationConfig.FromEndpoint(v2EndpointUrl, "YourSubscriptionKey");

指定翻譯目標語言。以您選擇的語言取代。您可以新增更多行。

config.AddTargetLanguage("de");
config.AddTargetLanguage("fr");

多語語音翻譯的主要區別在於您不需要指定來源語言。這是因為該服務會自動偵測來源語言。使用 fromOpenRange 方法建立 AutoDetectSourceLanguageConfig 物件，讓該服務知道您想要使用多語語音翻譯，但不指定來源語言。

AutoDetectSourceLanguageConfig autoDetectSourceLanguageConfig = AutoDetectSourceLanguageConfig.fromOpenRange(); 
var translationRecognizer = new TranslationRecognizer(speechTranslationConfig, autoDetectSourceLanguageConfig, audioConfig);

如需使用語音 SDK 的完整程式碼範例，請參閱 GitHub 上的語音翻譯範例。

在語音翻譯中使用自訂翻譯

語音翻譯中的自訂翻譯功能與 Azure 自訂翻譯服務緊密整合，可讓您實現更精確且量身打造的翻譯。由於整合會直接運用 Azure 自訂翻譯服務的功能，您必須使用多服務資源，以確保完整功能集能夠正確運作。如需詳細指示，請參閱與為 Azure AI 服務建立多服務資源有關的指南。

此外，若要離線訓練自訂翻譯工具並取得「類別識別碼」，請參閱快速入門：建置、部署和使用自訂模型 - 自訂翻譯工具中提供的逐步指令碼。

// Creates an instance of a translation recognizer using speech translation configuration
// You should use the same subscription key, which you used to generate the custom model before.
// V2 endpoint is required for the “Custom Translation” feature. Example: "wss://westcentralus.stt.speech.microsoft.com/speech/universal/v2"

try (SpeechTranslationConfig config = SpeechTranslationConfig.fromEndpoint(URI.create(endpointUrl), speechSubscriptionKey)) {

            // Sets source and target language(s).
           ….

            // Set the category id
            config.setCustomModelCategoryId("yourCategoryId");

       ….
}

參考文件 | 套件 (NuGet) | GitHub 上的其他範例

在此操作指南中，您將了解如何辨識人類語音，並將其翻譯為另一種語言。

請參閱語音翻譯概觀，以了解下列項目的詳細資訊：

翻譯語音轉換文字
將語音翻譯成多種目標語言
執行直接語音轉換語音翻譯

機密資料和環境變數

本文中的範例原始程式碼相依於儲存敏感性資料的環境變數，例如語音資源的索引碼和區域。 C++ 程式碼檔案包含兩個從主機電腦環境變數指派的字串值：SPEECH__SUBSCRIPTION__KEY 和 SPEECH__SERVICE__REGION。這兩個欄位都在類別範圍內，所以可在類別的方法主體內存取：

auto SPEECH__SUBSCRIPTION__KEY = getenv("SPEECH__SUBSCRIPTION__KEY");
auto SPEECH__SERVICE__REGION = getenv("SPEECH__SERVICE__REGION");

如需有關環境變數的詳細資訊，請參閱環境變數和應用程式設定。

重要

如果您使用 API 金鑰，請將其安全地儲存在別處，例如 Azure Key Vault。請勿在程式碼中直接包含 API 金鑰，且切勿公開將其張貼。

如需 AI 服務安全性的詳細資訊，請參閱驗證對 Azure AI 服務的要求。

建立語音翻譯設定

提示

無論您是執行語音辨識、語音合成、翻譯還是意圖辨識，都一定會建立設定。

您有幾種方式可初始化 SpeechTranslationConfig：

使用訂用帳戶：傳入金鑰和相關聯的區域。
使用端點：傳入語音服務端點。金鑰或授權權杖是選用項目。
使用主機：傳入主機位址。金鑰或授權權杖是選用項目。
使用授權權杖：傳入授權權杖和相關聯的區域。

讓我們看看如何使用金鑰和區域來建立 SpeechTranslationConfig 執行個體。取得 Azure 入口網站中的語音資源金鑰和區域。

auto SPEECH__SUBSCRIPTION__KEY = getenv("SPEECH__SUBSCRIPTION__KEY");
auto SPEECH__SERVICE__REGION = getenv("SPEECH__SERVICE__REGION");

void translateSpeech() {
    auto speechTranslationConfig =
        SpeechTranslationConfig::FromSubscription(SPEECH__SUBSCRIPTION__KEY, SPEECH__SERVICE__REGION);
}

int main(int argc, char** argv) {
    setlocale(LC_ALL, "");
    translateSpeech();
    return 0;
}

變更來源語言

語音翻譯的其中一個常見工作是指定輸入 (或來源) 語言。下列範例示範如何將輸入語言變更為義大利文。在您的程式碼中，呼叫 SetSpeechRecognitionLanguage 方法藉以與 SpeechTranslationConfig 執行個體進行互動。

void translateSpeech() {
    auto speechTranslationConfig =
        SpeechTranslationConfig::FromSubscription(SPEECH__SUBSCRIPTION__KEY, SPEECH__SERVICE__REGION);

    // Source (input) language
    speechTranslationConfig->SetSpeechRecognitionLanguage("it-IT");
}

SpeechRecognitionLanguage 屬性需要語言/地區設定格式字串。請參閱支援的語音翻譯地區設定清單。

新增翻譯語言

語音翻譯的另一個常見工作，是指定目標翻譯語言。至少需要一種語言，但可支援多種語言。下列程式碼片段會將法文和德文設定為翻譯語言目標：

void translateSpeech() {
    auto speechTranslationConfig =
        SpeechTranslationConfig::FromSubscription(SPEECH__SUBSCRIPTION__KEY, SPEECH__SERVICE__REGION);

    speechTranslationConfig->SetSpeechRecognitionLanguage("it-IT");

    speechTranslationConfig->AddTargetLanguage("fr");
    speechTranslationConfig->AddTargetLanguage("de");
}

每次呼叫 AddTargetLanguage 時，會指定新的目標翻譯語言。換句話說，從來源語言辨識語音時，每個目標翻譯都可做為所產生翻譯作業的一部分。

將翻譯辨識器初始化

建立 SpeechTranslationConfig 執行個體之後，下一步是初始化 TranslationRecognizer。當您初始化 TranslationRecognizer 後，即必須將其傳入您的 translationConfig 執行個體。設定物件會提供語音服務驗證您要求所需的認證。

如果您要使用裝置的預設麥克風來辨識語音，則 TranslationRecognizer 看起來應像這樣：

void translateSpeech() {
    auto speechTranslationConfig =
        SpeechTranslationConfig::FromSubscription(SPEECH__SUBSCRIPTION__KEY, SPEECH__SERVICE__REGION);

    auto fromLanguage = "en-US";
    auto toLanguages = { "it", "fr", "de" };
    speechTranslationConfig->SetSpeechRecognitionLanguage(fromLanguage);
    for (auto language : toLanguages) {
        speechTranslationConfig->AddTargetLanguage(language);
    }

    auto translationRecognizer = TranslationRecognizer::FromConfig(translationConfig);
}

如果您想要指定音訊輸入裝置，您即必須建立 AudioConfig 類別執行個體，並在初始化 TranslationRecognizer 時提供 audioConfig 參數。

提示

了解如何取得音訊輸入裝置的裝置識別碼。

首先，參考 AudioConfig 物件，如下所示：

void translateSpeech() {
    auto speechTranslationConfig =
        SpeechTranslationConfig::FromSubscription(SPEECH__SUBSCRIPTION__KEY, SPEECH__SERVICE__REGION);

    auto fromLanguage = "en-US";
    auto toLanguages = { "it", "fr", "de" };
    speechTranslationConfig->SetSpeechRecognitionLanguage(fromLanguage);
    for (auto language : toLanguages) {
        speechTranslationConfig->AddTargetLanguage(language);
    }

    auto audioConfig = AudioConfig::FromDefaultMicrophoneInput();
    auto translationRecognizer = TranslationRecognizer::FromConfig(translationConfig, audioConfig);
}

void translateSpeech() {
    auto speechTranslationConfig =
        SpeechTranslationConfig::FromSubscription(SPEECH__SUBSCRIPTION__KEY, SPEECH__SERVICE__REGION);

    auto fromLanguage = "en-US";
    auto toLanguages = { "it", "fr", "de" };
    speechTranslationConfig->SetSpeechRecognitionLanguage(fromLanguage);
    for (auto language : toLanguages) {
        speechTranslationConfig->AddTargetLanguage(language);
    }

    auto audioConfig = AudioConfig::FromWavFileInput("YourAudioFile.wav");
    auto translationRecognizer = TranslationRecognizer::FromConfig(translationConfig, audioConfig);
}

翻譯語音

為了翻譯語音，語音 SDK 會依賴麥克風或音訊檔案輸入。語音翻譯之前會進行語音辨識。所有物件都初始化之後，請呼叫 recognize-once 函式並取得結果：

void translateSpeech() {
    auto speechTranslationConfig =
        SpeechTranslationConfig::FromSubscription(SPEECH__SUBSCRIPTION__KEY, SPEECH__SERVICE__REGION);

    string fromLanguage = "en-US";
    string toLanguages[3] = { "it", "fr", "de" };
    speechTranslationConfig->SetSpeechRecognitionLanguage(fromLanguage);
    for (auto language : toLanguages) {
        speechTranslationConfig->AddTargetLanguage(language);
    }

    auto translationRecognizer = TranslationRecognizer::FromConfig(translationConfig);
    cout << "Say something in '" << fromLanguage << "' and we'll translate...\n";

    auto result = translationRecognizer->RecognizeOnceAsync().get();
    if (result->Reason == ResultReason::TranslatedSpeech)
    {
        cout << "Recognized: \"" << result->Text << "\"" << std::endl;
        for (auto pair : result->Translations)
        {
            auto language = pair.first;
            auto translation = pair.second;
            cout << "Translated into '" << language << "': " << translation << std::endl;
        }
    }
}

如需語音轉換文字的詳細資訊，請參閱語音辨識的基本概念。

合成翻譯

以事件為基礎的合成

您可以指派 SetVoiceName 執行個體以指定合成語音，並提供 Synthesizing 事件的事件處理常式，以取得音訊。下列範例會將翻譯的音訊儲存為 .wav 檔案。

重要

以事件為基礎的合成僅適用於單一翻譯。「不要」新增多個目標翻譯語言。此外，SetVoiceName 值應該與目標翻譯語言的語言相同。例如，"de" 可對應到 "de-DE-Hedda"。

void translateSpeech() {
    auto speechTranslationConfig =
        SpeechTranslationConfig::FromSubscription(SPEECH__SUBSCRIPTION__KEY, SPEECH__SERVICE__REGION);

    auto fromLanguage = "en-US";
    auto toLanguage = "de";
    speechTranslationConfig->SetSpeechRecognitionLanguage(fromLanguage);
    speechTranslationConfig->AddTargetLanguage(toLanguage);

    speechTranslationConfig->SetVoiceName("de-DE-Hedda");

    auto translationRecognizer = TranslationRecognizer::FromConfig(translationConfig);
    translationRecognizer->Synthesizing.Connect([](const TranslationSynthesisEventArgs& e)
        {
            auto audio = e.Result->Audio;
            auto size = audio.size();
            cout << "Audio synthesized: " << size << " byte(s)" << (size == 0 ? "(COMPLETE)" : "") << std::endl;

            if (size > 0) {
                ofstream file("translation.wav", ios::out | ios::binary);
                auto audioData = audio.data();
                file.write((const char*)audioData, sizeof(audio[0]) * size);
                file.close();
            }
        });

    cout << "Say something in '" << fromLanguage << "' and we'll translate...\n";

    auto result = translationRecognizer->RecognizeOnceAsync().get();
    if (result->Reason == ResultReason::TranslatedSpeech)
    {
        cout << "Recognized: \"" << result->Text << "\"" << std::endl;
        for (auto pair : result->Translations)
        {
            auto language = pair.first;
            auto translation = pair.second;
            cout << "Translated into '" << language << "': " << translation << std::endl;
        }
    }
}

手動合成

您可使用 Translations 字典從翻譯文字合成音訊。逐一查看每個翻譯並合成翻譯。建立 SpeechSynthesizer 執行個體時，SpeechConfig 物件必須將其 SetSpeechSynthesisVoiceName 屬性設定為所需的語音。

下列範例會翻譯成五種語言。每個翻譯都會使用對應類神經語言合成一個音訊檔案。

void translateSpeech() {
    auto speechTranslationConfig =
        SpeechTranslationConfig::FromSubscription(SPEECH__SUBSCRIPTION__KEY, SPEECH__SERVICE__REGION);

    auto fromLanguage = "en-US";
    auto toLanguages = { "de", "en", "it", "pt", "zh-Hans" };
    speechTranslationConfig->SetSpeechRecognitionLanguage(fromLanguage);
    for (auto language : toLanguages) {
        speechTranslationConfig->AddTargetLanguage(language);
    }

    auto translationRecognizer = TranslationRecognizer::FromConfig(translationConfig);

    cout << "Say something in '" << fromLanguage << "' and we'll translate...\n";

    auto result = translationRecognizer->RecognizeOnceAsync().get();
    if (result->Reason == ResultReason::TranslatedSpeech)
    {
        map<string, string> languageToVoiceMap;
        languageToVoiceMap["de"] = "de-DE-KatjaNeural";
        languageToVoiceMap["en"] = "en-US-AriaNeural";
        languageToVoiceMap["it"] = "it-IT-ElsaNeural";
        languageToVoiceMap["pt"] = "pt-BR-FranciscaNeural";
        languageToVoiceMap["zh-Hans"] = "zh-CN-XiaoxiaoNeural";

        cout << "Recognized: \"" << result->Text << "\"" << std::endl;
        for (auto pair : result->Translations)
        {
            auto language = pair.first;
            auto translation = pair.second;
            cout << "Translated into '" << language << "': " << translation << std::endl;

            auto speechConfig =
                SpeechConfig::FromSubscription(SPEECH__SUBSCRIPTION__KEY, SPEECH__SERVICE__REGION);
            speechConfig->SetSpeechSynthesisVoiceName(languageToVoiceMap[language]);

            auto audioConfig = AudioConfig::FromWavFileOutput(language + "-translation.wav");
            auto speechSynthesizer = SpeechSynthesizer::FromConfig(speechConfig, audioConfig);

            speechSynthesizer->SpeakTextAsync(translation).get();
        }
    }
}

如需語音合成的詳細資訊，請參閱語音合成的基本概念。

使用語言識別的多語言翻譯

在許多案例中，您可能不知道要指定哪些輸入語言。使用語言識別可讓您指定最多 10 種可能的輸入語言，並自動翻譯成您的目標語言。

以下範例預期會偵測到 en-US 或 zh-CN，因為它們都在 AutoDetectSourceLanguageConfig 中定義。然後，語音將會翻譯為 de 和 fr，如 AddTargetLanguage() 呼叫中所指定。

speechTranslationConfig->AddTargetLanguage("de");
speechTranslationConfig->AddTargetLanguage("fr");
auto autoDetectSourceLanguageConfig = AutoDetectSourceLanguageConfig::FromLanguages({ "en-US", "zh-CN" });
auto translationRecognizer = TranslationRecognizer::FromConfig(speechTranslationConfig, autoDetectSourceLanguageConfig, audioConfig);

如需完整的程式碼範例，請參閱語言識別。

參考文件 | 套件 (Go) | GitHub 上的其他範例

適用於 Go 的語音 SDK 不支援語音翻譯。請選取其他程式設計語言，或本文開頭的 Go 參考和樣本連結。

參考文件 | GitHub 上的其他範例

在此操作指南中，您將了解如何辨識人類語音，並將其翻譯為另一種語言。

請參閱語音翻譯概觀，以了解下列項目的詳細資訊：

翻譯語音轉換文字
將語音翻譯成多種目標語言
執行直接語音轉換語音翻譯

機密資料和環境變數

本文中的範例原始程式碼相依於儲存敏感性資料的環境變數，例如語音資源的索引碼和區域。 Java 程式碼檔案包含兩個從主機電腦環境變數指派的 static final String 值：SPEECH__SUBSCRIPTION__KEY 和 SPEECH__SERVICE__REGION。這兩個欄位都在類別範圍內，所以可在類別的方法主體內存取：

public class App {

    static final String SPEECH__SUBSCRIPTION__KEY = System.getenv("SPEECH__SUBSCRIPTION__KEY");
    static final String SPEECH__SERVICE__REGION = System.getenv("SPEECH__SERVICE__REGION");

    public static void main(String[] args) { }
}

如需有關環境變數的詳細資訊，請參閱環境變數和應用程式設定。

重要

如果您使用 API 金鑰，請將其安全地儲存在別處，例如 Azure Key Vault。請勿在程式碼中直接包含 API 金鑰，且切勿公開將其張貼。

如需 AI 服務安全性的詳細資訊，請參閱驗證對 Azure AI 服務的要求。

建立語音翻譯設定

提示

無論您是執行語音辨識、語音合成、翻譯還是意圖辨識，都一定會建立設定。

您有幾種方法可以初始化 SpeechTranslationConfig 執行個體：

使用訂用帳戶：傳入金鑰和相關聯的區域。
使用端點：傳入語音服務端點。金鑰或授權權杖是選用項目。
使用主機：傳入主機位址。金鑰或授權權杖是選用項目。
使用授權權杖：傳入授權權杖和相關聯的區域。

讓我們看看如何使用金鑰和區域來建立 SpeechTranslationConfig 執行個體。取得 Azure 入口網站中的語音資源金鑰和區域。

public class App {

    static final String SPEECH__SUBSCRIPTION__KEY = System.getenv("SPEECH__SERVICE__KEY");
    static final String SPEECH__SERVICE__REGION = System.getenv("SPEECH__SERVICE__REGION");

    public static void main(String[] args) {
        try {
            translateSpeech();
            System.exit(0);
        } catch (Exception ex) {
            System.out.println(ex);
            System.exit(1);
        }
    }

    static void translateSpeech() {
        SpeechTranslationConfig speechTranslationConfig = SpeechTranslationConfig.fromSubscription(
            SPEECH__SUBSCRIPTION__KEY, SPEECH__SERVICE__REGION);
    }
}

變更來源語言

語音翻譯的其中一個常見工作是指定輸入 (或來源) 語言。下列範例示範如何將輸入語言變更為義大利文。在您的程式碼中，呼叫 setSpeechRecognitionLanguage 方法藉以與 SpeechTranslationConfig 執行個體進行互動：

static void translateSpeech() {
    SpeechTranslationConfig speechTranslationConfig = SpeechTranslationConfig.fromSubscription(
        SPEECH__SUBSCRIPTION__KEY, SPEECH__SERVICE__REGION);
    
    // Source (input) language
    speechTranslationConfig.setSpeechRecognitionLanguage("it-IT");
}

setSpeechRecognitionLanguage 函式需要語言/地區設定格式字串。請參閱支援的語音翻譯地區設定清單。

新增翻譯語言

語音翻譯的另一個常見工作，是指定目標翻譯語言。至少需要一種語言，但可支援多種語言。下列程式碼片段會將法文和德文設定為翻譯語言目標：

static void translateSpeech() {
    SpeechTranslationConfig speechTranslationConfig = SpeechTranslationConfig.fromSubscription(
        SPEECH__SUBSCRIPTION__KEY, SPEECH__SERVICE__REGION);
    
    speechTranslationConfig.setSpeechRecognitionLanguage("it-IT");

    // Translate to languages. See https://aka.ms/speech/sttt-languages
    speechTranslationConfig.addTargetLanguage("fr");
    speechTranslationConfig.addTargetLanguage("de");
}

每次呼叫 addTargetLanguage 時，會指定新的目標翻譯語言。換句話說，從來源語言辨識語音時，每個目標翻譯都可做為所產生翻譯作業的一部分。

將翻譯辨識器初始化

如果您要使用裝置的預設麥克風來辨識語音，則 TranslationRecognizer 看起來應像這樣：

static void translateSpeech() {
    SpeechTranslationConfig speechTranslationConfig = SpeechTranslationConfig.fromSubscription(
        SPEECH__SUBSCRIPTION__KEY, SPEECH__SERVICE__REGION);
    
    String fromLanguage = "en-US";
    String[] toLanguages = { "it", "fr", "de" };
    speechTranslationConfig.setSpeechRecognitionLanguage(fromLanguage);
    for (String language : toLanguages) {
        speechTranslationConfig.addTargetLanguage(language);
    }

    try (TranslationRecognizer translationRecognizer = new TranslationRecognizer(speechTranslationConfig)) {
    }
}

如果您想要指定音訊輸入裝置，您即必須建立 AudioConfig 類別執行個體，並在初始化 TranslationRecognizer 時提供 audioConfig 參數。

提示

了解如何取得音訊輸入裝置的裝置識別碼。

首先，參考 AudioConfig 物件，如下所示：

static void translateSpeech() {
    SpeechTranslationConfig speechTranslationConfig = SpeechTranslationConfig.fromSubscription(
        SPEECH__SUBSCRIPTION__KEY, SPEECH__SERVICE__REGION);
    
    String fromLanguage = "en-US";
    String[] toLanguages = { "it", "fr", "de" };
    speechTranslationConfig.setSpeechRecognitionLanguage(fromLanguage);
    for (String language : toLanguages) {
        speechTranslationConfig.addTargetLanguage(language);
    }

    AudioConfig audioConfig = AudioConfig.fromDefaultMicrophoneInput();
    try (TranslationRecognizer translationRecognizer = new TranslationRecognizer(speechTranslationConfig, audioConfig)) {
        
    }
}

如果您想要提供音訊檔案而非使用麥克風，您仍然需要提供 audioConfig 參數。不過，建立 AudioConfig 類別執行個體時，不要呼叫 fromDefaultMicrophoneInput，請呼叫 fromWavFileInput 並傳遞 filename 參數：

static void translateSpeech() {
    SpeechTranslationConfig speechTranslationConfig = SpeechTranslationConfig.fromSubscription(
        SPEECH__SUBSCRIPTION__KEY, SPEECH__SERVICE__REGION);
    
    String fromLanguage = "en-US";
    String[] toLanguages = { "it", "fr", "de" };
    speechTranslationConfig.setSpeechRecognitionLanguage(fromLanguage);
    for (String language : toLanguages) {
        speechTranslationConfig.addTargetLanguage(language);
    }

    AudioConfig audioConfig = AudioConfig.fromWavFileInput("YourAudioFile.wav");
    try (TranslationRecognizer translationRecognizer = new TranslationRecognizer(speechTranslationConfig, audioConfig)) {
        
    }
}

翻譯語音

為了翻譯語音，語音 SDK 會依賴麥克風或音訊檔案輸入。語音翻譯之前會進行語音辨識。所有物件都初始化之後，請呼叫 recognize-once 函式並取得結果：

static void translateSpeech() throws ExecutionException, InterruptedException {
    SpeechTranslationConfig speechTranslationConfig = SpeechTranslationConfig.fromSubscription(
        SPEECH__SUBSCRIPTION__KEY, SPEECH__SERVICE__REGION);
    
    String fromLanguage = "en-US";
    String[] toLanguages = { "it", "fr", "de" };
    speechTranslationConfig.setSpeechRecognitionLanguage(fromLanguage);
    for (String language : toLanguages) {
        speechTranslationConfig.addTargetLanguage(language);
    }

    try (TranslationRecognizer translationRecognizer = new TranslationRecognizer(speechTranslationConfig)) {
        System.out.printf("Say something in '%s' and we'll translate...", fromLanguage);

        TranslationRecognitionResult translationRecognitionResult = translationRecognizer.recognizeOnceAsync().get();
        if (translationRecognitionResult.getReason() == ResultReason.TranslatedSpeech) {
            System.out.printf("Recognized: \"%s\"\n", translationRecognitionResult.getText());
            for (Map.Entry<String, String> pair : translationRecognitionResult.getTranslations().entrySet()) {
                System.out.printf("Translated into '%s': %s\n", pair.getKey(), pair.getValue());
            }
        }
    }
}

如需語音轉換文字的詳細資訊，請參閱語音辨識的基本概念。

合成翻譯

成功進行語音辨識和翻譯之後，結果就會在字典中包含所有翻譯。 getTranslations 函式會傳回字典，並以索引鍵為目標翻譯語言，而值則是翻譯的文字。辨識的語音可能會進行翻譯，然後以不同的語言合成 (語音轉換語音)。

以事件為基礎的合成

TranslationRecognizer 物件會公開 synthesizing 事件。事件會引發數次，並提供從翻譯辨識結果擷取合成音訊的機制。如果您要翻譯成多種語言，請參閱手動合成。

您可以指派 setVoiceName 執行個體以指定合成語音，並提供 synthesizing 事件的事件處理常式，以取得音訊。下列範例會將翻譯的音訊儲存為 .wav 檔案。

重要

以事件為基礎的合成僅適用於單一翻譯。「不要」新增多個目標翻譯語言。此外，setVoiceName 值應該與目標翻譯語言的語言相同。例如，"de" 可對應到 "de-DE-Hedda"。

static void translateSpeech() throws ExecutionException, FileNotFoundException, InterruptedException, IOException {
    SpeechTranslationConfig speechTranslationConfig = SpeechTranslationConfig.fromSubscription(
        SPEECH__SUBSCRIPTION__KEY, SPEECH__SERVICE__REGION);

    String fromLanguage = "en-US";
    String toLanguage = "de";
    speechTranslationConfig.setSpeechRecognitionLanguage(fromLanguage);
    speechTranslationConfig.addTargetLanguage(toLanguage);

    // See: https://aka.ms/speech/sdkregion#standard-and-neural-voices
    speechTranslationConfig.setVoiceName("de-DE-Hedda");

    try (TranslationRecognizer translationRecognizer = new TranslationRecognizer(speechTranslationConfig)) {
        translationRecognizer.synthesizing.addEventListener((s, e) -> {
            byte[] audio = e.getResult().getAudio();
            int size = audio.length;
            System.out.println("Audio synthesized: " + size + " byte(s)" + (size == 0 ? "(COMPLETE)" : ""));

            if (size > 0) {
                try (FileOutputStream file = new FileOutputStream("translation.wav")) {
                    file.write(audio);
                } catch (IOException ex) {
                    ex.printStackTrace();
                }
            }
        });

        System.out.printf("Say something in '%s' and we'll translate...", fromLanguage);

        TranslationRecognitionResult translationRecognitionResult = translationRecognizer.recognizeOnceAsync().get();
        if (translationRecognitionResult.getReason() == ResultReason.TranslatedSpeech) {
            System.out.printf("Recognized: \"%s\"\n", translationRecognitionResult.getText());
            for (Map.Entry<String, String> pair : translationRecognitionResult.getTranslations().entrySet()) {
                String language = pair.getKey();
                String translation = pair.getValue();
                System.out.printf("Translated into '%s': %s\n", language, translation);
            }
        }
    }
}

手動合成

getTranslations 函式會傳回可用來從翻譯文字合成音訊的字典。逐一查看每個翻譯並合成翻譯。建立 SpeechSynthesizer 執行個體時，SpeechConfig 物件必須將其 setSpeechSynthesisVoiceName 屬性設定為所需的語音。

下列範例會翻譯成五種語言。每個翻譯都會使用對應類神經語言合成一個音訊檔案。

static void translateSpeech() throws ExecutionException, InterruptedException {
    SpeechTranslationConfig speechTranslationConfig = SpeechTranslationConfig.fromSubscription(
        SPEECH__SUBSCRIPTION__KEY, SPEECH__SERVICE__REGION);
    
    String fromLanguage = "en-US";
    String[] toLanguages = { "de", "en", "it", "pt", "zh-Hans" };
    speechTranslationConfig.setSpeechRecognitionLanguage(fromLanguage);
    for (String language : toLanguages) {
        speechTranslationConfig.addTargetLanguage(language);
    }

    try (TranslationRecognizer translationRecognizer = new TranslationRecognizer(speechTranslationConfig)) {
        System.out.printf("Say something in '%s' and we'll translate...", fromLanguage);

        TranslationRecognitionResult translationRecognitionResult = translationRecognizer.recognizeOnceAsync().get();
        if (translationRecognitionResult.getReason() == ResultReason.TranslatedSpeech) {
            // See: https://aka.ms/speech/sdkregion#standard-and-neural-voices
            Map<String, String> languageToVoiceMap = new HashMap<String, String>();
            languageToVoiceMap.put("de", "de-DE-KatjaNeural");
            languageToVoiceMap.put("en", "en-US-AriaNeural");
            languageToVoiceMap.put("it", "it-IT-ElsaNeural");
            languageToVoiceMap.put("pt", "pt-BR-FranciscaNeural");
            languageToVoiceMap.put("zh-Hans", "zh-CN-XiaoxiaoNeural");

            System.out.printf("Recognized: \"%s\"\n", translationRecognitionResult.getText());
            for (Map.Entry<String, String> pair : translationRecognitionResult.getTranslations().entrySet()) {
                String language = pair.getKey();
                String translation = pair.getValue();
                System.out.printf("Translated into '%s': %s\n", language, translation);

                SpeechConfig speechConfig =
                    SpeechConfig.fromSubscription(SPEECH__SUBSCRIPTION__KEY, SPEECH__SERVICE__REGION);
                speechConfig.setSpeechSynthesisVoiceName(languageToVoiceMap.get(language));

                AudioConfig audioConfig = AudioConfig.fromWavFileOutput(language + "-translation.wav");
                try (SpeechSynthesizer speechSynthesizer = new SpeechSynthesizer(speechConfig, audioConfig)) {
                    speechSynthesizer.SpeakTextAsync(translation).get();
                }
            }
        }
    }
}

如需語音合成的詳細資訊，請參閱語音合成的基本概念。

參考文件 | 套件 (npm) | GitHub 上的其他範例 | 程式庫原始程式碼

在此操作指南中，您將了解如何辨識人類語音，並將其翻譯為另一種語言。

請參閱語音翻譯概觀，以了解下列項目的詳細資訊：

翻譯語音轉換文字
將語音翻譯成多種目標語言
執行直接語音轉換語音翻譯

建立翻譯設定

若要使用語音 SDK 來呼叫翻譯服務，您必須建立 SpeechTranslationConfig 執行個體。此類別包含訂用帳戶的相關資訊，例如您的金鑰和關聯的區域、端點、主機或授權權杖。

注意

無論您是執行語音辨識、語音合成、翻譯還是意圖辨識，都一定會建立設定。

您有幾種方式可初始化 SpeechTranslationConfig：

使用訂用帳戶：傳入金鑰和相關聯的區域。
使用端點：傳入語音服務端點。金鑰或授權權杖是選用項目。
使用主機：傳入主機位址。金鑰或授權權杖是選用項目。
使用授權權杖：傳入授權權杖和相關聯的區域。

讓我們看看如何使用金鑰和區域來建立 SpeechTranslationConfig 執行個體。取得 Azure 入口網站中的語音資源金鑰和區域。

const speechTranslationConfig = SpeechTranslationConfig.fromSubscription("YourSubscriptionKey", "YourServiceRegion");

將翻譯工具初始化

建立 SpeechTranslationConfig 執行個體之後，下一步是初始化 TranslationRecognizer。當您初始化 TranslationRecognizer 後，即必須將其傳入您的 speechTranslationConfig 執行個體。設定物件會提供翻譯服務驗證您要求所需的認證。

如果您要翻譯透過裝置預設麥克風提供的語音，則 TranslationRecognizer 應會顯示如下：

const translationRecognizer = new TranslationRecognizer(speechTranslationConfig);

如果您想要指定音訊輸入裝置，您即必須建立 AudioConfig 類別執行個體，並在初始化 TranslationRecognizer 時提供 audioConfig 參數。

提示

了解如何取得音訊輸入裝置的裝置識別碼。

參考 AudioConfig 物件，如下所示：

const audioConfig = AudioConfig.fromDefaultMicrophoneInput();
const translationRecognizer = new TranslationRecognizer(speechTranslationConfig, audioConfig);

如果您想要提供音訊檔案而非使用麥克風，您仍然需要提供 audioConfig 參數。不過，只有在以 Node.js 為目標時，才能執行此動作。建立 AudioConfig 類別執行個體時，不要呼叫 fromDefaultMicrophoneInput，請呼叫 fromWavFileOutput 並傳遞 filename 參數：

const audioConfig = AudioConfig.fromWavFileInput("YourAudioFile.wav");
const translationRecognizer = new TranslationRecognizer(speechTranslationConfig, audioConfig);

翻譯語音

適用於 JavaScript 的語音 SDK TranslationRecognizer 類別會公開一些可用於語音翻譯的方法：

「一次性翻譯 (非同步)」：在非封鎖 (非同步) 模式下執行翻譯。這會翻譯單一語句。透過聽取結束時的靜默，或在處理音訊達 15 秒的上限時，判斷單一語句的結尾。
「連續翻譯 (非同步)」：以非同步方式起始連續翻譯作業。使用者可註冊事件並處理各種應用程式狀態。若要停止非同步連續翻譯，請呼叫 stopContinuousRecognitionAsync。

若要深入了解如何選擇語音辨識模式，請參閱開始使用語音轉換文字。

指定目標語言

如需翻譯，您必須同時指定來源語言和至少一個目標語言。

您可以使用語音翻譯表中列出的地區設定來選擇來源語言。在相同的連結中尋找已翻譯語言的選項。

當您想要檢視文字或聆聽合成的翻譯語音時，目標語言的選項會有所不同。若要從英文翻譯為德文，請修改翻譯設定物件：

speechTranslationConfig.speechRecognitionLanguage = "en-US";
speechTranslationConfig.addTargetLanguage("de");

單次辨識

以下是透過 recognizeOnceAsync 進行的非同步一次性翻譯範例：

translationRecognizer.recognizeOnceAsync(result => {
    // Interact with result
});

您必須撰寫程式碼來處理結果。此範例會評估翻譯成德文的 result.reason：

translationRecognizer.recognizeOnceAsync(
  function (result) {
    let translation = result.translations.get("de");
    window.console.log(translation);
    translationRecognizer.close();
  },
  function (err) {
    window.console.log(err);
    translationRecognizer.close();
});

您的程式碼也可以處理進行翻譯時所提供的更新。您可以使用這些更新來提供翻譯進度的視覺化意見反應。這個 JavaScript Node.js 範例會顯示這些更新類型。下列程式碼也會顯示在翻譯過程期間所產生的詳細資料：

translationRecognizer.recognizing = function (s, e) {
    var str = ("(recognizing) Reason: " + SpeechSDK.ResultReason[e.result.reason] +
            " Text: " +  e.result.text +
            " Translation:");
    str += e.result.translations.get("de");
    console.log(str);
};
translationRecognizer.recognized = function (s, e) {
    var str = "\r\n(recognized)  Reason: " + SpeechSDK.ResultReason[e.result.reason] +
            " Text: " + e.result.text +
            " Translation:";
    str += e.result.translations.get("de");
    str += "\r\n";
    console.log(str);
};

連續翻譯

連續翻譯比一次性辨識略為複雜一些。您必須訂閱 recognizing、recognized 和 canceled 事件，才能取得辨識結果。若要停止翻譯，您必須呼叫 stopContinuousRecognitionAsync。

以下範例說明如何對音訊輸入檔執行連續翻譯。首先，我們要定義輸入並初始化 TranslationRecognizer：

const translationRecognizer = new TranslationRecognizer(speechTranslationConfig);

在下列程式碼中，您會訂閱從 TranslationRecognizer 傳送的事件：

recognizing：包含中繼翻譯結果的事件訊號。
recognized：包含最終翻譯結果的事件訊號。這些結果表示成功的翻譯嘗試。
sessionStopped：表示翻譯工作階段 (作業) 結束的事件訊號。
canceled：包含已取消翻譯結果的事件訊號。這些事件表示因直接取消而取消的翻譯嘗試。或者，這表示傳輸或通訊協定失敗。

translationRecognizer.recognizing = (s, e) => {
    console.log(`TRANSLATING: Text=${e.result.text}`);
};
translationRecognizer.recognized = (s, e) => {
    if (e.result.reason == ResultReason.RecognizedSpeech) {
        console.log(`TRANSLATED: Text=${e.result.text}`);
    }
    else if (e.result.reason == ResultReason.NoMatch) {
        console.log("NOMATCH: Speech could not be translated.");
    }
};
translationRecognizer.canceled = (s, e) => {
    console.log(`CANCELED: Reason=${e.reason}`);
    if (e.reason == CancellationReason.Error) {
        console.log(`"CANCELED: ErrorCode=${e.errorCode}`);
        console.log(`"CANCELED: ErrorDetails=${e.errorDetails}`);
        console.log("CANCELED: Did you set the speech resource key and region values?");
    }
    translationRecognizer.stopContinuousRecognitionAsync();
};
translationRecognizer.sessionStopped = (s, e) => {
    console.log("\n    Session stopped event.");
    translationRecognizer.stopContinuousRecognitionAsync();
};

完成所有設定後，您就可以呼叫 startContinuousRecognitionAsync：

// Starts continuous recognition. Uses stopContinuousRecognitionAsync() to stop recognition.
translationRecognizer.startContinuousRecognitionAsync();
// Something later can call. Stops recognition.
// translationRecognizer.StopContinuousRecognitionAsync();

選擇來源語言

語音翻譯的常見工作是指定輸入 (或來源) 語言。下列範例示範如何將輸入語言變更為義大利文。在您的程式碼中，尋找您的 SpeechTranslationConfig 執行個體，然後直接在其下方新增以下這一行：

speechTranslationConfig.speechRecognitionLanguage = "it-IT";

speechRecognitionLanguage 屬性需要語言/地區設定格式字串。請參閱支援的語音翻譯地區設定清單。

選擇一或多個目標語言

語音 SDK 可以平行翻譯成多個目標語言。可用的目標語言與來源語言清單稍有不同。您使用語言代碼指定目標語言，非使用地區設定。

在 [語言支援] 頁面上，查看語音翻譯表，以取得文字目標的語言代碼清單。您也可以在該處找到合成語言翻譯的詳細資料。

下列程式碼會將德文新增為目標語言：

speechTranslationConfig.addTargetLanguage("de");

因為可能會有多個目標語言翻譯，所以您的程式碼必須在檢查結果時指定目標語言。下列程式碼會取得德文的翻譯結果：

translationRecognizer.recognized = function (s, e) {
    var str = "\r\n(recognized)  Reason: " +
            sdk.ResultReason[e.result.reason] +
            " Text: " + e.result.text + " Translations:";
    var language = "de";
    str += " [" + language + "] " + e.result.translations.get(language);
    str += "\r\n";
    // show str somewhere
};

參考文件 | 套件 (下載) | GitHub 上的其他範例

適用於 Objective-C 的語音 SDK 支援語音翻譯，但我們尚未在此納入指南。請選取另一種程式設計語言來開始使用並了解概念，或參閱本文開頭連結的 Objective-C 參考和範例。

參考文件 | 套件 (下載) | GitHub 上的其他範例

適用於 Swift 的語音 SDK 支援語音翻譯，但我們尚未在此納入指南。請選取另一種程式設計語言來開始使用並了解概念，或參閱本文開頭連結的 Swift 參考和範例。

參考文件 | 套件 (PyPi) | GitHub 上的其他範例

在此操作指南中，您將了解如何辨識人類語音，並將其翻譯為另一種語言。

請參閱語音翻譯概觀，以了解下列項目的詳細資訊：

翻譯語音轉換文字
將語音翻譯成多種目標語言
執行直接語音轉換語音翻譯

機密資料和環境變數

本文中的範例原始程式碼相依於儲存機密資料的環境變數，例如語音資源的訂閱金鑰和區域。 Python 程式碼檔案包含兩個從主機電腦環境變數指派的值：SPEECH__SUBSCRIPTION__KEY 和 SPEECH__SERVICE__REGION。這兩個變數都位於全域範圍，因此可在程式碼檔案的函式定義中存取：

speech_key, service_region = os.environ['SPEECH__SUBSCRIPTION__KEY'], os.environ['SPEECH__SERVICE__REGION']

如需有關環境變數的詳細資訊，請參閱環境變數和應用程式設定。

重要

如果您使用 API 金鑰，請將其安全地儲存在別處，例如 Azure Key Vault。請勿在程式碼中直接包含 API 金鑰，且切勿公開將其張貼。

如需 AI 服務安全性的詳細資訊，請參閱驗證對 Azure AI 服務的要求。

建立語音翻譯設定

提示

無論您是執行語音辨識、語音合成、翻譯還是意圖辨識，都一定會建立設定。

您有幾種方式可初始化 SpeechTranslationConfig：

使用訂用帳戶：傳入金鑰和相關聯的區域。
使用端點：傳入語音服務端點。金鑰或授權權杖是選用項目。
使用主機：傳入主機位址。金鑰或授權權杖是選用項目。
使用授權權杖：傳入授權權杖和相關聯的區域。

讓我們看看您可如何使用金鑰和區域來建立 SpeechTranslationConfig 執行個體。取得 Azure 入口網站中的語音資源金鑰和區域。

from_language, to_language = 'en-US', 'de'

def translate_speech_to_text():
    translation_config = speechsdk.translation.SpeechTranslationConfig(
            subscription=speech_key, region=service_region)

變更來源語言

語音翻譯的其中一個常見工作是指定輸入 (或來源) 語言。下列範例示範如何將輸入語言變更為義大利文。在您的程式碼中，將 SpeechTranslationConfig 執行個體指派給 speech_recognition_language 屬性以與其互動。

def translate_speech_to_text():
    translation_config = speechsdk.translation.SpeechTranslationConfig(
            subscription=speech_key, region=service_region)

    # Source (input) language
    from_language = "it-IT"
    translation_config.speech_recognition_language = from_language

speech_recognition_language 屬性需要語言/地區設定格式字串。請參閱支援的語音翻譯地區設定清單。

新增翻譯語言

語音翻譯的另一個常見工作，是指定目標翻譯語言。至少需要一種語言，但可支援多種語言。下列程式碼片段會將法文和德文設定為翻譯語言目標：

def translate_speech_to_text():
    translation_config = speechsdk.translation.SpeechTranslationConfig(
            subscription=speech_key, region=service_region)

    translation_config.speech_recognition_language = "it-IT"

    # Translate to languages. See, https://aka.ms/speech/sttt-languages
    translation_config.add_target_language("fr")
    translation_config.add_target_language("de")

每次呼叫 add_target_language 時，會指定新的目標翻譯語言。換句話說，從來源語言辨識語音時，每個目標翻譯都可做為所產生翻譯作業的一部分。

將翻譯辨識器初始化

建立 SpeechTranslationConfig 執行個體之後，下一步是初始化 TranslationRecognizer。當您初始化 TranslationRecognizer 後，即必須將其傳入您的 translation_config 執行個體。設定物件會提供語音服務驗證您要求所需的認證。

如果您要使用裝置的預設麥克風來辨識語音，則 TranslationRecognizer 看起來應像這樣：

def translate_speech_to_text():
    translation_config = speechsdk.translation.SpeechTranslationConfig(
            subscription=speech_key, region=service_region)

    translation_config.speech_recognition_language = from_language
    translation_config.add_target_language(to_language)

    translation_recognizer = speechsdk.translation.TranslationRecognizer(
            translation_config=translation_config)

如果您想要指定音訊輸入裝置，您即必須建立 AudioConfig 類別執行個體，並在初始化 TranslationRecognizer 時提供 audio_config 參數。

提示

了解如何取得音訊輸入裝置的裝置識別碼。

首先，參考 AudioConfig 物件，如下所示：

def translate_speech_to_text():
    translation_config = speechsdk.translation.SpeechTranslationConfig(
            subscription=speech_key, region=service_region)

    translation_config.speech_recognition_language = from_language
    for lang in to_languages:
        translation_config.add_target_language(lang)

    audio_config = speechsdk.audio.AudioConfig(use_default_microphone=True)
    translation_recognizer = speechsdk.translation.TranslationRecognizer(
            translation_config=translation_config, audio_config=audio_config)

如果您想要提供音訊檔案而非使用麥克風，您仍然需要提供 audioConfig 參數。不過，當您建立 AudioConfig 類別執行個體時，不要使用 use_default_microphone=True 呼叫，而是使用 filename="path-to-file.wav" 呼叫並提供 filename 參數：

def translate_speech_to_text():
    translation_config = speechsdk.translation.SpeechTranslationConfig(
            subscription=speech_key, region=service_region)

    translation_config.speech_recognition_language = from_language
    for lang in to_languages:
        translation_config.add_target_language(lang)

    audio_config = speechsdk.audio.AudioConfig(filename="path-to-file.wav")
    translation_recognizer = speechsdk.translation.TranslationRecognizer(
            translation_config=translation_config, audio_config=audio_config)

翻譯語音

為了翻譯語音，語音 SDK 會依賴麥克風或音訊檔案輸入。語音翻譯之前會進行語音辨識。所有物件都初始化之後，請呼叫 recognize-once 函式並取得結果：

import os
import azure.cognitiveservices.speech as speechsdk

speech_key, service_region = os.environ['SPEECH__SERVICE__KEY'], os.environ['SPEECH__SERVICE__REGION']
from_language, to_languages = 'en-US', 'de'

def translate_speech_to_text():
    translation_config = speechsdk.translation.SpeechTranslationConfig(
            subscription=speech_key, region=service_region)

    translation_config.speech_recognition_language = from_language
    translation_config.add_target_language(to_language)

    translation_recognizer = speechsdk.translation.TranslationRecognizer(
            translation_config=translation_config)
    
    print('Say something...')
    translation_recognition_result = translation_recognizer.recognize_once()
    print(get_result_text(reason=translation_recognition_result.reason, result=translation_recognition_result))

def get_result_text(reason, translation_recognition_result):
    reason_format = {
        speechsdk.ResultReason.TranslatedSpeech:
            f'RECOGNIZED "{from_language}": {translation_recognition_result.text}\n' +
            f'TRANSLATED into "{to_language}"": {translation_recognition_result.translations[to_language]}',
        speechsdk.ResultReason.RecognizedSpeech: f'Recognized: "{translation_recognition_result.text}"',
        speechsdk.ResultReason.NoMatch: f'No speech could be recognized: {translation_recognition_result.no_match_details}',
        speechsdk.ResultReason.Canceled: f'Speech Recognition canceled: {translation_recognition_result.cancellation_details}'
    }
    return reason_format.get(reason, 'Unable to recognize speech')

translate_speech_to_text()

如需語音轉換文字的詳細資訊，請參閱語音辨識的基本概念。

合成翻譯

成功進行語音辨識和翻譯之後，結果就會在字典中包含所有翻譯。 translations 字典索引鍵是目標翻譯語言，而值是翻譯的文字。辨識的語音可能會進行翻譯，然後以不同的語言合成 (語音轉換語音)。

以事件為基礎的合成

您可以指派 voice_name 執行個體以指定合成語音，並提供 Synthesizing 事件的事件處理常式，以取得音訊。下列範例會將翻譯的音訊儲存為 .wav 檔案。

重要

以事件為基礎的合成僅適用於單一翻譯。「不要」新增多個目標翻譯語言。此外，voice_name 值應該與目標翻譯語言的語言相同。例如，"de" 可對應到 "de-DE-Hedda"。

import os
import azure.cognitiveservices.speech as speechsdk

speech_key, service_region = os.environ['SPEECH__SERVICE__KEY'], os.environ['SPEECH__SERVICE__REGION']
from_language, to_language = 'en-US', 'de'

def translate_speech_to_text():
    translation_config = speechsdk.translation.SpeechTranslationConfig(
            subscription=speech_key, region=service_region)

    translation_config.speech_recognition_language = from_language
    translation_config.add_target_language(to_language)

    # See: https://aka.ms/speech/sdkregion#standard-and-neural-voices
    translation_config.voice_name = "de-DE-Hedda"

    translation_recognizer = speechsdk.translation.TranslationRecognizer(
            translation_config=translation_config)

    def synthesis_callback(evt):
        size = len(evt.result.audio)
        print(f'Audio synthesized: {size} byte(s) {"(COMPLETED)" if size == 0 else ""}')

        if size > 0:
            file = open('translation.wav', 'wb+')
            file.write(evt.result.audio)
            file.close()

    translation_recognizer.synthesizing.connect(synthesis_callback)

    print(f'Say something in "{from_language}" and we\'ll translate into "{to_language}".')

    translation_recognition_result = translation_recognizer.recognize_once()
    print(get_result_text(reason=translation_recognition_result.reason, result=translation_recognition_result))

def get_result_text(reason, translation_recognition_result):
    reason_format = {
        speechsdk.ResultReason.TranslatedSpeech:
            f'Recognized "{from_language}": {translation_recognition_result.text}\n' +
            f'Translated into "{to_language}"": {translation_recognition_result.translations[to_language]}',
        speechsdk.ResultReason.RecognizedSpeech: f'Recognized: "{translation_recognition_result.text}"',
        speechsdk.ResultReason.NoMatch: f'No speech could be recognized: {translation_recognition_result.no_match_details}',
        speechsdk.ResultReason.Canceled: f'Speech Recognition canceled: {translation_recognition_result.cancellation_details}'
    }
    return reason_format.get(reason, 'Unable to recognize speech')

translate_speech_to_text()

手動合成

您可使用 translations 字典從翻譯文字合成音訊。逐一查看每個翻譯並合成翻譯。建立 SpeechSynthesizer 執行個體時，SpeechConfig 物件必須將其 speech_synthesis_voice_name 屬性設定為所需的語音。

下列範例會翻譯成五種語言。每個翻譯都會使用對應類神經語言合成一個音訊檔案。

import os
import azure.cognitiveservices.speech as speechsdk

speech_key, service_region = os.environ['SPEECH__SERVICE__KEY'], os.environ['SPEECH__SERVICE__REGION']
from_language, to_languages = 'en-US', [ 'de', 'en', 'it', 'pt', 'zh-Hans' ]

def translate_speech_to_text():
    translation_config = speechsdk.translation.SpeechTranslationConfig(
            subscription=speech_key, region=service_region)

    translation_config.speech_recognition_language = from_language
    for lang in to_languages:
        translation_config.add_target_language(lang)

    recognizer = speechsdk.translation.TranslationRecognizer(
            translation_config=translation_config)
    
    print('Say something...')
    translation_recognition_result = translation_recognizer.recognize_once()
    synthesize_translations(result=translation_recognition_result)

def synthesize_translations(translation_recognition_result):
    language_to_voice_map = {
        "de": "de-DE-KatjaNeural",
        "en": "en-US-AriaNeural",
        "it": "it-IT-ElsaNeural",
        "pt": "pt-BR-FranciscaNeural",
        "zh-Hans": "zh-CN-XiaoxiaoNeural"
    }
    print(f'Recognized: "{translation_recognition_result.text}"')

    for language in translation_recognition_result.translations:
        translation = translation_recognition_result.translations[language]
        print(f'Translated into "{language}": {translation}')

        speech_config = speechsdk.SpeechConfig(subscription=speech_key, region=service_region)
        speech_config.speech_synthesis_voice_name = language_to_voice_map.get(language)
        
        audio_config = speechsdk.audio.AudioOutputConfig(filename=f'{language}-translation.wav')
        speech_synthesizer = speechsdk.SpeechSynthesizer(speech_config=speech_config, audio_config=audio_config)
        speech_synthesizer.speak_text_async(translation).get()

translate_speech_to_text()

如需語音合成的詳細資訊，請參閱語音合成的基本概念。

使用語言識別的多語言翻譯

在許多案例中，您可能不知道要指定哪些輸入語言。使用語言識別可讓您指定最多 10 種可能的輸入語言，並自動翻譯成您的目標語言。

如需完整的程式碼範例，請參閱語言識別。

語音轉換文字 REST API 參考 | 適用於簡短音訊的語音轉換文字 REST API 參考 | GitHub 上的其他範例

您可以使用適用於語音翻譯的 REST API，但這裡尚未包含指南。請選取另一種程式設計語言，以開始使用並了解概念。

在此操作指南中，您將了解如何辨識人類語音，並將其翻譯為另一種語言。

請參閱語音翻譯概觀，以了解下列項目的詳細資訊：

翻譯語音轉換文字
將語音翻譯成多種目標語言
執行直接語音轉換語音翻譯

必要條件

Azure 訂用帳戶。您可以免費建立一個訂用帳戶。
在 Azure 入口網站上建立語音資源。
取得語音資源金鑰和區域。部署語音資源之後，選取 [移至資源] 以檢視和管理索引鍵。

下載並安裝

請遵循下列步驟，並參閱語音 CLI 快速入門，以了解平台的其他需求。

執行下列 .NET CLI 命令以安裝 Speech CLI:

dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI

執行下列命令來設定您的語音資源金鑰和區域。以您的語音資源金鑰取代 SUBSCRIPTION-KEY，而以您的語音資源區域取代 REGION。
- 終端機
- PowerShell
```
spx config @key --set SUBSCRIPTION-KEY
spx config @region --set REGION
```
```
spx --% config @key --set SUBSCRIPTION-KEY
spx --% config @region --set REGION
```

設定來源和目標語言

此命令會呼叫語音 CLI，以將麥克風的語音從義大利文翻譯成法文：

spx translate --microphone --source it-IT --target fr

分享方式：

如何辨識和翻譯語音

機密資料和環境變數

建立語音翻譯設定

變更來源語言

新增翻譯語言

將翻譯辨識器初始化

翻譯語音

以事件為基礎的翻譯

合成翻譯

以事件為基礎的合成

手動合成

使用語言識別的多語言翻譯

沒有來源語言候選項目的多語語音翻譯

在語音翻譯中使用自訂翻譯

機密資料和環境變數

建立語音翻譯設定

變更來源語言

新增翻譯語言

將翻譯辨識器初始化

翻譯語音

合成翻譯

以事件為基礎的合成

手動合成

使用語言識別的多語言翻譯

機密資料和環境變數

建立語音翻譯設定

變更來源語言

新增翻譯語言

將翻譯辨識器初始化

翻譯語音

合成翻譯

以事件為基礎的合成

手動合成

建立翻譯設定

將翻譯工具初始化

翻譯語音

指定目標語言

單次辨識

連續翻譯

選擇來源語言

選擇一或多個目標語言

機密資料和環境變數

建立語音翻譯設定

變更來源語言

新增翻譯語言

將翻譯辨識器初始化

翻譯語音

合成翻譯

以事件為基礎的合成

手動合成

使用語言識別的多語言翻譯

必要條件

下載並安裝

設定來源和目標語言

下一步

意見反映

更多資源