Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Documentação de referência | Pacotes (NuGet) | Amostras adicionais no GitHub
Neste início rápido, você executará um aplicativo para traduzir uma fala de um idioma para texto em outro idioma.
Dica
Experimente o Kit de Ferramentas do Azure Speech in Foundry Tools para criar e executar amostras com facilidade no Visual Studio Code.
Pré-requisitos
- Uma assinatura do Azure. É possível criar uma gratuitamente.
- Crie um recurso dos Serviços de IA para Fala no portal do Azure.
- Obtenha o ponto de extremidade e a chave do recurso de Fala. Depois que seu recurso de Serviço Cognitivo do Azure para Fala for implantado, selecione Ir para o recurso para visualizar e gerenciar as chaves.
Configurar o ambiente
O SDK de Fala está disponível como um pacote NuGet e implementa o .NET Standard 2.0. Você instalará o SDK de Fala posteriormente neste guia, mas primeiro verifique o Guia de instalação do SDK para conhecer os demais requisitos.
Definir variáveis de ambiente
Você precisa autenticar seu aplicativo para acessar as Ferramentas Foundry. Este artigo mostra como usar variáveis de ambiente para armazenar suas credenciais. Em seguida, você poderá acessar as variáveis de ambiente do seu código para autenticar seu aplicativo. Para a produção, use um método mais seguro para armazenar e acessar suas credenciais.
Importante
Recomendamos a autenticação do Microsoft Entra ID com identidades gerenciadas para recursos do Azure a fim de evitar o armazenamento de credenciais com seus aplicativos executados na nuvem.
Use as chaves de API com cautela. Não inclua a chave da API diretamente no seu código e nunca a publique publicamente. Se estiver usando chaves de API, armazene-as com segurança no Azure Key Vault, faça a rotação de chaves regularmente e restrinja o acesso ao Azure Key Vault usando controle de acesso baseado em função e restrições de acesso à rede. Para obter mais informações sobre como usar chaves de API com segurança em seus aplicativos, confira Chaves de API com o Azure Key Vault.
Para obter mais informações sobre segurança dos serviços de IA, confira Autenticar solicitações para os serviços de IA do Azure.
Para definir as variáveis de ambiente para seu ponto de extremidade e chave de recurso de Fala, abra uma janela do console e siga as instruções para seu sistema operacional e ambiente de desenvolvimento.
- Para definir a variável de ambiente
SPEECH_KEY, substitua your-key por uma das chaves do recurso. - Para definir a
ENDPOINTvariável de ambiente, substitua seu endpoint por um dos endpoints do recurso.
setx SPEECH_KEY your-key
setx ENDPOINT your-endpoint
Observação
Se precisar acessar as variáveis de ambiente apenas no console atual, você pode definir a variável de ambiente com set em vez de setx.
Depois de adicionar as variáveis de ambiente, talvez seja necessário reiniciar todos os programas que precisem ler a variável de ambiente, inclusive a janela do console. Por exemplo, se estiver usando o Visual Studio como editor, reinicie o Visual Studio antes de executar o exemplo.
Traduzir fala de um microfone
Siga estas etapas para criar um novo aplicativo de console e instalar o SDK de Fala.
Abra um prompt de comando no qual você deseja criar o novo projeto e crie um aplicativo de console com a CLI do .NET. O arquivo
Program.csdeverá ser criado no diretório do projeto.dotnet new consoleInstale o SDK de Fala em seu novo projeto com a CLI do .NET.
dotnet add package Microsoft.CognitiveServices.SpeechSubstitua o conteúdo de
Program.cspelo código a seguir.using System; using System.IO; using System.Threading.Tasks; using Microsoft.CognitiveServices.Speech; using Microsoft.CognitiveServices.Speech.Audio; using Microsoft.CognitiveServices.Speech.Translation; class Program { // This example requires environment variables named "SPEECH_KEY" and "ENDPOINT" static string speechKey = Environment.GetEnvironmentVariable("SPEECH_KEY"); static string endpoint = Environment.GetEnvironmentVariable("ENDPOINT"); static void OutputSpeechRecognitionResult(TranslationRecognitionResult translationRecognitionResult) { switch (translationRecognitionResult.Reason) { case ResultReason.TranslatedSpeech: Console.WriteLine($"RECOGNIZED: Text={translationRecognitionResult.Text}"); foreach (var element in translationRecognitionResult.Translations) { Console.WriteLine($"TRANSLATED into '{element.Key}': {element.Value}"); } break; case ResultReason.NoMatch: Console.WriteLine($"NOMATCH: Speech could not be recognized."); break; case ResultReason.Canceled: var cancellation = CancellationDetails.FromResult(translationRecognitionResult); Console.WriteLine($"CANCELED: Reason={cancellation.Reason}"); if (cancellation.Reason == CancellationReason.Error) { Console.WriteLine($"CANCELED: ErrorCode={cancellation.ErrorCode}"); Console.WriteLine($"CANCELED: ErrorDetails={cancellation.ErrorDetails}"); Console.WriteLine($"CANCELED: Did you set the speech resource key and endpoint values?"); } break; } } async static Task Main(string[] args) { var speechTranslationConfig = SpeechTranslationConfig.FromEndpoint(speechKey, endpoint); speechTranslationConfig.SpeechRecognitionLanguage = "en-US"; speechTranslationConfig.AddTargetLanguage("it"); using var audioConfig = AudioConfig.FromDefaultMicrophoneInput(); using var translationRecognizer = new TranslationRecognizer(speechTranslationConfig, audioConfig); Console.WriteLine("Speak into your microphone."); var translationRecognitionResult = await translationRecognizer.RecognizeOnceAsync(); OutputSpeechRecognitionResult(translationRecognitionResult); } }Para alterar o idioma de reconhecimento de fala, substitua
en-USpor outro idioma com suporte. Especifique a localidade completa com um separador de traço (-). Por exemplo:es-ESpara espanhol (Espanha). O idioma padrão éen-USse você não especificar um idioma. Para obter detalhes sobre como identificar um dos vários idiomas que podem ser falados, consulte identificação do idioma.Para alterar o idioma de tradução de fala, substitua
itpor outro idioma com suporte. Com poucas exceções, você especifica apenas o código de idioma que precede o separador de traço de localidade (-). Por exemplo, useespara espanhol (Espanha) em vez dees-ES. O idioma padrão éense você não especificar um idioma.
Execute seu novo aplicativo de console para iniciar o reconhecimento de fala a partir de um microfone:
dotnet run
Fale no microfone quando solicitado. O que você fala deve ser a saída como texto traduzido no idioma de destino:
Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech translation.
TRANSLATED into 'it': Sono entusiasta di provare la traduzione vocale.
Comentários
Depois de concluir o início rápido, veja mais algumas considerações:
- Este exemplo usa a operação
RecognizeOnceAsyncpara transcrever enunciados de até 30 segundos ou até que o silêncio seja detectado. Para obter informações sobre o reconhecimento contínuo de áudios mais longos, incluindo conversas multilíngues, consulte Como traduzir fala. - Para reconhecer a fala de um arquivo de áudio, use
FromWavFileInputem vez deFromDefaultMicrophoneInput:using var audioConfig = AudioConfig.FromWavFileInput("YourAudioFile.wav"); - Para arquivos de áudio compactados, como MP4, instale o GStreamer e use
PullAudioInputStreamouPushAudioInputStream. Para saber mais, confira Como usar áudio de entrada compactado.
Limpar os recursos
Você pode usar o portal do Azure ou a CLI (interface de linha de comando) do Azure para remover o recurso de fala que você criou.
Documentação de referência | Pacotes (NuGet) | Amostras adicionais no GitHub
Neste início rápido, você executará um aplicativo para traduzir uma fala de um idioma para texto em outro idioma.
Dica
Experimente o Kit de Ferramentas do Azure Speech in Foundry Tools para criar e executar amostras com facilidade no Visual Studio Code.
Pré-requisitos
- Uma assinatura do Azure. É possível criar uma gratuitamente.
- Crie um recurso dos Serviços de IA para Fala no portal do Azure.
- Obtenha o ponto de extremidade e a chave do recurso de Fala. Depois que seu recurso de Serviço Cognitivo do Azure para Fala for implantado, selecione Ir para o recurso para visualizar e gerenciar as chaves.
Configurar o ambiente
O SDK de Fala está disponível como um pacote NuGet e implementa o .NET Standard 2.0. Você instalará o SDK de Fala posteriormente neste guia, mas primeiro verifique o guia de instalação do SDK para conhecer os demais requisitos.
Definir variáveis de ambiente
Você precisa autenticar seu aplicativo para acessar as Ferramentas Foundry. Este artigo mostra como usar variáveis de ambiente para armazenar suas credenciais. Em seguida, você poderá acessar as variáveis de ambiente do seu código para autenticar seu aplicativo. Para a produção, use um método mais seguro para armazenar e acessar suas credenciais.
Importante
Recomendamos a autenticação do Microsoft Entra ID com identidades gerenciadas para recursos do Azure a fim de evitar o armazenamento de credenciais com seus aplicativos executados na nuvem.
Use as chaves de API com cautela. Não inclua a chave da API diretamente no seu código e nunca a publique publicamente. Se estiver usando chaves de API, armazene-as com segurança no Azure Key Vault, faça a rotação de chaves regularmente e restrinja o acesso ao Azure Key Vault usando controle de acesso baseado em função e restrições de acesso à rede. Para obter mais informações sobre como usar chaves de API com segurança em seus aplicativos, confira Chaves de API com o Azure Key Vault.
Para obter mais informações sobre segurança dos serviços de IA, confira Autenticar solicitações para os serviços de IA do Azure.
Para definir as variáveis de ambiente para seu ponto de extremidade e chave de recurso de Fala, abra uma janela do console e siga as instruções para seu sistema operacional e ambiente de desenvolvimento.
- Para definir a variável de ambiente
SPEECH_KEY, substitua your-key por uma das chaves do recurso. - Para definir a
ENDPOINTvariável de ambiente, substitua seu endpoint por um dos endpoints do recurso.
setx SPEECH_KEY your-key
setx ENDPOINT your-endpoint
Observação
Se precisar acessar as variáveis de ambiente apenas no console atual, você pode definir a variável de ambiente com set em vez de setx.
Depois de adicionar as variáveis de ambiente, talvez seja necessário reiniciar todos os programas que precisem ler a variável de ambiente, inclusive a janela do console. Por exemplo, se estiver usando o Visual Studio como editor, reinicie o Visual Studio antes de executar o exemplo.
Traduzir fala de um microfone
Siga estas etapas para criar um novo aplicativo de console e instalar o SDK de Fala.
Crie um novo projeto de console C++ no Visual Studio Community 2022 chamado
SpeechTranslation.Instale o SDK de Fala em seu novo projeto com o gerenciador de pacotes NuGet.
Install-Package Microsoft.CognitiveServices.SpeechSubstitua o conteúdo de
SpeechTranslation.cpppelo seguinte código:#include <iostream> #include <stdlib.h> #include <speechapi_cxx.h> using namespace Microsoft::CognitiveServices::Speech; using namespace Microsoft::CognitiveServices::Speech::Audio; using namespace Microsoft::CognitiveServices::Speech::Translation; std::string GetEnvironmentVariable(const char* name); int main() { // This example requires environment variables named "SPEECH_KEY" and "END_POINT" auto speechKey = GetEnvironmentVariable("SPEECH_KEY"); auto endpoint = GetEnvironmentVariable("END_POINT"); auto speechTranslationConfig = SpeechTranslationConfig::FromEndpoint(speechKey, endpoint); speechTranslationConfig->SetSpeechRecognitionLanguage("en-US"); speechTranslationConfig->AddTargetLanguage("it"); auto audioConfig = AudioConfig::FromDefaultMicrophoneInput(); auto translationRecognizer = TranslationRecognizer::FromConfig(speechTranslationConfig, audioConfig); std::cout << "Speak into your microphone.\n"; auto result = translationRecognizer->RecognizeOnceAsync().get(); if (result->Reason == ResultReason::TranslatedSpeech) { std::cout << "RECOGNIZED: Text=" << result->Text << std::endl; for (auto pair : result->Translations) { auto language = pair.first; auto translation = pair.second; std::cout << "Translated into '" << language << "': " << translation << std::endl; } } else if (result->Reason == ResultReason::NoMatch) { std::cout << "NOMATCH: Speech could not be recognized." << std::endl; } else if (result->Reason == ResultReason::Canceled) { auto cancellation = CancellationDetails::FromResult(result); std::cout << "CANCELED: Reason=" << (int)cancellation->Reason << std::endl; if (cancellation->Reason == CancellationReason::Error) { std::cout << "CANCELED: ErrorCode=" << (int)cancellation->ErrorCode << std::endl; std::cout << "CANCELED: ErrorDetails=" << cancellation->ErrorDetails << std::endl; std::cout << "CANCELED: Did you set the speech resource key and endpoint values?" << std::endl; } } } std::string GetEnvironmentVariable(const char* name) { #if defined(_MSC_VER) size_t requiredSize = 0; (void)getenv_s(&requiredSize, nullptr, 0, name); if (requiredSize == 0) { return ""; } auto buffer = std::make_unique<char[]>(requiredSize); (void)getenv_s(&requiredSize, buffer.get(), requiredSize, name); return buffer.get(); #else auto value = getenv(name); return value ? value : ""; #endif }Para alterar o idioma de reconhecimento de fala, substitua
en-USpor outro idioma com suporte. Especifique a localidade completa com um separador de traço (-). Por exemplo:es-ESpara espanhol (Espanha). O idioma padrão éen-USse você não especificar um idioma. Para obter detalhes sobre como identificar um dos vários idiomas que podem ser falados, consulte identificação do idioma.Para alterar o idioma de tradução de fala, substitua
itpor outro idioma com suporte. Com poucas exceções, você especifica apenas o código de idioma que precede o separador de traço de localidade (-). Por exemplo, useespara espanhol (Espanha) em vez dees-ES. O idioma padrão éense você não especificar um idioma.
Para iniciar o reconhecimento de fala de um microfone, crie e execute seu novo aplicativo de console.
Fale no microfone quando solicitado. O que você fala deve ser a saída como texto traduzido no idioma de destino:
Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech translation.
Translated into 'it': Sono entusiasta di provare la traduzione vocale.
Comentários
Depois de concluir o início rápido, veja mais algumas considerações:
- Este exemplo usa a operação
RecognizeOnceAsyncpara transcrever enunciados de até 30 segundos ou até que o silêncio seja detectado. Para obter informações sobre o reconhecimento contínuo de áudios mais longos, incluindo conversas multilíngues, consulte Como traduzir fala. - Para reconhecer a fala de um arquivo de áudio, use
FromWavFileInputem vez deFromDefaultMicrophoneInput:auto audioInput = AudioConfig::FromWavFileInput("YourAudioFile.wav"); - Para arquivos de áudio compactados, como MP4, instale o GStreamer e use
PullAudioInputStreamouPushAudioInputStream. Para saber mais, confira Como usar áudio de entrada compactado.
Limpar os recursos
Você pode usar o portal do Azure ou a CLI (interface de linha de comando) do Azure para remover o recurso de fala que você criou.
Documentação de referência | Pacote (Go) | Amostras adicionais no GitHub
O Speech SDK for Go não oferece suporte à tradução de fala. Selecione outra linguagem de programação ou a referência do Go e exemplos vinculados no início deste artigo.
Documentação de referência | Amostras adicionais no GitHub
Neste início rápido, você executará um aplicativo para traduzir uma fala de um idioma para texto em outro idioma.
Dica
Experimente o Kit de Ferramentas do Azure Speech in Foundry Tools para criar e executar amostras com facilidade no Visual Studio Code.
Pré-requisitos
- Uma assinatura do Azure. É possível criar uma gratuitamente.
- Crie um recurso dos Serviços de IA para Fala no portal do Azure.
- Obtenha o ponto de extremidade e a chave do recurso de Fala. Depois que seu recurso de Serviço Cognitivo do Azure para Fala for implantado, selecione Ir para o recurso para visualizar e gerenciar as chaves.
Configurar o ambiente
Antes de realizar qualquer ação, será necessário instalar o SDK de Fala. O exemplo deste guia de início rápido funciona com o Runtime Java.
- Instale o Apache Maven. Em seguida, execute
mvn -vpara confirmar a instalação bem-sucedida. - Crie um arquivo
pom.xmlna raiz do projeto e copie nele o seguinte:<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>com.microsoft.cognitiveservices.speech.samples</groupId> <artifactId>quickstart-eclipse</artifactId> <version>1.0.0-SNAPSHOT</version> <build> <sourceDirectory>src</sourceDirectory> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>3.7.0</version> <configuration> <source>1.8</source> <target>1.8</target> </configuration> </plugin> </plugins> </build> <dependencies> <dependency> <groupId>com.microsoft.cognitiveservices.speech</groupId> <artifactId>client-sdk</artifactId> <version>1.43.0</version> </dependency> </dependencies> </project> - Instale o SDK de Fala e as dependências.
mvn clean dependency:copy-dependencies
Definir variáveis de ambiente
Você precisa autenticar seu aplicativo para acessar as Ferramentas Foundry. Este artigo mostra como usar variáveis de ambiente para armazenar suas credenciais. Em seguida, você poderá acessar as variáveis de ambiente do seu código para autenticar seu aplicativo. Para a produção, use um método mais seguro para armazenar e acessar suas credenciais.
Importante
Recomendamos a autenticação do Microsoft Entra ID com identidades gerenciadas para recursos do Azure a fim de evitar o armazenamento de credenciais com seus aplicativos executados na nuvem.
Use as chaves de API com cautela. Não inclua a chave da API diretamente no seu código e nunca a publique publicamente. Se estiver usando chaves de API, armazene-as com segurança no Azure Key Vault, faça a rotação de chaves regularmente e restrinja o acesso ao Azure Key Vault usando controle de acesso baseado em função e restrições de acesso à rede. Para obter mais informações sobre como usar chaves de API com segurança em seus aplicativos, confira Chaves de API com o Azure Key Vault.
Para obter mais informações sobre segurança dos serviços de IA, confira Autenticar solicitações para os serviços de IA do Azure.
Para definir as variáveis de ambiente para seu ponto de extremidade e chave de recurso de Fala, abra uma janela do console e siga as instruções para seu sistema operacional e ambiente de desenvolvimento.
- Para definir a variável de ambiente
SPEECH_KEY, substitua your-key por uma das chaves do recurso. - Para definir a
ENDPOINTvariável de ambiente, substitua seu endpoint por um dos endpoints do recurso.
setx SPEECH_KEY your-key
setx ENDPOINT your-endpoint
Observação
Se precisar acessar as variáveis de ambiente apenas no console atual, você pode definir a variável de ambiente com set em vez de setx.
Depois de adicionar as variáveis de ambiente, talvez seja necessário reiniciar todos os programas que precisem ler a variável de ambiente, inclusive a janela do console. Por exemplo, se estiver usando o Visual Studio como editor, reinicie o Visual Studio antes de executar o exemplo.
Traduzir fala de um microfone
Siga estas etapas para criar um novo aplicativo de console para reconhecimento de fala.
Crie um novo arquivo chamado
SpeechTranslation.javano mesmo diretório raiz do projeto.Copie o seguinte código dentro de
SpeechTranslation.java:import com.microsoft.cognitiveservices.speech.*; import com.microsoft.cognitiveservices.speech.audio.AudioConfig; import com.microsoft.cognitiveservices.speech.translation.*; import java.util.concurrent.ExecutionException; import java.util.concurrent.Future; import java.util.Map; public class SpeechTranslation { // This example requires environment variables named "SPEECH_KEY" and "ENDPOINT" private static String speechKey = System.getenv("SPEECH_KEY"); private static String endpoint = System.getenv("ENDPOINT"); public static void main(String[] args) throws InterruptedException, ExecutionException { SpeechTranslationConfig speechTranslationConfig = SpeechTranslationConfig.fromEndpoint(speechKey, endpoint); speechTranslationConfig.setSpeechRecognitionLanguage("en-US"); String[] toLanguages = { "it" }; for (String language : toLanguages) { speechTranslationConfig.addTargetLanguage(language); } recognizeFromMicrophone(speechTranslationConfig); } public static void recognizeFromMicrophone(SpeechTranslationConfig speechTranslationConfig) throws InterruptedException, ExecutionException { AudioConfig audioConfig = AudioConfig.fromDefaultMicrophoneInput(); TranslationRecognizer translationRecognizer = new TranslationRecognizer(speechTranslationConfig, audioConfig); System.out.println("Speak into your microphone."); Future<TranslationRecognitionResult> task = translationRecognizer.recognizeOnceAsync(); TranslationRecognitionResult translationRecognitionResult = task.get(); if (translationRecognitionResult.getReason() == ResultReason.TranslatedSpeech) { System.out.println("RECOGNIZED: Text=" + translationRecognitionResult.getText()); for (Map.Entry<String, String> pair : translationRecognitionResult.getTranslations().entrySet()) { System.out.printf("Translated into '%s': %s\n", pair.getKey(), pair.getValue()); } } else if (translationRecognitionResult.getReason() == ResultReason.NoMatch) { System.out.println("NOMATCH: Speech could not be recognized."); } else if (translationRecognitionResult.getReason() == ResultReason.Canceled) { CancellationDetails cancellation = CancellationDetails.fromResult(translationRecognitionResult); System.out.println("CANCELED: Reason=" + cancellation.getReason()); if (cancellation.getReason() == CancellationReason.Error) { System.out.println("CANCELED: ErrorCode=" + cancellation.getErrorCode()); System.out.println("CANCELED: ErrorDetails=" + cancellation.getErrorDetails()); System.out.println("CANCELED: Did you set the speech resource key and endpoint values?"); } } System.exit(0); } }Para alterar o idioma de reconhecimento de fala, substitua
en-USpor outro idioma com suporte. Especifique a localidade completa com um separador de traço (-). Por exemplo:es-ESpara espanhol (Espanha). O idioma padrão éen-USse você não especificar um idioma. Para obter detalhes sobre como identificar um dos vários idiomas que podem ser falados, consulte identificação do idioma.Para alterar o idioma de tradução de fala, substitua
itpor outro idioma com suporte. Com poucas exceções, você especifica apenas o código de idioma que precede o separador de traço de localidade (-). Por exemplo, useespara espanhol (Espanha) em vez dees-ES. O idioma padrão éense você não especificar um idioma.
Execute seu novo aplicativo de console para iniciar o reconhecimento de fala a partir de um microfone:
javac SpeechTranslation.java -cp ".;target\dependency\*"
java -cp ".;target\dependency\*" SpeechTranslation
Fale no microfone quando solicitado. O que você fala deve ser a saída como texto traduzido no idioma de destino:
Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech translation.
Translated into 'it': Sono entusiasta di provare la traduzione vocale.
Comentários
Depois de concluir o início rápido, veja mais algumas considerações:
- Este exemplo usa a operação
RecognizeOnceAsyncpara transcrever enunciados de até 30 segundos ou até que o silêncio seja detectado. Para obter informações sobre o reconhecimento contínuo de áudios mais longos, incluindo conversas multilíngues, consulte Como traduzir fala. - Para reconhecer a fala de um arquivo de áudio, use
fromWavFileInputem vez defromDefaultMicrophoneInput:AudioConfig audioConfig = AudioConfig.fromWavFileInput("YourAudioFile.wav"); - Para arquivos de áudio compactados, como MP4, instale o GStreamer e use
PullAudioInputStreamouPushAudioInputStream. Para saber mais, confira Como usar áudio de entrada compactado.
Limpar os recursos
Você pode usar o portal do Azure ou a CLI (interface de linha de comando) do Azure para remover o recurso de fala que você criou.
Documentação de referência | Pacote (npm) | Amostras adicionais no GitHub | Código-fonte de biblioteca
Neste início rápido, você executará um aplicativo para traduzir uma fala de um idioma para texto em outro idioma.
Dica
Experimente o Kit de Ferramentas do Azure Speech in Foundry Tools para criar e executar amostras com facilidade no Visual Studio Code.
Pré-requisitos
- Uma assinatura do Azure. É possível criar uma gratuitamente.
- Crie um recurso do Foundry para Voz no portal do Azure.
- Obtenha a chave e a região do recurso de Fala. Depois que seu recurso de Serviço Cognitivo do Azure para Fala for implantado, selecione Ir para o recurso para visualizar e gerenciar as chaves.
Configuração
Crie uma nova pasta
translation-quickstarte vá para a pasta de início rápido com o seguinte comando:mkdir translation-quickstart && cd translation-quickstartCrie o
package.jsoncom o seguinte comando:npm init -yInstale o SDK de Fala para JavaScript com:
npm install microsoft-cognitiveservices-speech-sdk
Recuperar as informações do recurso
Você precisa autenticar seu aplicativo para acessar as Ferramentas Foundry. Este artigo mostra como usar variáveis de ambiente para armazenar suas credenciais. Em seguida, você poderá acessar as variáveis de ambiente do seu código para autenticar seu aplicativo. Para a produção, use um método mais seguro para armazenar e acessar suas credenciais.
Importante
Recomendamos a autenticação do Microsoft Entra ID com identidades gerenciadas para recursos do Azure a fim de evitar o armazenamento de credenciais com seus aplicativos executados na nuvem.
Use as chaves de API com cautela. Não inclua a chave da API diretamente no seu código e nunca a publique publicamente. Se estiver usando chaves de API, armazene-as com segurança no Azure Key Vault, faça a rotação de chaves regularmente e restrinja o acesso ao Azure Key Vault usando controle de acesso baseado em função e restrições de acesso à rede. Para obter mais informações sobre como usar chaves de API com segurança em seus aplicativos, confira Chaves de API com o Azure Key Vault.
Para obter mais informações sobre segurança dos serviços de IA, confira Autenticar solicitações para os serviços de IA do Azure.
Para definir as variáveis de ambiente para sua região e chave de recurso de Serviço Cognitivo do Azure para Fala, abra uma janela de console e siga as instruções para seu sistema operacional e ambiente de desenvolvimento.
- Para definir a variável de ambiente
SPEECH_KEY, substitua your-key por uma das chaves do recurso. - Para definir a variável de ambiente
SPEECH_REGION, substitua your-region por uma das regiões do recurso. - Para definir a variável de ambiente
ENDPOINT, substituayour-endpointpelo ponto de extremidade real do seu recurso de Fala.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint
Observação
Se precisar acessar as variáveis de ambiente apenas no console atual, você pode definir a variável de ambiente com set em vez de setx.
Depois de adicionar as variáveis de ambiente, talvez seja necessário reiniciar todos os programas que precisem ler a variável de ambiente, inclusive a janela do console. Por exemplo, se estiver usando o Visual Studio como editor, reinicie o Visual Studio antes de executar o exemplo.
Traduzir fala de um arquivo
Para traduzir fala de um arquivo:
Crie um novo arquivo chamado translation.js com o seguinte conteúdo:
import { readFileSync } from "fs"; import { SpeechTranslationConfig, AudioConfig, TranslationRecognizer, ResultReason, CancellationDetails, CancellationReason } from "microsoft-cognitiveservices-speech-sdk"; // This example requires environment variables named "ENDPOINT" and "SPEECH_KEY" const speechTranslationConfig = SpeechTranslationConfig.fromEndpoint(new URL(process.env.ENDPOINT), process.env.SPEECH_KEY); speechTranslationConfig.speechRecognitionLanguage = "en-US"; const language = "it"; speechTranslationConfig.addTargetLanguage(language); function fromFile() { const audioConfig = AudioConfig.fromWavFileInput(readFileSync("YourAudioFile.wav")); const translationRecognizer = new TranslationRecognizer(speechTranslationConfig, audioConfig); translationRecognizer.recognizeOnceAsync((result) => { switch (result.reason) { case ResultReason.TranslatedSpeech: console.log(`RECOGNIZED: Text=${result.text}`); console.log("Translated into [" + language + "]: " + result.translations.get(language)); break; case ResultReason.NoMatch: console.log("NOMATCH: Speech could not be recognized."); break; case ResultReason.Canceled: const cancellation = CancellationDetails.fromResult(result); console.log(`CANCELED: Reason=${cancellation.reason}`); if (cancellation.reason === CancellationReason.Error) { console.log(`CANCELED: ErrorCode=${cancellation.ErrorCode}`); console.log(`CANCELED: ErrorDetails=${cancellation.errorDetails}`); console.log("CANCELED: Did you set the speech resource key and region values?"); } break; } translationRecognizer.close(); }); } fromFile();Em
translation.js, substituaYourAudioFile.wavpor um arquivo WAV próprio. Este exemplo só reconhece a fala de um arquivo WAV. Para obter informações sobre outros formatos de áudio, confira Como usar áudio de entrada compactado. Este exemplo dá suporte a um áudio de até 30 segundos.Para alterar o idioma de reconhecimento de fala, substitua
en-USpor outro idioma com suporte. Especifique a localidade completa com um separador de traço (-). Por exemplo:es-ESpara espanhol (Espanha). O idioma padrão éen-USse você não especificar um idioma. Para obter detalhes sobre como identificar um dos vários idiomas que podem ser falados, consulte identificação do idioma.Para alterar o idioma de tradução de fala, substitua
itpor outro idioma com suporte. Com poucas exceções, você especifica apenas o código de idioma que precede o separador de traço de localidade (-). Por exemplo, useespara espanhol (Espanha) em vez dees-ES. O idioma padrão éense você não especificar um idioma.
Execute seu novo aplicativo de console para iniciar o reconhecimento de fala a partir de um arquivo:
node translation.js
Saída
A fala do arquivo de áudio deve ser a saída como texto traduzido no idioma de destino:
RECOGNIZED: Text=I'm excited to try speech translation.
Translated into [it]: Sono entusiasta di provare la traduzione vocale.
Comentários
Agora que você concluiu o início rápido, aqui estão algumas considerações adicionais:
Este exemplo usa a operação recognizeOnceAsync para transcrever enunciados de até 30 segundos ou até que o silêncio seja detectado. Para obter informações sobre o reconhecimento contínuo de áudios mais longos, incluindo conversas multilíngues, consulte Como traduzir fala.
Observação
Não há suporte para reconhecer a fala a partir de um microfone no Node.js. Há suporte apenas em um ambiente JavaScript baseado em navegador.
Limpar os recursos
Você pode usar o portal do Azure ou a CLI (interface de linha de comando) do Azure para remover o recurso de fala que você criou.
Documentação de referência | Pacotes (download) | Amostras adicionais no GitHub
O SDK de Fala para Objective-C dá suporte à tradução de fala, mas ainda não incluímos um guia a respeito. Selecione outra linguagem de programação para começar e saber mais sobre os conceitos ou confira a referência e exemplos em Objective-C vinculados no início deste artigo.
Documentação de referência | Pacotes (download) | Amostras adicionais no GitHub
O SDK de Fala para Swift dá suporte à tradução de fala, mas ainda não incluímos um guia a respeito. Selecione outra linguagem de programação para começar e saber mais sobre os conceitos ou confira a referência e exemplos em Swift vinculados no início deste artigo.
Documentação de referência | Pacote (PyPi) | Amostras adicionais no GitHub
Neste início rápido, você executará um aplicativo para traduzir uma fala de um idioma para texto em outro idioma.
Dica
Experimente o Kit de Ferramentas do Azure Speech in Foundry Tools para criar e executar amostras com facilidade no Visual Studio Code.
Pré-requisitos
- Uma assinatura do Azure. É possível criar uma gratuitamente.
- Crie um recurso dos Serviços de IA para Fala no portal do Azure.
- Obtenha o ponto de extremidade e a chave do recurso de Fala. Depois que seu recurso de Serviço Cognitivo do Azure para Fala for implantado, selecione Ir para o recurso para visualizar e gerenciar as chaves.
Configurar o ambiente
O SDK de fala para Python está disponível como um módulo PyPI (índice de pacote do Python). O SDK de Fala para Python é compatível com Windows, Linux e macOS.
- Instale os Pacotes Redistribuíveis do Visual C++ para Visual Studio 2015, 2017, 2019 e 2022 na sua plataforma. Reinicie seu computador se esta for sua primeira instalação do pacote.
- Use a arquitetura de destino x64 no Linux.
Instale uma versão do Python a partir da versão 3.7 ou posterior. Primeiro, verifique o Guia de instalação do SDK para conhecer os demais requisitos
Definir variáveis de ambiente
Você precisa autenticar seu aplicativo para acessar as Ferramentas Foundry. Este artigo mostra como usar variáveis de ambiente para armazenar suas credenciais. Em seguida, você poderá acessar as variáveis de ambiente do seu código para autenticar seu aplicativo. Para a produção, use um método mais seguro para armazenar e acessar suas credenciais.
Importante
Recomendamos a autenticação do Microsoft Entra ID com identidades gerenciadas para recursos do Azure a fim de evitar o armazenamento de credenciais com seus aplicativos executados na nuvem.
Use as chaves de API com cautela. Não inclua a chave da API diretamente no seu código e nunca a publique publicamente. Se estiver usando chaves de API, armazene-as com segurança no Azure Key Vault, faça a rotação de chaves regularmente e restrinja o acesso ao Azure Key Vault usando controle de acesso baseado em função e restrições de acesso à rede. Para obter mais informações sobre como usar chaves de API com segurança em seus aplicativos, confira Chaves de API com o Azure Key Vault.
Para obter mais informações sobre segurança dos serviços de IA, confira Autenticar solicitações para os serviços de IA do Azure.
Para definir as variáveis de ambiente para seu ponto de extremidade e chave de recurso de Fala, abra uma janela do console e siga as instruções para seu sistema operacional e ambiente de desenvolvimento.
- Para definir a variável de ambiente
SPEECH_KEY, substitua your-key por uma das chaves do recurso. - Para definir a
ENDPOINTvariável de ambiente, substitua seu endpoint por um dos endpoints do recurso.
setx SPEECH_KEY your-key
setx ENDPOINT your-endpoint
Observação
Se precisar acessar as variáveis de ambiente apenas no console atual, você pode definir a variável de ambiente com set em vez de setx.
Depois de adicionar as variáveis de ambiente, talvez seja necessário reiniciar todos os programas que precisem ler a variável de ambiente, inclusive a janela do console. Por exemplo, se estiver usando o Visual Studio como editor, reinicie o Visual Studio antes de executar o exemplo.
Traduzir fala de um microfone
Siga estas etapas para criar um aplicativo de console.
Abra um prompt de comando onde você deseja criar o novo projeto e crie um novo arquivo chamado
speech_translation.py.Execute este comando para instalar o SDK de Fala:
pip install azure-cognitiveservices-speechCopie o seguinte código dentro de
speech_translation.py:import os import azure.cognitiveservices.speech as speechsdk def recognize_from_microphone(): # This example requires environment variables named "SPEECH_KEY" and "ENDPOINT" # Replace with your own subscription key and endpoint, the endpoint is like : "https://YourServiceRegion.api.cognitive.microsoft.com" speech_translation_config = speechsdk.translation.SpeechTranslationConfig(subscription=os.environ.get('SPEECH_KEY'), endpoint=os.environ.get('ENDPOINT')) speech_translation_config.speech_recognition_language="en-US" to_language ="it" speech_translation_config.add_target_language(to_language) audio_config = speechsdk.audio.AudioConfig(use_default_microphone=True) translation_recognizer = speechsdk.translation.TranslationRecognizer(translation_config=speech_translation_config, audio_config=audio_config) print("Speak into your microphone.") translation_recognition_result = translation_recognizer.recognize_once_async().get() if translation_recognition_result.reason == speechsdk.ResultReason.TranslatedSpeech: print("Recognized: {}".format(translation_recognition_result.text)) print("""Translated into '{}': {}""".format( to_language, translation_recognition_result.translations[to_language])) elif translation_recognition_result.reason == speechsdk.ResultReason.NoMatch: print("No speech could be recognized: {}".format(translation_recognition_result.no_match_details)) elif translation_recognition_result.reason == speechsdk.ResultReason.Canceled: cancellation_details = translation_recognition_result.cancellation_details print("Speech Recognition canceled: {}".format(cancellation_details.reason)) if cancellation_details.reason == speechsdk.CancellationReason.Error: print("Error details: {}".format(cancellation_details.error_details)) print("Did you set the speech resource key and endpoint values?") recognize_from_microphone()Para alterar o idioma de reconhecimento de fala, substitua
en-USpor outro idioma com suporte. Especifique a localidade completa com um separador de traço (-). Por exemplo:es-ESpara espanhol (Espanha). O idioma padrão éen-USse você não especificar um idioma. Para obter detalhes sobre como identificar um dos vários idiomas que podem ser falados, consulte identificação do idioma.Para alterar o idioma de tradução de fala, substitua
itpor outro idioma com suporte. Com poucas exceções, você especifica apenas o código de idioma que precede o separador de traço de localidade (-). Por exemplo, useespara espanhol (Espanha) em vez dees-ES. O idioma padrão éense você não especificar um idioma.
Execute seu novo aplicativo de console para iniciar o reconhecimento de fala a partir de um microfone:
python speech_translation.py
Fale no microfone quando solicitado. O que você fala deve ser a saída como texto traduzido no idioma de destino:
Speak into your microphone.
Recognized: I'm excited to try speech translation.
Translated into 'it': Sono entusiasta di provare la traduzione vocale.
Comentários
Depois de concluir o início rápido, veja mais algumas considerações:
- Este exemplo usa a operação
recognize_once_asyncpara transcrever enunciados de até 30 segundos ou até que o silêncio seja detectado. Para obter informações sobre o reconhecimento contínuo de áudios mais longos, incluindo conversas multilíngues, consulte Como traduzir fala. - Para reconhecer a fala de um arquivo de áudio, use
filenameem vez deuse_default_microphone:audio_config = speechsdk.audio.AudioConfig(filename="YourAudioFile.wav") - Para arquivos de áudio compactados, como MP4, instale o GStreamer e use
PullAudioInputStreamouPushAudioInputStream. Para saber mais, confira Como usar áudio de entrada compactado.
Limpar os recursos
Você pode usar o portal do Azure ou a CLI (interface de linha de comando) do Azure para remover o recurso de fala que você criou.
Documentação de referência | Pacote (npm) | Amostras adicionais no GitHub | Código-fonte de biblioteca
Neste início rápido, você executará um aplicativo para traduzir uma fala de um idioma para texto em outro idioma.
Dica
Experimente o Kit de Ferramentas do Azure Speech in Foundry Tools para criar e executar amostras com facilidade no Visual Studio Code.
Pré-requisitos
- Uma assinatura do Azure. É possível criar uma gratuitamente.
- Crie um recurso do Foundry para Voz no portal do Azure.
- Obtenha a chave e a região do recurso de Fala. Depois que seu recurso de Serviço Cognitivo do Azure para Fala for implantado, selecione Ir para o recurso para visualizar e gerenciar as chaves.
Configuração
Crie uma nova pasta
translation-quickstarte vá para a pasta de início rápido com o seguinte comando:mkdir translation-quickstart && cd translation-quickstartCrie o
package.jsoncom o seguinte comando:npm init -yAtualize o
package.jsonpara ECMAScript com o seguinte comando:npm pkg set type=moduleInstale o SDK de Fala para JavaScript com:
npm install microsoft-cognitiveservices-speech-sdkVocê precisa instalar as definições de tipo Node.js para evitar erros do TypeScript. Execute o comando a seguir:
npm install --save-dev @types/node
Recuperar as informações do recurso
Você precisa autenticar seu aplicativo para acessar as Ferramentas Foundry. Este artigo mostra como usar variáveis de ambiente para armazenar suas credenciais. Em seguida, você poderá acessar as variáveis de ambiente do seu código para autenticar seu aplicativo. Para a produção, use um método mais seguro para armazenar e acessar suas credenciais.
Importante
Recomendamos a autenticação do Microsoft Entra ID com identidades gerenciadas para recursos do Azure a fim de evitar o armazenamento de credenciais com seus aplicativos executados na nuvem.
Use as chaves de API com cautela. Não inclua a chave da API diretamente no seu código e nunca a publique publicamente. Se estiver usando chaves de API, armazene-as com segurança no Azure Key Vault, faça a rotação de chaves regularmente e restrinja o acesso ao Azure Key Vault usando controle de acesso baseado em função e restrições de acesso à rede. Para obter mais informações sobre como usar chaves de API com segurança em seus aplicativos, confira Chaves de API com o Azure Key Vault.
Para obter mais informações sobre segurança dos serviços de IA, confira Autenticar solicitações para os serviços de IA do Azure.
Para definir as variáveis de ambiente para sua região e chave de recurso de Serviço Cognitivo do Azure para Fala, abra uma janela de console e siga as instruções para seu sistema operacional e ambiente de desenvolvimento.
- Para definir a variável de ambiente
SPEECH_KEY, substitua your-key por uma das chaves do recurso. - Para definir a variável de ambiente
SPEECH_REGION, substitua your-region por uma das regiões do recurso. - Para definir a variável de ambiente
ENDPOINT, substituayour-endpointpelo ponto de extremidade real do seu recurso de Fala.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint
Observação
Se precisar acessar as variáveis de ambiente apenas no console atual, você pode definir a variável de ambiente com set em vez de setx.
Depois de adicionar as variáveis de ambiente, talvez seja necessário reiniciar todos os programas que precisem ler a variável de ambiente, inclusive a janela do console. Por exemplo, se estiver usando o Visual Studio como editor, reinicie o Visual Studio antes de executar o exemplo.
Traduzir fala de um arquivo
Para traduzir fala de um arquivo:
Crie um novo arquivo chamado translation.ts com o seguinte conteúdo:
import { readFileSync } from "fs"; import { SpeechTranslationConfig, AudioConfig, TranslationRecognizer, ResultReason, CancellationDetails, CancellationReason, TranslationRecognitionResult } from "microsoft-cognitiveservices-speech-sdk"; // This example requires environment variables named "ENDPOINT" and "SPEECH_KEY" const speechTranslationConfig: SpeechTranslationConfig = SpeechTranslationConfig.fromEndpoint(new URL(process.env.ENDPOINT!), process.env.SPEECH_KEY!); speechTranslationConfig.speechRecognitionLanguage = "en-US"; const language = "it"; speechTranslationConfig.addTargetLanguage(language); function fromFile(): void { const audioConfig: AudioConfig = AudioConfig.fromWavFileInput(readFileSync("YourAudioFile.wav")); const translationRecognizer: TranslationRecognizer = new TranslationRecognizer(speechTranslationConfig, audioConfig); translationRecognizer.recognizeOnceAsync((result: TranslationRecognitionResult) => { switch (result.reason) { case ResultReason.TranslatedSpeech: console.log(`RECOGNIZED: Text=${result.text}`); console.log("Translated into [" + language + "]: " + result.translations.get(language)); break; case ResultReason.NoMatch: console.log("NOMATCH: Speech could not be recognized."); break; case ResultReason.Canceled: const cancellation: CancellationDetails = CancellationDetails.fromResult(result); console.log(`CANCELED: Reason=${cancellation.reason}`); if (cancellation.reason === CancellationReason.Error) { console.log(`CANCELED: ErrorCode=${cancellation.ErrorCode}`); console.log(`CANCELED: ErrorDetails=${cancellation.errorDetails}`); console.log("CANCELED: Did you set the speech resource key and region values?"); } break; } translationRecognizer.close(); }); } fromFile();Em
translation.ts, substituaYourAudioFile.wavpor um arquivo WAV próprio. Este exemplo só reconhece a fala de um arquivo WAV. Para obter informações sobre outros formatos de áudio, confira Como usar áudio de entrada compactado. Este exemplo dá suporte a um áudio de até 30 segundos.Para alterar o idioma de reconhecimento de fala, substitua
en-USpor outro idioma com suporte. Especifique a localidade completa com um separador de traço (-). Por exemplo:es-ESpara espanhol (Espanha). O idioma padrão éen-USse você não especificar um idioma. Para obter detalhes sobre como identificar um dos vários idiomas que podem ser falados, consulte identificação do idioma.Para alterar o idioma de tradução de fala, substitua
itpor outro idioma com suporte. Com poucas exceções, você especifica apenas o código de idioma que precede o separador de traço de localidade (-). Por exemplo, useespara espanhol (Espanha) em vez dees-ES. O idioma padrão éense você não especificar um idioma.
Crie o arquivo
tsconfig.jsonpara transpilar o código TypeScript e copiar o código a seguir para ECMAScript.{ "compilerOptions": { "module": "NodeNext", "target": "ES2022", // Supports top-level await "moduleResolution": "NodeNext", "skipLibCheck": true, // Avoid type errors from node_modules "strict": true // Enable strict type-checking options }, "include": ["*.ts"] }Transcompilar de TypeScript para JavaScript.
tscEsse comando não produzirá nenhuma saída se tiver êxito.
Execute seu novo aplicativo de console para iniciar o reconhecimento de fala a partir de um arquivo:
node translation.js
Saída
A fala do arquivo de áudio deve ser a saída como texto traduzido no idioma de destino:
RECOGNIZED: Text=I'm excited to try speech translation.
Translated into [it]: Sono entusiasta di provare la traduzione vocale.
Comentários
Agora que você concluiu o início rápido, aqui estão algumas considerações adicionais:
Este exemplo usa a operação recognizeOnceAsync para transcrever enunciados de até 30 segundos ou até que o silêncio seja detectado. Para obter informações sobre o reconhecimento contínuo de áudios mais longos, incluindo conversas multilíngues, consulte Como traduzir fala.
Observação
Não há suporte para reconhecer a fala a partir de um microfone no Node.js. Há suporte apenas em um ambiente JavaScript baseado em navegador.
Limpar os recursos
Você pode usar o portal do Azure ou a CLI (interface de linha de comando) do Azure para remover o recurso de fala que você criou.
Referência da API REST de conversão de fala em texto | Referência da API REST de conversão de fala em texto para áudios curtos | Amostras adicionais no GitHub
A API REST não oferece suporte à tradução de fala. Selecione outra linguagem ou ferramenta de programação na parte superior desta página.