Início rápido de conversão de fala em texto - Foundry Tools

Neste guia de início rápido, você irá experimentar a conversão de fala para texto em tempo real no Microsoft Foundry.

Pré-requisitos

Uma assinatura do Azure.
Um projeto do Foundry. Se você precisar criar um projeto, consulte Criar um projeto do Microsoft Foundry.

Experimentar a conversão de fala em texto em tempo real

Portal do Foundry (novo)
Portal do Foundry (clássico)

Entre no Microsoft Foundry. Certifique-se de que a chave New Foundry está ativada. Estas etapas se referem ao Foundry (novo).
Selecione Compilar no menu superior direito.
Selecione Modelos no painel esquerdo.
A guia Serviços de IA mostra os modelos do Foundry que podem ser usados prontamente no portal do Foundry. Selecione Azure Speech - Conversão de fala em texto para abrir o ambiente de testes de Conversão de Fala em Texto.
Opcionalmente, use a seção Parâmetros para alterar a tarefa, o idioma, a política de palavrões e outras configurações. Você também pode adicionar instruções especiais para a LLM.
Use a seção Carregar arquivos para selecionar o arquivo de áudio. Em seguida, selecione Iniciar.
Exiba a saída de transcrição na guia Transcrição . Opcionalmente, exiba a saída de resposta da API bruta na guia JSON .
Mude para a guia Código para obter o código de exemplo para usar o recurso de conversão de fala em texto em seu aplicativo.

Entre no Microsoft Foundry. Certifique-se de que o botão New Foundry está desativado. Essas etapas se referem à Fábrica (clássica).
Selecione Playgrounds no painel esquerdo e selecione um playground a ser usado. Neste exemplo, selecione Experimentar o playground de Fala.
Selecione Transcrição em tempo real.
Selecione Mostrar opções avançadas para configurar opções de conversão de fala em texto, como:
- Identificação de idioma: usada para identificar os idiomas falados no áudio quando comparados com uma lista de idiomas com suporte. Para obter mais informações sobre as opções de identificação de idioma, como reconhecimento contínuo e inicial, confira Identificação de idioma.
- Diarização de locutor: usada para identificar e separar os locutores no áudio. A diarização distingue entre os diferentes palestrantes que participam da conversa. O Serviço de fala fornece informações sobre qual locutor estava falando uma parte específica da fala transcrita. Para obter mais informações sobre a diarização do falante, veja o guia de início rápido sobre conversão de fala em texto em tempo real com diarização do falante.
- Ponto de extremidade personalizado: use um modelo implantado da fala personalizada para aprimorar a precisão do reconhecimento. Para usar o modelo de linha de base da Microsoft, mantenha essa opção definida como Nenhum. Para obter mais informações sobre a fala personalizada, confira Fala Personalizada.
- Formato de saída: escolha um entre vários formatos de saída simples e detalhados. A saída simples inclui formato de exibição e registros de data e hora. A saída detalhada inclui mais formatos (como exibição, lexical, ITN e ITN mascarado), carimbos de data/hora e listas de N melhores.
- Lista de frases: aprimore a precisão da transcrição fornecendo uma lista de frases conhecidas, como nomes de pessoas ou localizações específicas. Use vírgulas ou ponto e vírgula para separar cada valor na lista de frases. Para obter mais informações sobre as listas de frases, confira Listas de frases.
Selecione um arquivo de áudio para carregar ou grave um áudio em tempo real. Neste exemplo, usamos o arquivo Call1_separated_16k_health_insurance.wav disponível no repositório do SDK de Fala no GitHub. Baixe o arquivo ou use um arquivo de áudio próprio.
Você pode exibir a transcrição em tempo real na parte inferior da página.
Você pode selecionar a guia JSON para ver a saída JSON da transcrição. As propriedades incluem Offset, Duration, RecognitionStatus, Display, Lexical, ITN e muito mais.

Documentação de referência | Pacotes (NuGet) | Amostras adicionais no GitHub

Neste guia de início rápido, você cria e executa um aplicativo para reconhecer e transcrever fala em texto em tempo real.

Dica

Para a transcrição rápida de arquivos de áudio, considere o uso da API de Transcrição Rápida. A API de Transcrição Rápida dá suporte a recursos como identificação de idioma e diarização.

Para transcrever arquivos de áudio de forma assíncrona, confira O que é transcrição em lote. Se você não tiver certeza de qual solução de conversão de fala em texto é adequada para você, confira O que é conversão de fala em texto?

Pré-requisitos

Uma assinatura do Azure. É possível criar uma gratuitamente.
Crie um recurso dos Serviços de IA para Fala no portal do Azure.
Obtenha o ponto de extremidade e a chave do recurso de Fala. Depois que seu recurso de Serviço Cognitivo do Azure para Fala for implantado, selecione Ir para o recurso para visualizar e gerenciar as chaves.

Configurar o ambiente

O SDK de Fala está disponível como um pacote NuGet e implementa o .NET Standard 2.0. Você instalará o Serviço Cognitivo do Azure para Fala SDK mais adiante nesse guia. Para quaisquer outros requisitos, consulte Instalar o SDK de Fala.

Definir variáveis de ambiente

Você precisa autenticar seu aplicativo para acessar as Ferramentas Foundry. Este artigo mostra como usar variáveis de ambiente para armazenar suas credenciais. Em seguida, você poderá acessar as variáveis de ambiente do seu código para autenticar seu aplicativo. Para a produção, use um método mais seguro para armazenar e acessar suas credenciais.

Importante

Recomendamos a autenticação do Microsoft Entra ID com identidades gerenciadas para recursos do Azure a fim de evitar o armazenamento de credenciais com seus aplicativos executados na nuvem.

Use as chaves de API com cautela. Não inclua a chave da API diretamente no seu código e nunca a publique publicamente. Se estiver usando chaves de API, armazene-as com segurança no Azure Key Vault, faça a rotação de chaves regularmente e restrinja o acesso ao Azure Key Vault usando controle de acesso baseado em função e restrições de acesso à rede. Para obter mais informações sobre como usar chaves de API com segurança em seus aplicativos, confira Chaves de API com o Azure Key Vault.

Para obter mais informações sobre segurança dos serviços de IA, confira Autenticar solicitações para os serviços de IA do Azure.

Para definir as variáveis de ambiente para seu ponto de extremidade e chave de recurso de Fala, abra uma janela do console e siga as instruções para seu sistema operacional e ambiente de desenvolvimento.

Para definir a variável de ambiente SPEECH_KEY, substitua your-key por uma das chaves do recurso.
Para definir a ENDPOINT variável de ambiente, substitua seu ponto de extremidade por um dos pontos de extremidade do seu recurso.

setx SPEECH_KEY your-key
setx ENDPOINT your-endpoint

Observação

Se precisar acessar as variáveis de ambiente apenas no console atual, você pode definir a variável de ambiente com set em vez de setx.

Depois de adicionar as variáveis de ambiente, talvez seja necessário reiniciar todos os programas que precisem ler a variável de ambiente, inclusive a janela do console. Por exemplo, se estiver usando o Visual Studio como editor, reinicie o Visual Studio antes de executar o exemplo.

Bash

Edite seu arquivo .bashrc e adicione as variáveis de ambiente:

export SPEECH_KEY=your-key
export ENDPOINT=your-endpoint

Depois de adicionar as variáveis de ambiente, execute source ~/.bashrc na janela do console para que as alterações entrem em vigor.

Bash

Edite seu arquivo .bash_profile e adicione as variáveis de ambiente:

export SPEECH_KEY=your-key
export ENDPOINT=your-endpoint

Depois de adicionar as variáveis de ambiente, execute source ~/.bash_profile na janela do console para que as alterações entrem em vigor.

Xcode

Para desenvolvimento em iOS e macOS, defina as variáveis de ambiente no Xcode. Por exemplo, siga estas etapas para definir a variável de ambiente no Xcode 13.4.1.

Selecione Produto>Esquema>Editar esquema
Selecione Argumentos na página Executar (Execução de Depuração).
Em Variáveis de Ambiente, selecione o sinal de adição (+) para adicionar uma nova variável de ambiente.
Insira SPEECH_KEY para o Nome e insira sua chave de recurso de Serviço Cognitivo do Azure para Fala para o Valor.

Para definir a variável de ambiente para seu ponto de extremidade de recurso de Fala, siga as mesmas etapas. Defina ENDPOINT como o ponto de extremidade do recurso. Por exemplo, https://YourServiceRegion.api.cognitive.microsoft.com.

Para obter mais opções de configuração, consulte a documentação do Xcode.

Reconhecer fala de um microfone

Dica

Experimente o Kit de Ferramentas do Azure Speech in Foundry Tools para criar e executar amostras com facilidade no Visual Studio Code.

Siga estas etapas para criar um aplicativo de console e instalar o SDK de Fala.

Abra uma janela do prompt de comando na pasta em que você deseja o novo projeto. Execute este comando para criar um aplicativo de console com a CLI do .NET.
```
dotnet new console
```
Esse comando cria o arquivo Program.cs no diretório do projeto.
Instale o SDK de Fala em seu novo projeto com a CLI do .NET.
```
dotnet add package Microsoft.CognitiveServices.Speech
```

Substitua o conteúdo de Program.cs pelo código a seguir:

using System;
using System.IO;
using System.Threading.Tasks;
using Microsoft.CognitiveServices.Speech;
using Microsoft.CognitiveServices.Speech.Audio;

class Program 
{
    // This example requires environment variables named "SPEECH_KEY" and "ENDPOINT"
    static string speechKey = Environment.GetEnvironmentVariable("SPEECH_KEY");
    static string endpoint = Environment.GetEnvironmentVariable("ENDPOINT");

    static void OutputSpeechRecognitionResult(SpeechRecognitionResult speechRecognitionResult)
    {
        switch (speechRecognitionResult.Reason)
        {
            case ResultReason.RecognizedSpeech:
                Console.WriteLine($"RECOGNIZED: Text={speechRecognitionResult.Text}");
                break;
            case ResultReason.NoMatch:
                Console.WriteLine($"NOMATCH: Speech could not be recognized.");
                break;
            case ResultReason.Canceled:
                var cancellation = CancellationDetails.FromResult(speechRecognitionResult);
                Console.WriteLine($"CANCELED: Reason={cancellation.Reason}");

                if (cancellation.Reason == CancellationReason.Error)
                {
                    Console.WriteLine($"CANCELED: ErrorCode={cancellation.ErrorCode}");
                    Console.WriteLine($"CANCELED: ErrorDetails={cancellation.ErrorDetails}");
                    Console.WriteLine($"CANCELED: Did you set the speech resource key and endpoint values?");
                }
                break;
        }
    }

    async static Task Main(string[] args)
    {
        var speechConfig = SpeechConfig.FromEndpoint(speechKey, endpoint);
        speechConfig.SpeechRecognitionLanguage = "en-US";

        using var audioConfig = AudioConfig.FromDefaultMicrophoneInput();
        using var speechRecognizer = new SpeechRecognizer(speechConfig, audioConfig);

        Console.WriteLine("Speak into your microphone.");
        var speechRecognitionResult = await speechRecognizer.RecognizeOnceAsync();
        OutputSpeechRecognitionResult(speechRecognitionResult);
    }
}

Para alterar o idioma de reconhecimento de fala, substitua en-US por outro idioma com suporte. Por exemplo, use es-ES para espanhol (Espanha). Se você não especificar um idioma, o padrão será en-US. Para obter detalhes sobre como identificar um dos vários idiomas que podem ser falados, consulte Identificação do idioma.
Execute seu novo aplicativo de console para iniciar o reconhecimento de fala a partir de um microfone:
```
dotnet run
```
Importante

Certifique-se de definir SPEECH_KEY e as ENDPOINTvariáveis de ambiente. Se você não definir essas variáveis, a amostra falhará com uma mensagem de erro.

Fale no microfone quando solicitado. O que você fala deve aparecer como texto:

Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech to text.

Comentários

Confira outras considerações:

Este exemplo usa a operação RecognizeOnceAsync para transcrever enunciados de até 30 segundos ou até que o silêncio seja detectado. Para obter informações sobre o reconhecimento contínuo de áudios mais longos, incluindo conversas multilíngues, consulte Como reconhecer a fala.
Para reconhecer a fala de um arquivo de áudio, use FromWavFileInput em vez de FromDefaultMicrophoneInput:
```
using var audioConfig = AudioConfig.FromWavFileInput("YourAudioFile.wav");
```
Para arquivos de áudio compactados, como MP4, instale o GStreamer e use PullAudioInputStream ou PushAudioInputStream. Para saber mais, confira Como usar áudio de entrada compactado.

Limpar os recursos

Você pode usar o portal do Azure ou a CLI (interface de linha de comando) do Azure para remover o recurso de fala que você criou.

Documentação de referência | Pacotes (NuGet) | Amostras adicionais no GitHub

Neste guia de início rápido, você cria e executa um aplicativo para reconhecer e transcrever fala em texto em tempo real.

Dica

Para a transcrição rápida de arquivos de áudio, considere o uso da API de Transcrição Rápida. A API de Transcrição Rápida dá suporte a recursos como identificação de idioma e diarização.

Para transcrever arquivos de áudio de forma assíncrona, confira O que é transcrição em lote. Se você não tiver certeza de qual solução de conversão de fala em texto é adequada para você, confira O que é conversão de fala em texto?

Pré-requisitos

Uma assinatura do Azure. É possível criar uma gratuitamente.
Crie um recurso dos Serviços de IA para Fala no portal do Azure.
Obtenha o ponto de extremidade e a chave do recurso de Fala. Depois que seu recurso de Serviço Cognitivo do Azure para Fala for implantado, selecione Ir para o recurso para visualizar e gerenciar as chaves.

Configurar o ambiente

O SDK de Fala está disponível como um pacote NuGet e implementa o .NET Standard 2.0. Você instalará o Serviço Cognitivo do Azure para Fala SDK mais adiante nesse guia. Para outros requisitos, consulte Instalar o SDK de Fala.

Definir variáveis de ambiente

Você precisa autenticar seu aplicativo para acessar as Ferramentas Foundry. Este artigo mostra como usar variáveis de ambiente para armazenar suas credenciais. Em seguida, você poderá acessar as variáveis de ambiente do seu código para autenticar seu aplicativo. Para a produção, use um método mais seguro para armazenar e acessar suas credenciais.

Importante

Recomendamos a autenticação do Microsoft Entra ID com identidades gerenciadas para recursos do Azure a fim de evitar o armazenamento de credenciais com seus aplicativos executados na nuvem.

Use as chaves de API com cautela. Não inclua a chave da API diretamente no seu código e nunca a publique publicamente. Se estiver usando chaves de API, armazene-as com segurança no Azure Key Vault, faça a rotação de chaves regularmente e restrinja o acesso ao Azure Key Vault usando controle de acesso baseado em função e restrições de acesso à rede. Para obter mais informações sobre como usar chaves de API com segurança em seus aplicativos, confira Chaves de API com o Azure Key Vault.

Para obter mais informações sobre segurança dos serviços de IA, confira Autenticar solicitações para os serviços de IA do Azure.

Para definir as variáveis de ambiente para seu ponto de extremidade e chave de recurso de Fala, abra uma janela do console e siga as instruções para seu sistema operacional e ambiente de desenvolvimento.

Para definir a variável de ambiente SPEECH_KEY, substitua your-key por uma das chaves do recurso.
Para definir a ENDPOINT variável de ambiente, substitua seu ponto de extremidade por um dos pontos de extremidade do seu recurso.

setx SPEECH_KEY your-key
setx ENDPOINT your-endpoint

Observação

Se precisar acessar as variáveis de ambiente apenas no console atual, você pode definir a variável de ambiente com set em vez de setx.

Depois de adicionar as variáveis de ambiente, talvez seja necessário reiniciar todos os programas que precisem ler a variável de ambiente, inclusive a janela do console. Por exemplo, se estiver usando o Visual Studio como editor, reinicie o Visual Studio antes de executar o exemplo.

Bash

Edite seu arquivo .bashrc e adicione as variáveis de ambiente:

export SPEECH_KEY=your-key
export ENDPOINT=your-endpoint

Depois de adicionar as variáveis de ambiente, execute source ~/.bashrc na janela do console para que as alterações entrem em vigor.

Bash

Edite seu arquivo .bash_profile e adicione as variáveis de ambiente:

export SPEECH_KEY=your-key
export ENDPOINT=your-endpoint

Depois de adicionar as variáveis de ambiente, execute source ~/.bash_profile na janela do console para que as alterações entrem em vigor.

Xcode

Para desenvolvimento em iOS e macOS, defina as variáveis de ambiente no Xcode. Por exemplo, siga estas etapas para definir a variável de ambiente no Xcode 13.4.1.

Selecione Produto>Esquema>Editar esquema
Selecione Argumentos na página Executar (Execução de Depuração).
Em Variáveis de Ambiente, selecione o sinal de adição (+) para adicionar uma nova variável de ambiente.
Insira SPEECH_KEY para o Nome e insira sua chave de recurso de Serviço Cognitivo do Azure para Fala para o Valor.

Para definir a variável de ambiente para seu ponto de extremidade de recurso de Fala, siga as mesmas etapas. Defina ENDPOINT como o ponto de extremidade do recurso. Por exemplo, https://YourServiceRegion.api.cognitive.microsoft.com.

Para obter mais opções de configuração, consulte a documentação do Xcode.

Reconhecer fala de um microfone

Dica

Experimente o Kit de Ferramentas do Azure Speech in Foundry Tools para criar e executar amostras com facilidade no Visual Studio Code.

Siga estas etapas para criar um aplicativo de console e instalar o SDK de Fala.

Crie um novo projeto de console C++ no Visual Studio Community chamado SpeechRecognition.
Selecione Ferramentas>Gerenciador de pacotes Nuget>Console do gerenciador de pacotes. No Console do gerenciador de pacotes, execute este comando:
```
Install-Package Microsoft.CognitiveServices.Speech
```

Substitua o conteúdo de SpeechRecognition.cpp pelo seguinte código:

#include <iostream> 
#include <stdlib.h>
#include <speechapi_cxx.h>

using namespace Microsoft::CognitiveServices::Speech;
using namespace Microsoft::CognitiveServices::Speech::Audio;

std::string GetEnvironmentVariable(const char* name);

int main()
{
    // This example requires environment variables named "SPEECH_KEY" and "ENDPOINT"
    auto speechKey = GetEnvironmentVariable("SPEECH_KEY");
    auto endpoint = GetEnvironmentVariable("ENDPOINT");

    if ((size(speechKey) == 0) || (size(endpoint) == 0)) {
        std::cout << "Please set both SPEECH_KEY and ENDPOINT environment variables." << std::endl;
        return -1;
    }

    auto speechConfig = SpeechConfig::FromEndpoint(speechKey, endpoint);

    speechConfig->SetSpeechRecognitionLanguage("en-US");

    auto audioConfig = AudioConfig::FromDefaultMicrophoneInput();
    auto speechRecognizer = SpeechRecognizer::FromConfig(speechConfig, audioConfig);

    std::cout << "Speak into your microphone.\n";
    auto result = speechRecognizer->RecognizeOnceAsync().get();

    if (result->Reason == ResultReason::RecognizedSpeech)
    {
        std::cout << "RECOGNIZED: Text=" << result->Text << std::endl;
    }
    else if (result->Reason == ResultReason::NoMatch)
    {
        std::cout << "NOMATCH: Speech could not be recognized." << std::endl;
    }
    else if (result->Reason == ResultReason::Canceled)
    {
        auto cancellation = CancellationDetails::FromResult(result);
        std::cout << "CANCELED: Reason=" << (int)cancellation->Reason << std::endl;

        if (cancellation->Reason == CancellationReason::Error)
        {
            std::cout << "CANCELED: ErrorCode=" << (int)cancellation->ErrorCode << std::endl;
            std::cout << "CANCELED: ErrorDetails=" << cancellation->ErrorDetails << std::endl;
            std::cout << "CANCELED: Did you set the speech resource key and endpoint values?" << std::endl;
        }
    }
}

std::string GetEnvironmentVariable(const char* name)
{
#if defined(_MSC_VER)
    size_t requiredSize = 0;
    (void)getenv_s(&requiredSize, nullptr, 0, name);
    if (requiredSize == 0)
    {
        return "";
    }
    auto buffer = std::make_unique<char[]>(requiredSize);
    (void)getenv_s(&requiredSize, buffer.get(), requiredSize, name);
    return buffer.get();
#else
    auto value = getenv(name);
    return value ? value : "";
#endif
}

Para alterar o idioma de reconhecimento de fala, substitua en-US por outro idioma com suporte. Por exemplo, use es-ES para espanhol (Espanha). Se você não especificar um idioma, o padrão será en-US. Para obter detalhes sobre como identificar um dos vários idiomas que podem ser falados, consulte Identificação do idioma.
Para iniciar o reconhecimento de fala de um microfone, crie e execute seu novo aplicativo de console.

Importante

Certifique-se de definir SPEECH_KEY e as ENDPOINTvariáveis de ambiente. Se você não definir essas variáveis, a amostra falhará com uma mensagem de erro.

Fale no microfone quando solicitado. O que você fala deve aparecer como texto:

Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech to text.

Comentários

Confira outras considerações:

Este exemplo usa a operação RecognizeOnceAsync para transcrever enunciados de até 30 segundos ou até que o silêncio seja detectado. Para obter informações sobre o reconhecimento contínuo de áudios mais longos, incluindo conversas multilíngues, consulte Como reconhecer a fala.
Para reconhecer a fala de um arquivo de áudio, use FromWavFileInput em vez de FromDefaultMicrophoneInput:
```
auto audioConfig = AudioConfig::FromWavFileInput("YourAudioFile.wav");
```
Para arquivos de áudio compactados, como MP4, instale o GStreamer e use PullAudioInputStream ou PushAudioInputStream. Para saber mais, confira Como usar áudio de entrada compactado.

Limpar os recursos

Você pode usar o portal do Azure ou a CLI (interface de linha de comando) do Azure para remover o recurso de fala que você criou.

Documentação de referência | Pacote (Go) | Amostras adicionais no GitHub

Neste guia de início rápido, você cria e executa um aplicativo para reconhecer e transcrever fala em texto em tempo real.

Dica

Para a transcrição rápida de arquivos de áudio, considere o uso da API de Transcrição Rápida. A API de Transcrição Rápida dá suporte a recursos como identificação de idioma e diarização.

Para transcrever arquivos de áudio de forma assíncrona, confira O que é transcrição em lote. Se você não tiver certeza de qual solução de conversão de fala em texto é adequada para você, confira O que é conversão de fala em texto?

Pré-requisitos

Uma assinatura do Azure. É possível criar uma gratuitamente.
Crie um recurso do Foundry para Voz no portal do Azure.
Obtenha a chave e a região do recurso de Fala. Depois que seu recurso de Serviço Cognitivo do Azure para Fala for implantado, selecione Ir para o recurso para visualizar e gerenciar as chaves.

Configurar o ambiente

Instale o Serviço Cognitivo do Azure para Fala SDK para Go. Para obter requisitos e instruções, consulte Instalar o SDK de Fala.

Definir variáveis de ambiente

Você precisa autenticar seu aplicativo para acessar as Ferramentas Foundry. Este artigo mostra como usar variáveis de ambiente para armazenar suas credenciais. Em seguida, você poderá acessar as variáveis de ambiente do seu código para autenticar seu aplicativo. Para a produção, use um método mais seguro para armazenar e acessar suas credenciais.

Importante

Recomendamos a autenticação do Microsoft Entra ID com identidades gerenciadas para recursos do Azure a fim de evitar o armazenamento de credenciais com seus aplicativos executados na nuvem.

Use as chaves de API com cautela. Não inclua a chave da API diretamente no seu código e nunca a publique publicamente. Se estiver usando chaves de API, armazene-as com segurança no Azure Key Vault, faça a rotação de chaves regularmente e restrinja o acesso ao Azure Key Vault usando controle de acesso baseado em função e restrições de acesso à rede. Para obter mais informações sobre como usar chaves de API com segurança em seus aplicativos, confira Chaves de API com o Azure Key Vault.

Para obter mais informações sobre segurança dos serviços de IA, confira Autenticar solicitações para os serviços de IA do Azure.

Para definir as variáveis de ambiente para sua região e chave de recurso de Serviço Cognitivo do Azure para Fala, abra uma janela de console e siga as instruções para seu sistema operacional e ambiente de desenvolvimento.

Para definir a variável de ambiente SPEECH_KEY, substitua your-key por uma das chaves do recurso.
Para definir a variável de ambiente SPEECH_REGION, substitua your-region por uma das regiões do recurso.
Para definir a ENDPOINT variável de ambiente, substitua your-endpoint pelo ponto de extremidade real do recurso de fala.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint

Observação

Se precisar acessar as variáveis de ambiente apenas no console atual, você pode definir a variável de ambiente com set em vez de setx.

Depois de adicionar as variáveis de ambiente, talvez seja necessário reiniciar todos os programas que precisem ler a variável de ambiente, inclusive a janela do console. Por exemplo, se estiver usando o Visual Studio como editor, reinicie o Visual Studio antes de executar o exemplo.

Bash

Edite seu arquivo .bashrc e adicione as variáveis de ambiente:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region
export ENDPOINT=your-endpoint

Depois de adicionar as variáveis de ambiente, execute source ~/.bashrc na janela do console para que as alterações entrem em vigor.

Bash

Edite seu arquivo .bash_profile e adicione as variáveis de ambiente:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region
export ENDPOINT=your-endpoint

Depois de adicionar as variáveis de ambiente, execute source ~/.bash_profile na janela do console para que as alterações entrem em vigor.

Xcode

Para desenvolvimento em iOS e macOS, defina as variáveis de ambiente no Xcode. Por exemplo, siga estas etapas para definir a variável de ambiente no Xcode 13.4.1.

Selecione Produto>Esquema>Editar esquema
Selecione Argumentos na página Executar (Execução de Depuração).
Em Variáveis de Ambiente, selecione o sinal de adição (+) para adicionar uma nova variável de ambiente.
Insira SPEECH_KEY para o Nome e insira sua chave de recurso de Serviço Cognitivo do Azure para Fala para o Valor.

Para definir a variável de ambiente para sua região de recursos de Fala, siga as mesmas etapas. Defina SPEECH_REGION para a região do seu recurso. Por exemplo, westus. Definir ENDPOINT como o ponto de extremidade do recurso

Para obter mais opções de configuração, consulte a documentação do Xcode.

Reconhecer fala de um microfone

Siga estas etapas para criar um módulo GO.

Abra uma janela do prompt de comando na pasta em que você deseja o novo projeto. Crie um novo arquivo chamado speech-recognition.go.

Copie o seguinte código em speech-recognition.go:

package main

import (
    "bufio"
    "fmt"
    "os"

    "github.com/Microsoft/cognitive-services-speech-sdk-go/audio"
    "github.com/Microsoft/cognitive-services-speech-sdk-go/speech"
)

func sessionStartedHandler(event speech.SessionEventArgs) {
    defer event.Close()
    fmt.Println("Session Started (ID=", event.SessionID, ")")
}

func sessionStoppedHandler(event speech.SessionEventArgs) {
    defer event.Close()
    fmt.Println("Session Stopped (ID=", event.SessionID, ")")
}

func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
    defer event.Close()
    fmt.Println("Recognizing:", event.Result.Text)
}

func recognizedHandler(event speech.SpeechRecognitionEventArgs) {
    defer event.Close()
    fmt.Println("Recognized:", event.Result.Text)
}

func cancelledHandler(event speech.SpeechRecognitionCanceledEventArgs) {
    defer event.Close()
    fmt.Println("Received a cancellation: ", event.ErrorDetails)
    fmt.Println("Did you set the speech resource key and region values?")
}

func main() {
    // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
    speechKey :=  os.Getenv("SPEECH_KEY")
    speechRegion := os.Getenv("SPEECH_REGION")

    audioConfig, err := audio.NewAudioConfigFromDefaultMicrophoneInput()
    if err != nil {
        fmt.Println("Got an error: ", err)
        return
    }
    defer audioConfig.Close()
    speechConfig, err := speech.NewSpeechConfigFromSubscription(speechKey, speechRegion)
    if err != nil {
        fmt.Println("Got an error: ", err)
        return
    }
    defer speechConfig.Close()
    speechRecognizer, err := speech.NewSpeechRecognizerFromConfig(speechConfig, audioConfig)
    if err != nil {
        fmt.Println("Got an error: ", err)
        return
    }
    defer speechRecognizer.Close()
    speechRecognizer.SessionStarted(sessionStartedHandler)
    speechRecognizer.SessionStopped(sessionStoppedHandler)
    speechRecognizer.Recognizing(recognizingHandler)
    speechRecognizer.Recognized(recognizedHandler)
    speechRecognizer.Canceled(cancelledHandler)
    speechRecognizer.StartContinuousRecognitionAsync()
    defer speechRecognizer.StopContinuousRecognitionAsync()
    bufio.NewReader(os.Stdin).ReadBytes('\n')
}

Execute os comandos a seguir para criar um arquivo go.mod vinculado aos componentes hospedados no GitHub:
```
go mod init speech-recognition
go get github.com/Microsoft/cognitive-services-speech-sdk-go
```
Importante

Certifique-se de definir SPEECH_KEY e as SPEECH_REGIONvariáveis de ambiente. Se você não definir essas variáveis, a amostra falhará com uma mensagem de erro.
Criar e executar o código:
```
go build
go run speech-recognition
```

Limpar os recursos

Você pode usar o portal do Azure ou a CLI (interface de linha de comando) do Azure para remover o recurso de fala que você criou.

Documentação de referência | Amostras adicionais no GitHub

Neste guia de início rápido, você cria e executa um aplicativo para reconhecer e transcrever fala em texto em tempo real.

Dica

Para a transcrição rápida de arquivos de áudio, considere o uso da API de Transcrição Rápida. A API de Transcrição Rápida dá suporte a recursos como identificação de idioma e diarização.

Para transcrever arquivos de áudio de forma assíncrona, confira O que é transcrição em lote. Se você não tiver certeza de qual solução de conversão de fala em texto é adequada para você, confira O que é conversão de fala em texto?

Pré-requisitos

Uma assinatura do Azure. É possível criar uma gratuitamente.
Crie um recurso dos Serviços de IA para Fala no portal do Azure.
Obtenha o ponto de extremidade e a chave do recurso de Fala. Depois que seu recurso de Serviço Cognitivo do Azure para Fala for implantado, selecione Ir para o recurso para visualizar e gerenciar as chaves.

Configurar o ambiente

Para configurar o seu ambiente, instale o SDK de Fala. O exemplo deste guia de início rápido funciona com o Runtime Java.

Instale o Apache Maven. Em seguida, execute mvn -v para confirmar a instalação bem-sucedida.

Crie um novo arquivo pom.xml na raiz do projeto e copie nele o seguinte código:

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>
    <groupId>com.microsoft.cognitiveservices.speech.samples</groupId>
    <artifactId>quickstart-eclipse</artifactId>
    <version>1.0.0-SNAPSHOT</version>
    <build>
        <sourceDirectory>src</sourceDirectory>
        <plugins>
        <plugin>
            <artifactId>maven-compiler-plugin</artifactId>
            <version>3.7.0</version>
            <configuration>
            <source>1.8</source>
            <target>1.8</target>
            </configuration>
        </plugin>
        </plugins>
    </build>
    <dependencies>
        <dependency>
        <groupId>com.microsoft.cognitiveservices.speech</groupId>
        <artifactId>client-sdk</artifactId>
        <version>1.43.0</version>
        </dependency>
    </dependencies>
</project>

Instale o SDK de Fala e as dependências.
```
mvn clean dependency:copy-dependencies
```

Definir variáveis de ambiente

Você precisa autenticar seu aplicativo para acessar as Ferramentas Foundry. Este artigo mostra como usar variáveis de ambiente para armazenar suas credenciais. Em seguida, você poderá acessar as variáveis de ambiente do seu código para autenticar seu aplicativo. Para a produção, use um método mais seguro para armazenar e acessar suas credenciais.

Importante

Recomendamos a autenticação do Microsoft Entra ID com identidades gerenciadas para recursos do Azure a fim de evitar o armazenamento de credenciais com seus aplicativos executados na nuvem.

Use as chaves de API com cautela. Não inclua a chave da API diretamente no seu código e nunca a publique publicamente. Se estiver usando chaves de API, armazene-as com segurança no Azure Key Vault, faça a rotação de chaves regularmente e restrinja o acesso ao Azure Key Vault usando controle de acesso baseado em função e restrições de acesso à rede. Para obter mais informações sobre como usar chaves de API com segurança em seus aplicativos, confira Chaves de API com o Azure Key Vault.

Para obter mais informações sobre segurança dos serviços de IA, confira Autenticar solicitações para os serviços de IA do Azure.

Para definir as variáveis de ambiente para seu ponto de extremidade e chave de recurso de Fala, abra uma janela do console e siga as instruções para seu sistema operacional e ambiente de desenvolvimento.

Para definir a variável de ambiente SPEECH_KEY, substitua your-key por uma das chaves do recurso.
Para definir a ENDPOINT variável de ambiente, substitua seu ponto de extremidade por um dos pontos de extremidade do seu recurso.

setx SPEECH_KEY your-key
setx ENDPOINT your-endpoint

Observação

Se precisar acessar as variáveis de ambiente apenas no console atual, você pode definir a variável de ambiente com set em vez de setx.

Depois de adicionar as variáveis de ambiente, talvez seja necessário reiniciar todos os programas que precisem ler a variável de ambiente, inclusive a janela do console. Por exemplo, se estiver usando o Visual Studio como editor, reinicie o Visual Studio antes de executar o exemplo.

Bash

Edite seu arquivo .bashrc e adicione as variáveis de ambiente:

export SPEECH_KEY=your-key
export ENDPOINT=your-endpoint

Depois de adicionar as variáveis de ambiente, execute source ~/.bashrc na janela do console para que as alterações entrem em vigor.

Bash

Edite seu arquivo .bash_profile e adicione as variáveis de ambiente:

export SPEECH_KEY=your-key
export ENDPOINT=your-endpoint

Depois de adicionar as variáveis de ambiente, execute source ~/.bash_profile na janela do console para que as alterações entrem em vigor.

Xcode

Para desenvolvimento em iOS e macOS, defina as variáveis de ambiente no Xcode. Por exemplo, siga estas etapas para definir a variável de ambiente no Xcode 13.4.1.

Selecione Produto>Esquema>Editar esquema
Selecione Argumentos na página Executar (Execução de Depuração).
Em Variáveis de Ambiente, selecione o sinal de adição (+) para adicionar uma nova variável de ambiente.
Insira SPEECH_KEY para o Nome e insira sua chave de recurso de Serviço Cognitivo do Azure para Fala para o Valor.

Para definir a variável de ambiente para seu ponto de extremidade de recurso de Fala, siga as mesmas etapas. Defina ENDPOINT como o ponto de extremidade do recurso. Por exemplo, https://YourServiceRegion.api.cognitive.microsoft.com.

Para obter mais opções de configuração, consulte a documentação do Xcode.

Reconhecer fala de um microfone

Siga estas etapas para criar um aplicativo de console para reconhecimento de fala.

Crie um novo arquivo chamado SpeechRecognition.java no mesmo diretório raiz do projeto.

Copie o seguinte código em SpeechRecognition.java:

import com.microsoft.cognitiveservices.speech.*;
import com.microsoft.cognitiveservices.speech.audio.AudioConfig;

import java.util.concurrent.ExecutionException;
import java.util.concurrent.Future;

public class SpeechRecognition {
    // This example requires environment variables named "SPEECH_KEY" and "ENDPOINT"
    private static String speechKey = System.getenv("SPEECH_KEY");
    private static String endpoint = System.getenv("ENDPOINT");

    public static void main(String[] args) throws InterruptedException, ExecutionException {
        SpeechConfig speechConfig = SpeechConfig.fromEndpoint(speechKey, endpoint);
        speechConfig.setSpeechRecognitionLanguage("en-US");
        recognizeFromMicrophone(speechConfig);
    }

    public static void recognizeFromMicrophone(SpeechConfig speechConfig) throws InterruptedException, ExecutionException {
        AudioConfig audioConfig = AudioConfig.fromDefaultMicrophoneInput();
        SpeechRecognizer speechRecognizer = new SpeechRecognizer(speechConfig, audioConfig);

        System.out.println("Speak into your microphone.");
        Future<SpeechRecognitionResult> task = speechRecognizer.recognizeOnceAsync();
        SpeechRecognitionResult speechRecognitionResult = task.get();

        if (speechRecognitionResult.getReason() == ResultReason.RecognizedSpeech) {
            System.out.println("RECOGNIZED: Text=" + speechRecognitionResult.getText());
        }
        else if (speechRecognitionResult.getReason() == ResultReason.NoMatch) {
            System.out.println("NOMATCH: Speech could not be recognized.");
        }
        else if (speechRecognitionResult.getReason() == ResultReason.Canceled) {
            CancellationDetails cancellation = CancellationDetails.fromResult(speechRecognitionResult);
            System.out.println("CANCELED: Reason=" + cancellation.getReason());

            if (cancellation.getReason() == CancellationReason.Error) {
                System.out.println("CANCELED: ErrorCode=" + cancellation.getErrorCode());
                System.out.println("CANCELED: ErrorDetails=" + cancellation.getErrorDetails());
                System.out.println("CANCELED: Did you set the speech resource key and endpoint values?");
            }
        }

        System.exit(0);
    }
}

Para alterar o idioma de reconhecimento de fala, substitua en-US por outro idioma com suporte. Por exemplo, use es-ES para espanhol (Espanha). Se você não especificar um idioma, o padrão será en-US. Para obter detalhes sobre como identificar um dos vários idiomas que podem ser falados, consulte Identificação do idioma.
Execute seu novo aplicativo de console para iniciar o reconhecimento de fala a partir de um microfone:
```
javac SpeechRecognition.java -cp ".;target\dependency\*"
java -cp ".;target\dependency\*" SpeechRecognition
```
Importante

Certifique-se de definir SPEECH_KEY e as ENDPOINTvariáveis de ambiente. Se você não definir essas variáveis, a amostra falhará com uma mensagem de erro.

Fale no microfone quando solicitado. O que você fala deve aparecer como texto:

Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech to text.

Comentários

Confira outras considerações:

Este exemplo usa a operação RecognizeOnceAsync para transcrever enunciados de até 30 segundos ou até que o silêncio seja detectado. Para obter informações sobre o reconhecimento contínuo de áudios mais longos, incluindo conversas multilíngues, consulte Como reconhecer a fala.
Para reconhecer a fala de um arquivo de áudio, use fromWavFileInput em vez de fromDefaultMicrophoneInput:
```
AudioConfig audioConfig = AudioConfig.fromWavFileInput("YourAudioFile.wav");
```
Para arquivos de áudio compactados, como MP4, instale o GStreamer e use PullAudioInputStream ou PushAudioInputStream. Para saber mais, confira Como usar áudio de entrada compactado.

Limpar os recursos

Você pode usar o portal do Azure ou a CLI (interface de linha de comando) do Azure para remover o recurso de fala que você criou.

Documentação de referência | Pacote (npm) | Amostras adicionais no GitHub | Código-fonte de biblioteca

Neste guia de início rápido, você cria e executa um aplicativo para reconhecer e transcrever fala em texto em tempo real.

Dica

Para a transcrição rápida de arquivos de áudio, considere o uso da API de Transcrição Rápida. A API de Transcrição Rápida dá suporte a recursos como identificação de idioma e diarização.

Para transcrever arquivos de áudio de forma assíncrona, confira O que é transcrição em lote. Se você não tiver certeza de qual solução de conversão de fala em texto é adequada para você, confira O que é conversão de fala em texto?

Pré-requisitos

Uma assinatura do Azure. É possível criar uma gratuitamente.
Crie um recurso do Foundry para Voz no portal do Azure.
Obtenha a chave e a região do recurso de Fala. Depois que seu recurso de Serviço Cognitivo do Azure para Fala for implantado, selecione Ir para o recurso para visualizar e gerenciar as chaves.

Você também precisa de um arquivo de áudio .wav em seu computador local. Você pode usar seu próprio arquivo .wav (de até 30 segundos) ou baixar o arquivo de exemplo https://crbn.us/whatstheweatherlike.wav.

Configuração

Crie uma nova pasta transcription-quickstart e vá para a pasta de início rápido com o seguinte comando:
```
mkdir transcription-quickstart && cd transcription-quickstart
```
Crie o package.json com o seguinte comando:
```
npm init -y
```

Instale o SDK de Fala para JavaScript com:

npm install microsoft-cognitiveservices-speech-sdk

Recuperar as informações do recurso

Você precisa autenticar seu aplicativo para acessar as Ferramentas Foundry. Este artigo mostra como usar variáveis de ambiente para armazenar suas credenciais. Em seguida, você poderá acessar as variáveis de ambiente do seu código para autenticar seu aplicativo. Para a produção, use um método mais seguro para armazenar e acessar suas credenciais.

Importante

Recomendamos a autenticação do Microsoft Entra ID com identidades gerenciadas para recursos do Azure a fim de evitar o armazenamento de credenciais com seus aplicativos executados na nuvem.

Use as chaves de API com cautela. Não inclua a chave da API diretamente no seu código e nunca a publique publicamente. Se estiver usando chaves de API, armazene-as com segurança no Azure Key Vault, faça a rotação de chaves regularmente e restrinja o acesso ao Azure Key Vault usando controle de acesso baseado em função e restrições de acesso à rede. Para obter mais informações sobre como usar chaves de API com segurança em seus aplicativos, confira Chaves de API com o Azure Key Vault.

Para obter mais informações sobre segurança dos serviços de IA, confira Autenticar solicitações para os serviços de IA do Azure.

Para definir as variáveis de ambiente para sua região e chave de recurso de Serviço Cognitivo do Azure para Fala, abra uma janela de console e siga as instruções para seu sistema operacional e ambiente de desenvolvimento.

Para definir a variável de ambiente SPEECH_KEY, substitua your-key por uma das chaves do recurso.
Para definir a variável de ambiente SPEECH_REGION, substitua your-region por uma das regiões do recurso.
Para definir a ENDPOINT variável de ambiente, substitua your-endpoint pelo ponto de extremidade real do recurso de fala.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint

Observação

Se precisar acessar as variáveis de ambiente apenas no console atual, você pode definir a variável de ambiente com set em vez de setx.

Depois de adicionar as variáveis de ambiente, talvez seja necessário reiniciar todos os programas que precisem ler a variável de ambiente, inclusive a janela do console. Por exemplo, se estiver usando o Visual Studio como editor, reinicie o Visual Studio antes de executar o exemplo.

Bash

Edite seu arquivo .bashrc e adicione as variáveis de ambiente:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region
export ENDPOINT=your-endpoint

Depois de adicionar as variáveis de ambiente, execute source ~/.bashrc na janela do console para que as alterações entrem em vigor.

Bash

Edite seu arquivo .bash_profile e adicione as variáveis de ambiente:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region
export ENDPOINT=your-endpoint

Depois de adicionar as variáveis de ambiente, execute source ~/.bash_profile na janela do console para que as alterações entrem em vigor.

Xcode

Para desenvolvimento em iOS e macOS, defina as variáveis de ambiente no Xcode. Por exemplo, siga estas etapas para definir a variável de ambiente no Xcode 13.4.1.

Selecione Produto>Esquema>Editar esquema
Selecione Argumentos na página Executar (Execução de Depuração).
Em Variáveis de Ambiente, selecione o sinal de adição (+) para adicionar uma nova variável de ambiente.
Insira SPEECH_KEY para o Nome e insira sua chave de recurso de Serviço Cognitivo do Azure para Fala para o Valor.

Para definir a variável de ambiente para sua região de recursos de Fala, siga as mesmas etapas. Defina SPEECH_REGION para a região do seu recurso. Por exemplo, westus. Definir ENDPOINT como o ponto de extremidade do recurso

Para obter mais opções de configuração, consulte a documentação do Xcode.

Reconhecer a fala de um arquivo

Para transcrever a fala de um arquivo:

Crie um novo arquivo chamado transcription.js com o seguinte conteúdo:

import { readFileSync, createReadStream } from "fs";
import { SpeechConfig, AudioConfig, ConversationTranscriber, AudioInputStream } from "microsoft-cognitiveservices-speech-sdk";
// This example requires environment variables named "ENDPOINT" and "SPEECH_KEY"
const speechConfig = SpeechConfig.fromEndpoint(new URL(process.env.ENDPOINT), process.env.SPEECH_KEY);
function fromFile() {
    const filename = "katiesteve.wav";
    const audioConfig = AudioConfig.fromWavFileInput(readFileSync(filename));
    const conversationTranscriber = new ConversationTranscriber(speechConfig, audioConfig);
    const pushStream = AudioInputStream.createPushStream();
    createReadStream(filename).on('data', function (chunk) {
        pushStream.write(chunk.slice());
    }).on('end', function () {
        pushStream.close();
    });
    console.log("Transcribing from: " + filename);
    conversationTranscriber.sessionStarted = function (s, e) {
        console.log("SessionStarted event");
        console.log("SessionId:" + e.sessionId);
    };
    conversationTranscriber.sessionStopped = function (s, e) {
        console.log("SessionStopped event");
        console.log("SessionId:" + e.sessionId);
        conversationTranscriber.stopTranscribingAsync();
    };
    conversationTranscriber.canceled = function (s, e) {
        console.log("Canceled event");
        console.log(e.errorDetails);
        conversationTranscriber.stopTranscribingAsync();
    };
    conversationTranscriber.transcribed = function (s, e) {
        console.log("TRANSCRIBED: Text=" + e.result.text + " Speaker ID=" + e.result.speakerId);
    };
    // Start conversation transcription
    conversationTranscriber.startTranscribingAsync(function () { }, function (err) {
        console.trace("err - starting transcription: " + err);
    });
}
fromFile();

Em transcription.js, substitua YourAudioFile.wav por seu próprio arquivo de .wav . Este exemplo só reconhece a fala de um arquivo .wav. Para obter informações sobre outros formatos de áudio, confira Como usar áudio de entrada compactado. Este exemplo dá suporte a um áudio de até 30 segundos.

Para alterar o idioma de reconhecimento de fala, substitua en-US por outro idioma com suporte. Por exemplo, use es-ES para espanhol (Espanha). Se você não especificar um idioma, o padrão será en-US. Para obter detalhes sobre como identificar um dos vários idiomas que podem ser falados, consulte Identificação do idioma.

Execute seu novo aplicativo de console para iniciar o reconhecimento de fala a partir de um arquivo:
```
node transcription.js
```

Leva alguns minutos para obter a resposta.

Saída

A fala do arquivo de áudio deve sair como texto:

RECOGNIZED: Text=I'm excited to try speech to text.

Comentários

Este exemplo usa a operação recognizeOnceAsync para transcrever enunciados de até 30 segundos ou até que o silêncio seja detectado. Para obter informações sobre o reconhecimento contínuo de áudios mais longos, incluindo conversas multilíngues, consulte Como reconhecer a fala.

Observação

Não há suporte para reconhecer a fala a partir de um microfone no Node.js. Há suporte apenas em um ambiente JavaScript baseado em navegador. Para obter mais informações, confira o exemplo de React e a implementação de conversão de fala em texto a partir de um microfone no GitHub.

O exemplo de React mostra padrões de design para a troca e o gerenciamento de tokens de autenticação. Ele também mostra a captura de áudio de um microfone ou arquivo para conversões de fala em texto.

Limpar os recursos

Você pode usar o portal do Azure ou a CLI (interface de linha de comando) do Azure para remover o recurso de fala que você criou.

Documentação de referência | Pacote (PyPi) | Amostras adicionais no GitHub

Neste guia de início rápido, você cria e executa um aplicativo para reconhecer e transcrever fala em texto em tempo real.

Dica

Para a transcrição rápida de arquivos de áudio, considere o uso da API de Transcrição Rápida. A API de Transcrição Rápida dá suporte a recursos como identificação de idioma e diarização.

Para transcrever arquivos de áudio de forma assíncrona, confira O que é transcrição em lote. Se você não tiver certeza de qual solução de conversão de fala em texto é adequada para você, confira O que é conversão de fala em texto?

Pré-requisitos

Uma assinatura do Azure. É possível criar uma gratuitamente.
Crie um recurso dos Serviços de IA para Fala no portal do Azure.
Obtenha o ponto de extremidade e a chave do recurso de Fala. Depois que seu recurso de Serviço Cognitivo do Azure para Fala for implantado, selecione Ir para o recurso para visualizar e gerenciar as chaves.

Configurar o ambiente

O SDK de fala para Python está disponível como um módulo PyPI (índice de pacote do Python). O SDK de Fala para Python é compatível com Windows, Linux e macOS.

Para o Windows, instale os Pacotes Redistribuíveis do Visual C++ para Visual Studio 2015, 2017, 2019 e 2022 para sua plataforma. Quando você instalar esse pacote pela primeira vez, poderá ser necessária uma reinicialização.
No Linux, você deve usar a arquitetura de destino x64.

Instale uma versão do Python a partir da versão 3.7 ou posterior. Para outros requisitos, consulte Instalar o SDK de Fala.

Definir variáveis de ambiente

Você precisa autenticar seu aplicativo para acessar as Ferramentas Foundry. Este artigo mostra como usar variáveis de ambiente para armazenar suas credenciais. Em seguida, você poderá acessar as variáveis de ambiente do seu código para autenticar seu aplicativo. Para a produção, use um método mais seguro para armazenar e acessar suas credenciais.

Importante

Recomendamos a autenticação do Microsoft Entra ID com identidades gerenciadas para recursos do Azure a fim de evitar o armazenamento de credenciais com seus aplicativos executados na nuvem.

Use as chaves de API com cautela. Não inclua a chave da API diretamente no seu código e nunca a publique publicamente. Se estiver usando chaves de API, armazene-as com segurança no Azure Key Vault, faça a rotação de chaves regularmente e restrinja o acesso ao Azure Key Vault usando controle de acesso baseado em função e restrições de acesso à rede. Para obter mais informações sobre como usar chaves de API com segurança em seus aplicativos, confira Chaves de API com o Azure Key Vault.

Para obter mais informações sobre segurança dos serviços de IA, confira Autenticar solicitações para os serviços de IA do Azure.

Para definir as variáveis de ambiente para seu ponto de extremidade e chave de recurso de Fala, abra uma janela do console e siga as instruções para seu sistema operacional e ambiente de desenvolvimento.

Para definir a variável de ambiente SPEECH_KEY, substitua your-key por uma das chaves do recurso.
Para definir a ENDPOINT variável de ambiente, substitua seu ponto de extremidade por um dos pontos de extremidade do seu recurso.

setx SPEECH_KEY your-key
setx ENDPOINT your-endpoint

Observação

Se precisar acessar as variáveis de ambiente apenas no console atual, você pode definir a variável de ambiente com set em vez de setx.

Depois de adicionar as variáveis de ambiente, talvez seja necessário reiniciar todos os programas que precisem ler a variável de ambiente, inclusive a janela do console. Por exemplo, se estiver usando o Visual Studio como editor, reinicie o Visual Studio antes de executar o exemplo.

Bash

Edite seu arquivo .bashrc e adicione as variáveis de ambiente:

export SPEECH_KEY=your-key
export ENDPOINT=your-endpoint

Depois de adicionar as variáveis de ambiente, execute source ~/.bashrc na janela do console para que as alterações entrem em vigor.

Bash

Edite seu arquivo .bash_profile e adicione as variáveis de ambiente:

export SPEECH_KEY=your-key
export ENDPOINT=your-endpoint

Depois de adicionar as variáveis de ambiente, execute source ~/.bash_profile na janela do console para que as alterações entrem em vigor.

Xcode

Para desenvolvimento em iOS e macOS, defina as variáveis de ambiente no Xcode. Por exemplo, siga estas etapas para definir a variável de ambiente no Xcode 13.4.1.

Selecione Produto>Esquema>Editar esquema
Selecione Argumentos na página Executar (Execução de Depuração).
Em Variáveis de Ambiente, selecione o sinal de adição (+) para adicionar uma nova variável de ambiente.
Insira SPEECH_KEY para o Nome e insira sua chave de recurso de Serviço Cognitivo do Azure para Fala para o Valor.

Para definir a variável de ambiente para seu ponto de extremidade de recurso de Fala, siga as mesmas etapas. Defina ENDPOINT como o ponto de extremidade do recurso. Por exemplo, https://YourServiceRegion.api.cognitive.microsoft.com.

Para obter mais opções de configuração, consulte a documentação do Xcode.

Reconhecer fala de um microfone

Dica

Experimente o Kit de Ferramentas do Azure Speech in Foundry Tools para criar e executar amostras com facilidade no Visual Studio Code.

Siga estas etapas para criar um aplicativo de console.

Abra uma janela do prompt de comando na pasta em que você deseja o novo projeto. Crie um novo arquivo chamado speech_recognition.py.
Execute este comando para instalar o SDK de Fala:
```
pip install azure-cognitiveservices-speech
```

Copie o seguinte código em speech_recognition.py:

import os
import azure.cognitiveservices.speech as speechsdk

def recognize_from_microphone():
     # This example requires environment variables named "SPEECH_KEY" and "ENDPOINT"
     # Replace with your own subscription key and endpoint, the endpoint is like : "https://YourServiceRegion.api.cognitive.microsoft.com"
    speech_config = speechsdk.SpeechConfig(subscription=os.environ.get('SPEECH_KEY'), endpoint=os.environ.get('ENDPOINT'))
    speech_config.speech_recognition_language="en-US"

    audio_config = speechsdk.audio.AudioConfig(use_default_microphone=True)
    speech_recognizer = speechsdk.SpeechRecognizer(speech_config=speech_config, audio_config=audio_config)

    print("Speak into your microphone.")
    speech_recognition_result = speech_recognizer.recognize_once_async().get()

    if speech_recognition_result.reason == speechsdk.ResultReason.RecognizedSpeech:
        print("Recognized: {}".format(speech_recognition_result.text))
    elif speech_recognition_result.reason == speechsdk.ResultReason.NoMatch:
        print("No speech could be recognized: {}".format(speech_recognition_result.no_match_details))
    elif speech_recognition_result.reason == speechsdk.ResultReason.Canceled:
        cancellation_details = speech_recognition_result.cancellation_details
        print("Speech Recognition canceled: {}".format(cancellation_details.reason))
        if cancellation_details.reason == speechsdk.CancellationReason.Error:
            print("Error details: {}".format(cancellation_details.error_details))
            print("Did you set the speech resource key and endpoint values?")

recognize_from_microphone()

Para alterar o idioma de reconhecimento de fala, substitua en-US por outro idioma com suporte. Por exemplo, use es-ES para espanhol (Espanha). Se você não especificar um idioma, o padrão será en-US. Para obter detalhes sobre como identificar um dos vários idiomas que podem ser falados, consulte identificação do idioma.
Execute seu novo aplicativo de console para iniciar o reconhecimento de fala a partir de um microfone:
```
python speech_recognition.py
```
Importante

Certifique-se de definir SPEECH_KEY e as ENDPOINTvariáveis de ambiente. Se você não definir essas variáveis, a amostra falhará com uma mensagem de erro.

Fale no microfone quando solicitado. O que você fala deve aparecer como texto:

Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech to text.

Comentários

Confira outras considerações:

Este exemplo usa a operação recognize_once_async para transcrever enunciados de até 30 segundos ou até que o silêncio seja detectado. Para obter informações sobre o reconhecimento contínuo de áudios mais longos, incluindo conversas multilíngues, consulte Como reconhecer a fala.
Para reconhecer a fala de um arquivo de áudio, use filename em vez de use_default_microphone:
```
audio_config = speechsdk.audio.AudioConfig(filename="YourAudioFile.wav")
```
Para arquivos de áudio compactados, como MP4, instale o GStreamer e use PullAudioInputStream ou PushAudioInputStream. Para saber mais, confira Como usar áudio de entrada compactado.

Limpar os recursos

Você pode usar o portal do Azure ou a CLI (interface de linha de comando) do Azure para remover o recurso de fala que você criou.

Documentação de referência | Pacotes (download) | Amostras adicionais no GitHub

Neste guia de início rápido, você cria e executa um aplicativo para reconhecer e transcrever fala em texto em tempo real.

Dica

Para a transcrição rápida de arquivos de áudio, considere o uso da API de Transcrição Rápida. A API de Transcrição Rápida dá suporte a recursos como identificação de idioma e diarização.

Para transcrever arquivos de áudio de forma assíncrona, confira O que é transcrição em lote. Se você não tiver certeza de qual solução de conversão de fala em texto é adequada para você, confira O que é conversão de fala em texto?

Pré-requisitos

Uma assinatura do Azure. É possível criar uma gratuitamente.
Crie um recurso do Foundry para Voz no portal do Azure.
Obtenha a chave e a região do recurso de Fala. Depois que seu recurso de Serviço Cognitivo do Azure para Fala for implantado, selecione Ir para o recurso para visualizar e gerenciar as chaves.

Configurar o ambiente

O SDK de Fala para Swift é distribuído como um pacote de estrutura. A estrutura dá suporte a Objective-C e Swift no iOS e no macOS.

O SDK de Fala pode ser usado em projetos do Xcode como um CocoaPod, ou baixado diretamente e vinculado manualmente. Este guia usa um CocoaPod. Instale o gerenciador de dependência do CocoaPod conforme descrito nas instruções de instalação.

Definir variáveis de ambiente

Você precisa autenticar seu aplicativo para acessar as Ferramentas Foundry. Este artigo mostra como usar variáveis de ambiente para armazenar suas credenciais. Em seguida, você poderá acessar as variáveis de ambiente do seu código para autenticar seu aplicativo. Para a produção, use um método mais seguro para armazenar e acessar suas credenciais.

Importante

Recomendamos a autenticação do Microsoft Entra ID com identidades gerenciadas para recursos do Azure a fim de evitar o armazenamento de credenciais com seus aplicativos executados na nuvem.

Use as chaves de API com cautela. Não inclua a chave da API diretamente no seu código e nunca a publique publicamente. Se estiver usando chaves de API, armazene-as com segurança no Azure Key Vault, faça a rotação de chaves regularmente e restrinja o acesso ao Azure Key Vault usando controle de acesso baseado em função e restrições de acesso à rede. Para obter mais informações sobre como usar chaves de API com segurança em seus aplicativos, confira Chaves de API com o Azure Key Vault.

Para obter mais informações sobre segurança dos serviços de IA, confira Autenticar solicitações para os serviços de IA do Azure.

Para definir as variáveis de ambiente para sua região e chave de recurso de Serviço Cognitivo do Azure para Fala, abra uma janela de console e siga as instruções para seu sistema operacional e ambiente de desenvolvimento.

Para definir a variável de ambiente SPEECH_KEY, substitua your-key por uma das chaves do recurso.
Para definir a variável de ambiente SPEECH_REGION, substitua your-region por uma das regiões do recurso.
Para definir a ENDPOINT variável de ambiente, substitua your-endpoint pelo ponto de extremidade real do recurso de fala.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint

Observação

Se precisar acessar as variáveis de ambiente apenas no console atual, você pode definir a variável de ambiente com set em vez de setx.

Depois de adicionar as variáveis de ambiente, talvez seja necessário reiniciar todos os programas que precisem ler a variável de ambiente, inclusive a janela do console. Por exemplo, se estiver usando o Visual Studio como editor, reinicie o Visual Studio antes de executar o exemplo.

Bash

Edite seu arquivo .bashrc e adicione as variáveis de ambiente:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region
export ENDPOINT=your-endpoint

Depois de adicionar as variáveis de ambiente, execute source ~/.bashrc na janela do console para que as alterações entrem em vigor.

Bash

Edite seu arquivo .bash_profile e adicione as variáveis de ambiente:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region
export ENDPOINT=your-endpoint

Depois de adicionar as variáveis de ambiente, execute source ~/.bash_profile na janela do console para que as alterações entrem em vigor.

Xcode

Para desenvolvimento em iOS e macOS, defina as variáveis de ambiente no Xcode. Por exemplo, siga estas etapas para definir a variável de ambiente no Xcode 13.4.1.

Selecione Produto>Esquema>Editar esquema
Selecione Argumentos na página Executar (Execução de Depuração).
Em Variáveis de Ambiente, selecione o sinal de adição (+) para adicionar uma nova variável de ambiente.
Insira SPEECH_KEY para o Nome e insira sua chave de recurso de Serviço Cognitivo do Azure para Fala para o Valor.

Para definir a variável de ambiente para sua região de recursos de Fala, siga as mesmas etapas. Defina SPEECH_REGION para a região do seu recurso. Por exemplo, westus. Definir ENDPOINT como o ponto de extremidade do recurso

Para obter mais opções de configuração, consulte a documentação do Xcode.

Reconhecer fala de um microfone

Siga estas etapas para reconhecer a fala em um aplicativo macOS.

Clone o repositório Azure-Samples/cognitive-services-speech-sdk para obter o projeto de exemplo Reconhecer fala a partir de um microfone em Swift no MacOS. O repositório também tem exemplos de iOS.
Navegue até o diretório do aplicativo de exemplo baixado (helloworld) em um terminal.
Execute o comando pod install. Esse comando gera um espaço de trabalho do Xcode helloworld.xcworkspace que contém o aplicativo de amostra e o SDK de Fala como uma dependência.
Abra o workspace helloworld.xcworkspace no Xcode.

Abra o arquivo chamado AppDelegate.swift e localize os métodos applicationDidFinishLaunching e recognizeFromMic como mostrado aqui.

import Cocoa

@NSApplicationMain
class AppDelegate: NSObject, NSApplicationDelegate {
    var label: NSTextField!
    var fromMicButton: NSButton!

    var sub: String!
    var region: String!

    @IBOutlet weak var window: NSWindow!

    func applicationDidFinishLaunching(_ aNotification: Notification) {
        print("loading")
        // load subscription information
        sub = ProcessInfo.processInfo.environment["SPEECH_KEY"]
        region = ProcessInfo.processInfo.environment["SPEECH_REGION"]

        label = NSTextField(frame: NSRect(x: 100, y: 50, width: 200, height: 200))
        label.textColor = NSColor.black
        label.lineBreakMode = .byWordWrapping

        label.stringValue = "Recognition Result"
        label.isEditable = false

        self.window.contentView?.addSubview(label)

        fromMicButton = NSButton(frame: NSRect(x: 100, y: 300, width: 200, height: 30))
        fromMicButton.title = "Recognize"
        fromMicButton.target = self
        fromMicButton.action = #selector(fromMicButtonClicked)
        self.window.contentView?.addSubview(fromMicButton)
    }

    @objc func fromMicButtonClicked() {
        DispatchQueue.global(qos: .userInitiated).async {
            self.recognizeFromMic()
        }
    }

    func recognizeFromMic() {
        var speechConfig: SPXSpeechConfiguration?
        do {
            try speechConfig = SPXSpeechConfiguration(subscription: sub, region: region)
        } catch {
            print("error \(error) happened")
            speechConfig = nil
        }
        speechConfig?.speechRecognitionLanguage = "en-US"

        let audioConfig = SPXAudioConfiguration()

        let reco = try! SPXSpeechRecognizer(speechConfiguration: speechConfig!, audioConfiguration: audioConfig)

        reco.addRecognizingEventHandler() {reco, evt in
            print("intermediate recognition result: \(evt.result.text ?? "(no result)")")
            self.updateLabel(text: evt.result.text, color: .gray)
        }

        updateLabel(text: "Listening ...", color: .gray)
        print("Listening...")

        let result = try! reco.recognizeOnce()
        print("recognition result: \(result.text ?? "(no result)"), reason: \(result.reason.rawValue)")
        updateLabel(text: result.text, color: .black)

        if result.reason != SPXResultReason.recognizedSpeech {
            let cancellationDetails = try! SPXCancellationDetails(fromCanceledRecognitionResult: result)
            print("cancelled: \(result.reason), \(cancellationDetails.errorDetails)")
            print("Did you set the speech resource key and region values?")
            updateLabel(text: "Error: \(cancellationDetails.errorDetails)", color: .red)
        }
    }

    func updateLabel(text: String?, color: NSColor) {
        DispatchQueue.main.async {
            self.label.stringValue = text!
            self.label.textColor = color
        }
    }
}

Em AppDelegate.m, use as variáveis de ambiente que você definiu anteriormente para sua chave de recurso de Serviço Cognitivo do Azure para Fala e região.
```
sub = ProcessInfo.processInfo.environment["SPEECH_KEY"]
region = ProcessInfo.processInfo.environment["SPEECH_REGION"]
```
Para alterar o idioma de reconhecimento de fala, substitua en-US por outro idioma com suporte. Por exemplo, use es-ES para espanhol (Espanha). Se você não especificar um idioma, o padrão será en-US. Para obter detalhes sobre como identificar um dos vários idiomas que podem ser falados, consulte Identificação do idioma.
Para tornar a saída de depuração visível, selecione Exibir>Área de Depuração>Ativar Console.
Compile e execute o código de exemplo selecionando Produto>Executar no menu ou selecionando o botão Reproduzir.

Importante

Certifique-se de definir SPEECH_KEY e as SPEECH_REGIONvariáveis de ambiente. Se você não definir essas variáveis, a amostra falhará com uma mensagem de erro.

Depois de selecionar o botão no aplicativo e dizer algumas palavras, você deverá ver o texto que falou na parte inferior da tela. Quando você executa o aplicativo pela primeira vez, ele solicita que você conceda acesso ao microfone do seu computador.

Comentários

Este exemplo usa a operação recognizeOnce para transcrever enunciados de até 30 segundos ou até que o silêncio seja detectado. Para obter informações sobre o reconhecimento contínuo de áudios mais longos, incluindo conversas multilíngues, consulte Como reconhecer a fala.

Objective-C

O SDK de Fala para Objective-C compartilha bibliotecas de clientes e documentação de referência com o SDK de Fala para Swift. Para ver exemplos de código Objective-C, confira o projeto de exemplo Reconhecer a fala de um microfone em Objective-C no macOS no GitHub.

Limpar os recursos

Você pode usar o portal do Azure ou a CLI (interface de linha de comando) do Azure para remover o recurso de fala que você criou.

Documentação de referência | Pacote (npm) | Amostras adicionais no GitHub | Código-fonte de biblioteca

Neste guia de início rápido, você cria e executa um aplicativo para reconhecer e transcrever fala em texto em tempo real.

Dica

Para a transcrição rápida de arquivos de áudio, considere o uso da API de Transcrição Rápida. A API de Transcrição Rápida dá suporte a recursos como identificação de idioma e diarização.

Para transcrever arquivos de áudio de forma assíncrona, confira O que é transcrição em lote. Se você não tiver certeza de qual solução de conversão de fala em texto é adequada para você, confira O que é conversão de fala em texto?

Pré-requisitos

Uma assinatura do Azure. É possível criar uma gratuitamente.
Crie um recurso do Foundry para Voz no portal do Azure.
Obtenha a chave e a região do recurso de Fala. Depois que seu recurso de Serviço Cognitivo do Azure para Fala for implantado, selecione Ir para o recurso para visualizar e gerenciar as chaves.

Você também precisa de um arquivo de áudio .wav em seu computador local. Você pode usar seu próprio arquivo .wav (de até 30 segundos) ou baixar o arquivo de exemplo https://crbn.us/whatstheweatherlike.wav.

Configuração

Crie uma nova pasta transcription-quickstart e vá para a pasta de início rápido com o seguinte comando:
```
mkdir transcription-quickstart && cd transcription-quickstart
```
Crie o package.json com o seguinte comando:
```
npm init -y
```
Atualize o package.json para ECMAScript com o seguinte comando:
```
npm pkg set type=module
```

Instale o SDK de Fala para JavaScript com:

npm install microsoft-cognitiveservices-speech-sdk

Você precisa instalar as definições de tipo Node.js para evitar erros do TypeScript. Execute o comando a seguir:
```
npm install --save-dev @types/node
```

Recuperar as informações do recurso

Você precisa autenticar seu aplicativo para acessar as Ferramentas Foundry. Este artigo mostra como usar variáveis de ambiente para armazenar suas credenciais. Em seguida, você poderá acessar as variáveis de ambiente do seu código para autenticar seu aplicativo. Para a produção, use um método mais seguro para armazenar e acessar suas credenciais.

Importante

Recomendamos a autenticação do Microsoft Entra ID com identidades gerenciadas para recursos do Azure a fim de evitar o armazenamento de credenciais com seus aplicativos executados na nuvem.

Use as chaves de API com cautela. Não inclua a chave da API diretamente no seu código e nunca a publique publicamente. Se estiver usando chaves de API, armazene-as com segurança no Azure Key Vault, faça a rotação de chaves regularmente e restrinja o acesso ao Azure Key Vault usando controle de acesso baseado em função e restrições de acesso à rede. Para obter mais informações sobre como usar chaves de API com segurança em seus aplicativos, confira Chaves de API com o Azure Key Vault.

Para obter mais informações sobre segurança dos serviços de IA, confira Autenticar solicitações para os serviços de IA do Azure.

Para definir as variáveis de ambiente para sua região e chave de recurso de Serviço Cognitivo do Azure para Fala, abra uma janela de console e siga as instruções para seu sistema operacional e ambiente de desenvolvimento.

Para definir a variável de ambiente SPEECH_KEY, substitua your-key por uma das chaves do recurso.
Para definir a variável de ambiente SPEECH_REGION, substitua your-region por uma das regiões do recurso.
Para definir a ENDPOINT variável de ambiente, substitua your-endpoint pelo ponto de extremidade real do recurso de fala.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint

Observação

Se precisar acessar as variáveis de ambiente apenas no console atual, você pode definir a variável de ambiente com set em vez de setx.

Depois de adicionar as variáveis de ambiente, talvez seja necessário reiniciar todos os programas que precisem ler a variável de ambiente, inclusive a janela do console. Por exemplo, se estiver usando o Visual Studio como editor, reinicie o Visual Studio antes de executar o exemplo.

Bash

Edite seu arquivo .bashrc e adicione as variáveis de ambiente:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region
export ENDPOINT=your-endpoint

Depois de adicionar as variáveis de ambiente, execute source ~/.bashrc na janela do console para que as alterações entrem em vigor.

Bash

Edite seu arquivo .bash_profile e adicione as variáveis de ambiente:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region
export ENDPOINT=your-endpoint

Depois de adicionar as variáveis de ambiente, execute source ~/.bash_profile na janela do console para que as alterações entrem em vigor.

Xcode

Para desenvolvimento em iOS e macOS, defina as variáveis de ambiente no Xcode. Por exemplo, siga estas etapas para definir a variável de ambiente no Xcode 13.4.1.

Selecione Produto>Esquema>Editar esquema
Selecione Argumentos na página Executar (Execução de Depuração).
Em Variáveis de Ambiente, selecione o sinal de adição (+) para adicionar uma nova variável de ambiente.
Insira SPEECH_KEY para o Nome e insira sua chave de recurso de Serviço Cognitivo do Azure para Fala para o Valor.

Para definir a variável de ambiente para sua região de recursos de Fala, siga as mesmas etapas. Defina SPEECH_REGION para a região do seu recurso. Por exemplo, westus. Definir ENDPOINT como o ponto de extremidade do recurso

Para obter mais opções de configuração, consulte a documentação do Xcode.

Reconhecer a fala de um arquivo

Para transcrever a fala de um arquivo:

Crie um novo arquivo chamado transcription.ts com o seguinte conteúdo:

import { readFileSync } from "fs";
import { 
    SpeechConfig, 
    AudioConfig, 
    SpeechRecognizer, 
    ResultReason, 
    CancellationDetails, 
    CancellationReason,
    SpeechRecognitionResult 
} from "microsoft-cognitiveservices-speech-sdk";

// This example requires environment variables named "ENDPOINT" and "SPEECH_KEY"
const speechConfig: SpeechConfig = SpeechConfig.fromEndpoint(new URL(process.env.ENDPOINT!), process.env.SPEECH_KEY!);
speechConfig.speechRecognitionLanguage = "en-US";

function fromFile(): void {
    const audioConfig: AudioConfig = AudioConfig.fromWavFileInput(readFileSync("YourAudioFile.wav"));
    const speechRecognizer: SpeechRecognizer = new SpeechRecognizer(speechConfig, audioConfig);

    speechRecognizer.recognizeOnceAsync((result: SpeechRecognitionResult) => {
        switch (result.reason) {
            case ResultReason.RecognizedSpeech:
                console.log(`RECOGNIZED: Text=${result.text}`);
                break;
            case ResultReason.NoMatch:
                console.log("NOMATCH: Speech could not be recognized.");
                break;
            case ResultReason.Canceled:
                const cancellation: CancellationDetails = CancellationDetails.fromResult(result);
                console.log(`CANCELED: Reason=${cancellation.reason}`);

                if (cancellation.reason === CancellationReason.Error) {
                    console.log(`CANCELED: ErrorCode=${cancellation.ErrorCode}`);
                    console.log(`CANCELED: ErrorDetails=${cancellation.errorDetails}`);
                    console.log("CANCELED: Did you set the speech resource key and region values?");
                }
                break;
        }
        speechRecognizer.close();
    });
}

fromFile();

Em transcription.ts, substitua YourAudioFile.wav por seu próprio arquivo .wav . Este exemplo só reconhece a fala de um arquivo .wav. Para obter informações sobre outros formatos de áudio, confira Como usar áudio de entrada compactado. Este exemplo dá suporte a um áudio de até 30 segundos.

Para alterar o idioma de reconhecimento de fala, substitua en-US por outro idioma com suporte. Por exemplo, use es-ES para espanhol (Espanha). Se você não especificar um idioma, o padrão será en-US. Para obter detalhes sobre como identificar um dos vários idiomas que podem ser falados, consulte Identificação do idioma.

Crie o arquivo tsconfig.json para transpilar o código TypeScript e copiar o código a seguir para ECMAScript.

{
    "compilerOptions": {
      "module": "NodeNext",
      "target": "ES2022", // Supports top-level await
      "moduleResolution": "NodeNext",
      "skipLibCheck": true, // Avoid type errors from node_modules
      "strict": true // Enable strict type-checking options
    },
    "include": ["*.ts"]
}

Transcompilar de TypeScript para JavaScript.
```
tsc
```
Esse comando não produzirá nenhuma saída se tiver êxito.
Execute seu novo aplicativo de console para iniciar o reconhecimento de fala a partir de um arquivo:
```
node transcription.js
```

Leva alguns minutos para obter a resposta.

Saída

A fala do arquivo de áudio deve sair como texto:

RECOGNIZED: Text=I'm excited to try speech to text.

Comentários

Este exemplo usa a operação recognizeOnceAsync para transcrever enunciados de até 30 segundos ou até que o silêncio seja detectado. Para obter informações sobre o reconhecimento contínuo de áudios mais longos, incluindo conversas multilíngues, consulte Como reconhecer a fala.

Limpar os recursos

Você pode usar o portal do Azure ou a CLI (interface de linha de comando) do Azure para remover o recurso de fala que você criou.

Referência da API REST de conversão de fala em texto | Referência da API REST de conversão de fala em texto para áudios curtos | Amostras adicionais no GitHub

Neste guia de início rápido, você cria e executa um aplicativo para reconhecer e transcrever fala em texto em tempo real.

Dica

Para a transcrição rápida de arquivos de áudio, considere o uso da API de Transcrição Rápida. A API de Transcrição Rápida dá suporte a recursos como identificação de idioma e diarização.

Para transcrever arquivos de áudio de forma assíncrona, confira O que é transcrição em lote. Se você não tiver certeza de qual solução de conversão de fala em texto é adequada para você, confira O que é conversão de fala em texto?

Pré-requisitos

Uma assinatura do Azure. É possível criar uma gratuitamente.
Crie um recurso do Foundry para Voz no portal do Azure.
Obtenha a chave e a região do recurso de Fala. Depois que seu recurso de Serviço Cognitivo do Azure para Fala for implantado, selecione Ir para o recurso para visualizar e gerenciar as chaves.

Você também precisa de um arquivo de áudio .wav em seu computador local. Você pode usar seu próprio arquivo .wav de até 60 segundos ou baixar o arquivo de exemplo https://crbn.us/whatstheweatherlike.wav.

Definir variáveis de ambiente

Você precisa autenticar seu aplicativo para acessar as Ferramentas Foundry. Este artigo mostra como usar variáveis de ambiente para armazenar suas credenciais. Em seguida, você poderá acessar as variáveis de ambiente do seu código para autenticar seu aplicativo. Para a produção, use um método mais seguro para armazenar e acessar suas credenciais.

Importante

Recomendamos a autenticação do Microsoft Entra ID com identidades gerenciadas para recursos do Azure a fim de evitar o armazenamento de credenciais com seus aplicativos executados na nuvem.

Use as chaves de API com cautela. Não inclua a chave da API diretamente no seu código e nunca a publique publicamente. Se estiver usando chaves de API, armazene-as com segurança no Azure Key Vault, faça a rotação de chaves regularmente e restrinja o acesso ao Azure Key Vault usando controle de acesso baseado em função e restrições de acesso à rede. Para obter mais informações sobre como usar chaves de API com segurança em seus aplicativos, confira Chaves de API com o Azure Key Vault.

Para obter mais informações sobre segurança dos serviços de IA, confira Autenticar solicitações para os serviços de IA do Azure.

Para definir as variáveis de ambiente para sua região e chave de recurso de Serviço Cognitivo do Azure para Fala, abra uma janela de console e siga as instruções para seu sistema operacional e ambiente de desenvolvimento.

Para definir a variável de ambiente SPEECH_KEY, substitua your-key por uma das chaves do recurso.
Para definir a variável de ambiente SPEECH_REGION, substitua your-region por uma das regiões do recurso.
Para definir a ENDPOINT variável de ambiente, substitua your-endpoint pelo ponto de extremidade real do recurso de fala.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint

Observação

Se precisar acessar as variáveis de ambiente apenas no console atual, você pode definir a variável de ambiente com set em vez de setx.

Depois de adicionar as variáveis de ambiente, talvez seja necessário reiniciar todos os programas que precisem ler a variável de ambiente, inclusive a janela do console. Por exemplo, se estiver usando o Visual Studio como editor, reinicie o Visual Studio antes de executar o exemplo.

Bash

Edite seu arquivo .bashrc e adicione as variáveis de ambiente:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region
export ENDPOINT=your-endpoint

Depois de adicionar as variáveis de ambiente, execute source ~/.bashrc na janela do console para que as alterações entrem em vigor.

Bash

Edite seu arquivo .bash_profile e adicione as variáveis de ambiente:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region
export ENDPOINT=your-endpoint

Depois de adicionar as variáveis de ambiente, execute source ~/.bash_profile na janela do console para que as alterações entrem em vigor.

Xcode

Para desenvolvimento em iOS e macOS, defina as variáveis de ambiente no Xcode. Por exemplo, siga estas etapas para definir a variável de ambiente no Xcode 13.4.1.

Selecione Produto>Esquema>Editar esquema
Selecione Argumentos na página Executar (Execução de Depuração).
Em Variáveis de Ambiente, selecione o sinal de adição (+) para adicionar uma nova variável de ambiente.
Insira SPEECH_KEY para o Nome e insira sua chave de recurso de Serviço Cognitivo do Azure para Fala para o Valor.

Para definir a variável de ambiente para sua região de recursos de Fala, siga as mesmas etapas. Defina SPEECH_REGION para a região do seu recurso. Por exemplo, westus. Definir ENDPOINT como o ponto de extremidade do recurso

Para obter mais opções de configuração, consulte a documentação do Xcode.

Reconhecer a fala de um arquivo

Abra uma janela do console e execute o seguinte comando cURL. Substitua YourAudioFile.wav pelo caminho e nome do seu arquivo de áudio.

curl --location --request POST "https://%SPEECH_REGION%.stt.speech.microsoft.com/speech/recognition/conversation/cognitiveservices/v1?language=en-US&format=detailed" ^
--header "Ocp-Apim-Subscription-Key: %SPEECH_KEY%" ^
--header "Content-Type: audio/wav" ^
--data-binary "@YourAudioFile.wav"

audio_file=@'YourAudioFile.wav'

curl --location --request POST \
"https://${SPEECH_REGION}.stt.speech.microsoft.com/speech/recognition/conversation/cognitiveservices/v1?language=en-US&format=detailed" \
--header "Ocp-Apim-Subscription-Key: ${SPEECH_KEY}" \
--header "Content-Type: audio/wav" \
--data-binary $audio_file

audio_file=@'YourAudioFile.wav'

curl --location --request POST \
"https://${SPEECH_REGION}.stt.speech.microsoft.com/speech/recognition/conversation/cognitiveservices/v1?language=en-US&format=detailed" \
--header "Ocp-Apim-Subscription-Key: ${SPEECH_KEY}" \
--header "Content-Type: audio/wav" \
--data-binary $audio_file

Importante

Certifique-se de definir SPEECH_KEY e as SPEECH_REGIONvariáveis de ambiente. Se você não definir essas variáveis, a amostra falhará com uma mensagem de erro.

Você deve receber uma resposta semelhante ao que é mostrado aqui. O DisplayText deve ser o texto que foi reconhecido do arquivo de áudio. O comando reconhece até 60 segundos de áudio e o converte em texto.

{
    "RecognitionStatus": "Success",
    "DisplayText": "My voice is my passport, verify me.",
    "Offset": 6600000,
    "Duration": 32100000
}

Para obter mais informações, confira a API REST de conversão de fala em texto para áudios curtos.

Limpar os recursos

Você pode usar o portal do Azure ou a CLI (interface de linha de comando) do Azure para remover o recurso de fala que você criou.

Compartilhar via

Início rápido: reconhecer e converter fala em texto

Pré-requisitos

Experimentar a conversão de fala em texto em tempo real

Pré-requisitos

Configurar o ambiente

Definir variáveis de ambiente

Reconhecer fala de um microfone

Comentários

Limpar os recursos

Pré-requisitos

Configurar o ambiente

Definir variáveis de ambiente

Reconhecer fala de um microfone

Comentários

Limpar os recursos

Pré-requisitos

Configurar o ambiente

Definir variáveis de ambiente

Reconhecer fala de um microfone

Limpar os recursos

Pré-requisitos

Configurar o ambiente

Definir variáveis de ambiente

Reconhecer fala de um microfone

Comentários

Limpar os recursos

Pré-requisitos

Configuração

Recuperar as informações do recurso

Reconhecer a fala de um arquivo

Saída

Comentários

Limpar os recursos

Pré-requisitos

Configurar o ambiente

Definir variáveis de ambiente

Reconhecer fala de um microfone

Comentários

Limpar os recursos

Pré-requisitos

Configurar o ambiente

Definir variáveis de ambiente

Reconhecer fala de um microfone

Comentários

Objective-C

Limpar os recursos

Pré-requisitos

Configuração

Recuperar as informações do recurso

Reconhecer a fala de um arquivo

Saída

Comentários

Limpar os recursos

Pré-requisitos

Definir variáveis de ambiente

Reconhecer a fala de um arquivo

Limpar os recursos

Próxima etapa

Comentários

Recursos adicionais