Guia de início rápido: introdução à CLI de Fala do Azure AI

Neste artigo, você aprenderá a usar a CLI de Fala do Azure AI (também chamada SPX) para acessar serviços de Fala, como fala para texto, texto para fala e tradução de fala, sem precisar escrever nenhum código. A CLI de fala está pronta para produção e você pode usá-la para automatizar fluxos de trabalho simples no serviço de fala usando .bat scripts ou shell.

Este artigo pressupõe que você tenha conhecimento prático da janela do Prompt de Comando, terminal ou PowerShell.

Nota

No PowerShell, o token de análise de parada (--%) deve seguir spx. Por exemplo, execute spx --% config @region para exibir o valor de configuração da região atual.

Transferir e instalar

Siga estas etapas para instalar a CLI de fala no Windows:

  1. Instale o Microsoft Visual C++ Redistributable for Visual Studio 2019 para sua plataforma. Instalá-lo pela primeira vez pode exigir uma reinicialização.

  2. Instale o .NET 6.

  3. Instale a CLI de Fala por meio da CLI do .NET digitando este comando:

    dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
    

    Para atualizar a CLI de fala, digite este comando:

    dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
    

Insira spx ou spx help veja ajuda para a CLI de fala.

Limitações de fontes

No Windows, a CLI de Fala pode mostrar apenas fontes que estão disponíveis para o prompt de comando no computador local. O Terminal do Windows suporta todas as fontes que a CLI de Fala produz interativamente.

Se você enviar para um arquivo, um editor de texto como o Bloco de Notas ou um navegador da Web como o Microsoft Edge também poderá mostrar todas as fontes.

Criar uma configuração de recurso

Para começar, você precisa de uma chave de recurso de fala e um identificador de região (por exemplo, eastuswestus, ). Crie um recurso de Fala no portal do Azure. Para obter mais informações, consulte Criar um recurso multisserviço.

Para configurar a chave de recurso e o identificador de região, execute os seguintes comandos:

spx config @key --set SPEECH-KEY
spx config @region --set SPEECH-REGION

A chave e a região são armazenadas para futuros comandos da CLI de fala. Para exibir a configuração atual, execute os seguintes comandos:

spx config @key
spx config @region

Conforme necessário, inclua a opção para remover qualquer clear valor armazenado:

spx config @key --clear
spx config @region --clear

Utilização básica

Importante

Ao usar a CLI de fala em um contêiner, inclua a --host opção. Você também deve especificar --key none para garantir que a CLI não tente usar uma chave de fala para autenticação. Por exemplo, execute spx recognize --key none --host wss://localhost:5000/ --file myaudio.wav para reconhecer a fala de um arquivo de áudio em um contêiner de fala para texto.

Esta seção mostra alguns comandos básicos do SPX que geralmente são úteis para testes e experimentos pela primeira vez. Execute o seguinte comando para visualizar a ajuda na ferramenta:

spx

Você pode pesquisar tópicos de ajuda por palavra-chave. Por exemplo, para ver uma lista de exemplos de uso da CLI de fala, execute o seguinte comando:

spx help find --topics "examples"

Para ver as opções do recognize comando, execute o seguinte comando:

spx help recognize

Mais comandos de ajuda estão listados na saída do console. Você pode inserir esses comandos para obter ajuda detalhada sobre subcomandos.

Conversão de fala em texto (reconhecimento de fala)

Nota

Não é possível usar o microfone do computador quando você executa a CLI de fala em um contêiner do Docker. No entanto, você pode ler e salvar arquivos de áudio em seu diretório montado local.

Para converter fala em texto (reconhecimento de fala) usando o microfone padrão do sistema, execute o seguinte comando:

spx recognize --microphone

Depois de executar o comando, o SPX começa a ouvir áudio no dispositivo de entrada ativo atual. Ele para de ouvir quando você seleciona Enter. O áudio falado é então reconhecido e convertido em texto na saída do console.

Com a CLI de fala, você também pode reconhecer a fala de um arquivo de áudio. Execute o seguinte comando:

spx recognize --file /path/to/file.wav

Gorjeta

Se você ficar preso ou quiser saber mais sobre as opções de reconhecimento da CLI de fala, poderá executar spx help recognizeo .

Conversão de texto em fala (síntese de fala)

O comando a seguir usa o texto como entrada e, em seguida, envia a fala sintetizada para o dispositivo de saída ativo atual (por exemplo, os alto-falantes do computador).

spx synthesize --text "Testing synthesis using the Speech CLI" --speakers

Você também pode salvar a saída sintetizada em um arquivo. Neste exemplo, vamos criar um arquivo chamado my-sample.wav no diretório onde você está executando o comando.

spx synthesize --text "Enjoy using the Speech CLI." --audio output my-sample.wav

Estes exemplos presumem que está a testar em inglês. No entanto, o serviço de fala suporta síntese de fala em muitos idiomas. Você pode obter uma lista completa de vozes executando o seguinte comando ou visitando a página de suporte a idiomas.

spx synthesize --voices

Aqui está um comando para usar uma das vozes que você descobriu.

spx synthesize --text "Bienvenue chez moi." --voice fr-FR-AlainNeural --speakers

Gorjeta

Se você ficar preso ou quiser saber mais sobre as opções de reconhecimento da CLI de fala, poderá executar spx help synthesizeo .

Tradução de fala para texto

Com a CLI de fala, você também pode fazer tradução de fala para texto. Execute o seguinte comando para capturar o áudio do microfone padrão e produzir a tradução como texto. Tenha em mente que você precisa fornecer o source e target idioma com o translate comando.

spx translate --microphone --source en-US --target ru-RU

Quando estiver traduzindo para vários idiomas, separe os códigos de idioma com um ponto-e-vírgula (;).

spx translate --microphone --source en-US --target ru-RU;fr-FR;es-ES

Se você quiser salvar a saída da sua tradução, use o --output sinalizador. Neste exemplo, você também lê a partir de um arquivo.

spx translate --file /some/file/path/input.wav --source en-US --target ru-RU --output file /some/file/path/russian_translation.txt

Gorjeta

Se você ficar preso ou quiser saber mais sobre as opções de reconhecimento da CLI de fala, poderá executar spx help translateo .

Próximos passos