Guia de início rápido: introdução à CLI de Fala do Azure AI

Artigo
01/23/2024

Neste artigo, você aprenderá a usar a CLI de Fala do Azure AI (também chamada SPX) para acessar serviços de Fala, como fala para texto, texto para fala e tradução de fala, sem precisar escrever nenhum código. A CLI de fala está pronta para produção e você pode usá-la para automatizar fluxos de trabalho simples no serviço de fala usando .bat scripts ou shell.

Este artigo pressupõe que você tenha conhecimento prático da janela do Prompt de Comando, terminal ou PowerShell.

Nota

No PowerShell, o token de análise de parada (--%) deve seguir spx. Por exemplo, execute spx --% config @region para exibir o valor de configuração da região atual.

Transferir e instalar

Siga estas etapas para instalar a CLI de fala no Windows:

Instale o Microsoft Visual C++ Redistributable for Visual Studio 2019 para sua plataforma. Instalá-lo pela primeira vez pode exigir uma reinicialização.
Instale o .NET 6.

Instale a CLI de Fala por meio da CLI do .NET digitando este comando:

dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI

Para atualizar a CLI de fala, digite este comando:

dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI

Insira spx ou spx help veja ajuda para a CLI de fala.

Limitações de fontes

No Windows, a CLI de Fala pode mostrar apenas fontes que estão disponíveis para o prompt de comando no computador local. O Terminal do Windows suporta todas as fontes que a CLI de Fala produz interativamente.

Se você enviar para um arquivo, um editor de texto como o Bloco de Notas ou um navegador da Web como o Microsoft Edge também poderá mostrar todas as fontes.

Atenção

Este artigo faz referência ao CentOS, uma distribuição Linux que está se aproximando do status de Fim da Vida Útil (EOL). Por favor, considere o seu uso e planejamento de acordo. Para obter mais informações, consulte as diretrizes de Fim da Vida Útil do CentOS.

As seguintes distribuições Linux são suportadas para arquiteturas x64 que usam a CLI de fala:

CentOS 7/8
Debian 9/10
Red Hat Enterprise Linux (RHEL) 7/8
Ubuntu 18.04/20.04

Nota

O SDK de fala (não a CLI de fala) suporta arquiteturas adicionais. Para obter mais informações, consulte Sobre o SDK de fala.

Siga estas etapas para instalar a CLI de fala no Linux em uma CPU x64:

Instale o .NET 6.

Instale a CLI de Fala por meio da CLI do .NET digitando este comando:

dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI

Para atualizar a CLI de fala, digite este comando:

dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI

No RHEL/CentOS Linux, configure o OpenSSL para Linux.
No Ubuntu 20.04 Linux, instale o GStreamer.

Entre spx para ver a ajuda para a CLI de Fala.

Siga estas etapas para instalar a CLI de fala no macOS 10.14 ou posterior:

Instale o .NET 6.

Instale a CLI de Fala por meio da CLI do .NET digitando este comando:

dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI

Para atualizar a CLI de fala, digite este comando:

dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI

Insira spx ou spx help veja ajuda para a CLI de fala.

O exemplo a seguir extrai uma imagem de contêiner público do Docker Hub. Recomendamos que você se autentique com sua conta do Docker Hub (docker login) primeiro, em vez de fazer uma solicitação pull anônima. Para melhorar a confiabilidade quando você estiver usando conteúdo público, importe e gerencie a imagem em um registro de contêiner privado do Azure. Saiba mais sobre como trabalhar com imagens públicas.

Siga estas etapas para instalar a CLI de fala em um contêiner do Docker:

Instale o Docker Desktop para sua plataforma, se ainda não estiver instalado.
Em um novo prompt de comando ou terminal, digite este comando:
```
docker pull msftspeech/spx
```

Digite este comando para exibir informações de ajuda para a CLI de fala:

docker run -it --rm msftspeech/spx help

Montar um diretório no contêiner

A ferramenta CLI de fala salva as definições de configuração como arquivos. Ele carrega esses arquivos quando você está executando qualquer comando (exceto comandos de ajuda).

Ao usar a CLI de Fala em um contêiner do Docker, você deve montar um diretório local a partir do contêiner, para que a ferramenta possa:

Armazene ou localize as definições de configuração.
Leia ou escreva quaisquer ficheiros que o comando exija, tais como ficheiros áudio de voz.

No Windows, digite este comando para criar um diretório local que a CLI de Fala possa usar de dentro do contêiner:

mkdir c:\spx-data

No Linux ou macOS, digite este comando em um terminal para criar um diretório e veja seu caminho absoluto:

mkdir ~/spx-data
cd ~/spx-data
pwd

Você usará o caminho absoluto quando chamar a CLI de fala.

Executar a CLI de fala no contêiner

Esta documentação mostra o comando Speech CLI spx usado em instalações que não são do Docker. Ao chamar o spx comando em um contêiner do Docker, você deve montar um diretório no contêiner no sistema de arquivos onde a CLI de Fala pode armazenar e localizar valores de configuração e arquivos de leitura e gravação.

No Windows, os comandos começam assim:

docker run -it -v c:\spx-data:/data --rm msftspeech/spx

No Linux ou macOS, seus comandos se parecem com o exemplo a seguir. Substitua ABSOLUTE_PATH pelo caminho absoluto para o diretório montado. O pwd comando retornou esse caminho na seção anterior. Se você executar esse comando antes de definir sua chave e região, receberá um erro que informa para definir sua chave e região.

sudo docker run -it -v ABSOLUTE_PATH:/data --rm msftspeech/spx

Para usar o spx comando instalado em um contêiner, sempre insira o comando completo, conforme mostrado no exemplo anterior, seguido pelos parâmetros da sua solicitação. Por exemplo, no Windows, este comando define a sua chave:

docker run -it -v c:\spx-data:/data --rm msftspeech/spx config @key --set SUBSCRIPTION-KEY

Para uma interação mais estendida com a ferramenta de linha de comando, você pode iniciar um contêiner com um shell Bash interativo adicionando um entrypoint parâmetro. No Windows, digite este comando para iniciar um contêiner que expõe uma interface de linha de comando interativa onde você pode inserir vários spx comandos:

docker run -it --entrypoint=/bin/bash -v c:\spx-data:/data --rm msftspeech/spx

Você pode combinar isso com o AZ Login e fazer com que o SPX Init o guie pela criação das chaves de fala e pela seleção de uma região de dados correspondente sem precisar usar o portal do Azure. As chaves serão armazenadas automaticamente para uso posterior.

docker run -it --rm --entrypoint /bin/bash -v c:\spx-data:/data msftspeech/spx

az login
spx init

Para começar, você precisa de uma chave de recurso de fala e um identificador de região (por exemplo, eastuswestus, ). Crie um recurso de Fala no portal do Azure. Para obter mais informações, consulte Criar um recurso multisserviço.

Para configurar a chave de recurso e o identificador de região, execute os seguintes comandos:

spx config @key --set SPEECH-KEY
spx config @region --set SPEECH-REGION

A chave e a região são armazenadas para futuros comandos da CLI de fala. Para exibir a configuração atual, execute os seguintes comandos:

spx config @key
spx config @region

Conforme necessário, inclua a opção para remover qualquer clear valor armazenado:

spx config @key --clear
spx config @region --clear

Para configurar a chave de recurso de fala e o identificador de região, execute os seguintes comandos no PowerShell:

spx --% config @key --set SPEECH-KEY
spx --% config @region --set SPEECH-REGION

A chave e a região são armazenadas para comandos SPX futuros. Para exibir a configuração atual, execute os seguintes comandos:

spx --% config @key
spx --% config @region

Conforme necessário, inclua a opção para remover qualquer clear valor armazenado:

spx --% config @key --clear
spx --% config @region --clear

Utilização básica

Importante

Ao usar a CLI de fala em um contêiner, inclua a --host opção. Você também deve especificar --key none para garantir que a CLI não tente usar uma chave de fala para autenticação. Por exemplo, execute spx recognize --key none --host wss://localhost:5000/ --file myaudio.wav para reconhecer a fala de um arquivo de áudio em um contêiner de fala para texto.

Esta seção mostra alguns comandos básicos do SPX que geralmente são úteis para testes e experimentos pela primeira vez. Execute o seguinte comando para visualizar a ajuda na ferramenta:

spx

Você pode pesquisar tópicos de ajuda por palavra-chave. Por exemplo, para ver uma lista de exemplos de uso da CLI de fala, execute o seguinte comando:

spx help find --topics "examples"

Para ver as opções do recognize comando, execute o seguinte comando:

spx help recognize

Mais comandos de ajuda estão listados na saída do console. Você pode inserir esses comandos para obter ajuda detalhada sobre subcomandos.

Conversão de fala em texto (reconhecimento de fala)

Nota

Não é possível usar o microfone do computador quando você executa a CLI de fala em um contêiner do Docker. No entanto, você pode ler e salvar arquivos de áudio em seu diretório montado local.

Para converter fala em texto (reconhecimento de fala) usando o microfone padrão do sistema, execute o seguinte comando:

spx recognize --microphone

Depois de executar o comando, o SPX começa a ouvir áudio no dispositivo de entrada ativo atual. Ele para de ouvir quando você seleciona Enter. O áudio falado é então reconhecido e convertido em texto na saída do console.

Com a CLI de fala, você também pode reconhecer a fala de um arquivo de áudio. Execute o seguinte comando:

spx recognize --file /path/to/file.wav

Gorjeta

Se você ficar preso ou quiser saber mais sobre as opções de reconhecimento da CLI de fala, poderá executar spx help recognizeo .

Conversão de texto em fala (síntese de fala)

O comando a seguir usa o texto como entrada e, em seguida, envia a fala sintetizada para o dispositivo de saída ativo atual (por exemplo, os alto-falantes do computador).

spx synthesize --text "Testing synthesis using the Speech CLI" --speakers

Você também pode salvar a saída sintetizada em um arquivo. Neste exemplo, vamos criar um arquivo chamado my-sample.wav no diretório onde você está executando o comando.

spx synthesize --text "Enjoy using the Speech CLI." --audio output my-sample.wav

Estes exemplos presumem que está a testar em inglês. No entanto, o serviço de fala suporta síntese de fala em muitos idiomas. Você pode obter uma lista completa de vozes executando o seguinte comando ou visitando a página de suporte a idiomas.

spx synthesize --voices

Aqui está um comando para usar uma das vozes que você descobriu.

spx synthesize --text "Bienvenue chez moi." --voice fr-FR-AlainNeural --speakers

Gorjeta

Se você ficar preso ou quiser saber mais sobre as opções de reconhecimento da CLI de fala, poderá executar spx help synthesizeo .

Tradução de fala para texto

Com a CLI de fala, você também pode fazer tradução de fala para texto. Execute o seguinte comando para capturar o áudio do microfone padrão e produzir a tradução como texto. Tenha em mente que você precisa fornecer o source e target idioma com o translate comando.

spx translate --microphone --source en-US --target ru-RU

Quando estiver traduzindo para vários idiomas, separe os códigos de idioma com um ponto-e-vírgula (;).

spx translate --microphone --source en-US --target ru-RU;fr-FR;es-ES

Se você quiser salvar a saída da sua tradução, use o --output sinalizador. Neste exemplo, você também lê a partir de um arquivo.

spx translate --file /some/file/path/input.wav --source en-US --target ru-RU --output file /some/file/path/russian_translation.txt

Gorjeta

Se você ficar preso ou quiser saber mais sobre as opções de reconhecimento da CLI de fala, poderá executar spx help translateo .

Guia de início rápido: introdução à CLI de Fala do Azure AI

Transferir e instalar

Limitações de fontes

Montar um diretório no contêiner

Executar a CLI de fala no contêiner

Criar uma configuração de recurso

Utilização básica

Conversão de fala em texto (reconhecimento de fala)

Conversão de texto em fala (síntese de fala)

Tradução de fala para texto

Próximos passos

Recursos adicionais