Contêineres de conversão de texto em fala com o Docker

Artigo
01/22/2024

O contêiner neural de conversão de texto em fala converte o texto em fala com som natural usando a tecnologia de rede neural profunda, que permite uma fala sintetizada mais natural. Neste artigo, você aprenderá a baixar, instalar e executar um contêiner de conversão de texto em fala.

Para obter mais informações sobre os pré-requisitos, validar se um contêiner está sendo executado, executar vários contêineres no mesmo host e executar contêineres desconectados, consulte Instalar e executar contêineres de Fala com o Docker.

Imagens de contêiner

A imagem do contêiner de conversão de texto em fala neural para todas as versões e localidades suportadas pode ser encontrada na agregação Registro de Contêiner da Microsoft (MCR). Ela reside no repositório azure-cognitive-services/speechservices/ e é chamada neural-text-to-speech.

O nome da imagem de contêiner totalmente qualificado é mcr.microsoft.com/azure-cognitive-services/speechservices/neural-text-to-speech. Acrescente uma versão específica ou acrescente :latest para obter a versão mais recente.

Versão	Caminho
Mais recente	`mcr.microsoft.com/azure-cognitive-services/speechservices/neural-text-to-speech:latest` A marca `latest` vai extrair a localidade `en-US` e a voz `en-us-arianeural`.
3.1.0	`mcr.microsoft.com/azure-cognitive-services/speechservices/neural-text-to-speech:3.1.0-amd64-en-us-arianeural`

Todas as marcas, exceto latest, estão disponíveis no seguinte formato e diferenciam maiúsculas de minúsculas:

<major>.<minor>.<patch>-<platform>-<voice>-<preview>

As marcas também estão disponíveis no formato JSON para sua conveniência. O corpo inclui o caminho do contêiner e a lista de marcas. As marcas não são classificadas por versão, mas "latest" é sempre incluída no final da lista, conforme mostrado neste trecho:

{
  "name": "azure-cognitive-services/speechservices/neural-text-to-speech",
  "tags": [
    <--redacted for brevity-->
    "3.1.0-amd64-en-us-arianeural",
    "3.1.0-amd64-en-us-guyneural",
    "3.1.0-amd64-en-us-jennymultilingualneural",
    "3.1.0-amd64-en-us-jennyneural",
    "3.1.0-amd64-en-us-michelleneural",
    "3.1.0-amd64-es-es-alvaroneural",
    "3.1.0-amd64-es-es-elviraneural",
    "3.1.0-amd64-es-mx-candelaneural",
    "3.1.0-amd64-es-mx-dalianeural",
    "3.1.0-amd64-es-mx-jorgeneural",
    <--redacted for brevity-->
    "latest"
  ]
}

Importante

Removemos as vozes de síntese de fala padrão e o contêiner padrão de conversão de texto em fala em 31 de agosto de 2021. Você deve usar vozes neurais com o contêiner neural-text-to-speech versão 3.0 e superior.

A partir de 29 de fevereiro de 2024, as versões 2.19 e anteriores do contêiner de texto em fala e de texto neural em fala não serão mais suportadas. Para obter mais informações sobre como atualizar seu aplicativo, confira Migrar da voz padrão para a sintetização de voz predefinida.

Obtenha a imagem de contêiner com o docker pull

Você precisa dos pré-requisitos, incluindo o hardware necessário. Veja também a alocação recomendada de recursos para cada contêiner de Fala.

Use o comando docker pull para baixar uma imagem de contêiner do Microsoft Container Registry:

docker pull mcr.microsoft.com/azure-cognitive-services/speechservices/neural-text-to-speech:latest

Importante

A marca latest vai extrair a localidade en-US e a voz en-us-arianeural. Para localidades e vozes adicionais, confira as imagens do contêiner conversão de texto em fala.

Executar o contêiner com a execução do Docker

Use o comando docker run para executar o contêiner.

Conversão de texto em fala neural
Conversão de texto em fala neural desconectado

A seguinte tabela mostrará vários parâmetros de docker run e as descrições correspondentes:

Parâmetro	Descrição
`{ENDPOINT_URI}`	O ponto de extremidade é necessário para obter a medição e a cobrança. Para obter mais informações, consulte os argumentos de cobrança.
`{API_KEY}`	A chave de API é obrigatória. Para obter mais informações, consulte os argumentos de cobrança.

Ao executar o contêiner de conversão de texto em fala, configure a porta, a memória e a CPU de acordo com os requisitos e recomendações do contêiner de conversão de texto em fala.

Aqui está um exemplo de comando docker run com valores de espaço reservado. Você deve especificar os valores para ENDPOINT_URI e API_KEY:

docker run --rm -it -p 5000:5000 --memory 12g --cpus 6 \
mcr.microsoft.com/azure-cognitive-services/speechservices/neural-text-to-speech \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Esse comando:

Executa um contêiner de conversão de texto em fala neural a partir da imagem do contêiner.
Aloca seis núcleos de CPU e 12 GB de memória.
Expõe a porta TCP 5000 e aloca um pseudo-TTY para o contêiner.
Remove automaticamente o contêiner depois que ele sai. A imagem de contêiner ainda fica disponível no computador host.

Para executar contêineres desconectados (não conectados à Internet), você deve enviar esse formulário de solicitação e aguardar aprovação. Para obter mais informações sobre como aplicar e adquirir um plano de compromisso para usar contêineres em ambientes desconectados, consulte Como usar contêineres em ambientes desconectados na documentação dos Serviços de IA do Azure.

Se você estiver autorizado a executar o contêiner desconectado da internet, o exemplo a seguir mostra a formatação do comando docker run a ser usado, com valores de espaço reservado. Substitua os valores do espaço reservado pelos seus.

O parâmetro DownloadLicense=True no comando docker run baixa um arquivo de licença para permitir que o contêiner do Docker seja executado quando não estiver conectado à Internet. Ele também contém uma data de validade, após a qual o arquivo de licença ficará inválido para executar o contêiner. Você só pode usar um arquivo de licença com o contêiner apropriado para o qual você está autorizado. Por exemplo, você não pode usar um arquivo de licença para um contêiner speech-to-text com um contêiner neural-text-to-speech.

Espaço reservado	Descrição
`{IMAGE}`	A imagem de contêiner que você deseja usar. Por exemplo: `mcr.microsoft.com/azure-cognitive-services/neural-text-to-speech:latest`
`{LICENSE_MOUNT}`	O caminho em que a licença é baixada e montada. Por exemplo: `/host/license:/path/to/license/directory`
`{ENDPOINT_URI}`	O ponto de extremidade para autenticação da sua solicitação de serviço. É possível encontrá-lo na página de Chave e ponto de extremidade do recurso, no portal do Azure. Por exemplo: `https://<your-resource-name>.cognitiveservices.azure.com`
`{API_KEY}`	A chave do seu recurso de Fala. É possível encontrá-lo na página de Chave e ponto de extremidade do recurso, no portal do Azure.
`{CONTAINER_LICENSE_DIRECTORY}`	Local da pasta de licença no sistema de arquivos local do contêiner. Por exemplo: `/path/to/license/directory`

docker run --rm -it -p 5000:5000 \ 
-v {LICENSE_MOUNT} \
{IMAGE} \
eula=accept \
billing={ENDPOINT_URI} \
apikey={API_KEY} \
DownloadLicense=True \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}

Depois que o arquivo de licença for baixado, você pode executar o contêiner em um ambiente desconectado. O exemplo a seguir mostra a formatação do comando docker run que você usa, com os valores de espaço reservado. Substitua os valores do espaço reservado pelos seus.

Sempre que o contêiner é executado, o arquivo de licença precisa ser montado no contêiner e a localização da pasta de licença no sistema de arquivos local do contêiner precisa ser especificada com Mounts:License=. Uma montagem de saída também precisa ser especificada para que os registros de uso de cobrança possam ser gravados.

Espaço reservado	Valor	Formato ou exemplo
`{IMAGE}`	A imagem de contêiner que você deseja usar. Por exemplo: `mcr.microsoft.com/azure-cognitive-services/neural-text-to-speech:latest`
`{MEMORY_SIZE}`	O tamanho apropriado da memória a ser alocada para o contêiner. Por exemplo: `4g`
`{NUMBER_CPUS}`	O número apropriado de CPUs a serem alocadas para o contêiner. Por exemplo: `4`
`{LICENSE_MOUNT}`	O caminho em que a licença está localizada e montada. Por exemplo: `/host/license:/path/to/license/directory`
`{OUTPUT_PATH}`	O caminho de saída do registro em log. Por exemplo: `/host/output:/path/to/output/directory` Para obter mais informações, consulte os registros de uso na documentação dos Serviços de IA do Azure.
`{CONTAINER_LICENSE_DIRECTORY}`	Local da pasta de licença no sistema de arquivos local do contêiner. Por exemplo: `/path/to/license/directory`
`{CONTAINER_OUTPUT_DIRECTORY}`	Local da pasta de saída no sistema de arquivos local do contêiner. Por exemplo: `/path/to/output/directory`

docker run --rm -it -p 5000:5000 --memory {MEMORY_SIZE} --cpus {NUMBER_CPUS} \ 
-v {LICENSE_MOUNT} \ 
-v {OUTPUT_PATH} \
{IMAGE} \
eula=accept \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}
Mounts:Output={CONTAINER_OUTPUT_DIRECTORY}

Os contêineres de Fala fornecem um diretório padrão para gravar o arquivo de licença e o registro de cobrança no runtime. Os diretórios padrão são /license e /output, respectivamente.

Quando estiver montando esses diretórios no contêiner com o comando docker run -v, verifique se o diretório do computador local tem a propriedade definida como user:group nonroot:nonroot antes de executar o contêiner.

Este é um comando de exemplo para definir a propriedade de arquivo/diretório.

sudo chown -R nonroot:nonroot <YOUR_LOCAL_MACHINE_PATH_1> <YOUR_LOCAL_MACHINE_PATH_2> ...

Para obter mais informações sobre docker run com contêineres de Fala, confira Instalar e executar contêineres de Fala com o Docker.

Usar o contêiner

Os contêineres de Fala fornecem APIs de ponto de extremidade de consulta baseadas em websocket que são acessadas através do SDK de Fala e da CLI de Fala. Por padrão, o SDK de Fala e a CLI de Fala usam o serviço público de Fala. Para usar o contêiner, você precisa alterar o método de inicialização.

Importante

Ao usar o serviço de Fala com contêineres, certifique-se de usar a autenticação de host. Se você configurar a chave e a região, as solicitações irão para o serviço público de Fala. Os resultados do serviço de Fala podem não ser os que você espera. As solicitações de contêineres desconectados falharão.