Conversão de voz em contêineres de texto com o Docker

Artigo
09/17/2024

O contêiner Fala para texto transcreve gravações de fala ou áudio em lote em tempo real com resultados intermediários. Neste artigo, você aprenderá a baixar, instalar e executar um contêiner de fala para texto.

Para obter mais informações sobre pré-requisitos, validação de que um contêiner está em execução, execução de vários contêineres no mesmo host e execução de contêineres desconectados, consulte Instalar e executar contêineres de fala com o Docker.

Imagens de contentor

A imagem do contêiner de fala para texto para todas as versões e localidades suportadas pode ser encontrada no sindicato Microsoft Container Registry (MCR). Ele reside dentro do azure-cognitive-services/speechservices/ repositório e é chamado speech-to-textde .

O nome da imagem de contêiner totalmente qualificada é, mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text. Anexe uma versão específica ou anexe :latest para obter a versão mais recente.

Versão	Caminho
Mais Recente	`mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text:latest` A `latest` tag extrai a imagem mais recente para a `en-US` localidade.
4.10.0	`mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text:4.10.0-amd64-mr-in`

Todas as tags, exceto latest, estão no seguinte formato e diferenciam maiúsculas de minúsculas:

<major>.<minor>.<patch>-<platform>-<locale>-<prerelease>

As tags também estão disponíveis no formato JSON para sua conveniência. O corpo inclui o caminho do contêiner e a lista de tags. As tags não são classificadas por versão, mas "latest" são sempre incluídas no final da lista, conforme mostrado neste trecho:

{
  "name": "azure-cognitive-services/speechservices/speech-to-text",
  "tags": [
    <--redacted for brevity-->    
    "4.10.0-amd64-sw-tz",
    "4.10.0-amd64-ta-in",
    "4.10.0-amd64-th-th",
    "4.10.0-amd64-tr-tr",
    "4.10.0-amd64-vi-vn",
    "4.10.0-amd64-wuu-cn",
    "4.10.0-amd64-yue-cn",
    "4.10.0-amd64-zh-cn",
    "4.10.0-amd64-zh-cn-sichuan",
    "4.10.0-amd64-zh-hk",
    "4.10.0-amd64-zh-tw",
    "4.10.0-amd64-zu-za",
    "latest"
  ]
}

Obter a imagem do contêiner com o docker pull

Você precisa dos pré-requisitos, incluindo o hardware necessário. Consulte também a alocação recomendada de recursos para cada contêiner de fala.

Use o comando docker pull para baixar uma imagem de contêiner do Microsoft Container Registry:

docker pull mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text:latest

Importante

A latest tag extrai a imagem mais recente para a en-US localidade. Para versões e localidades adicionais, consulte Imagens de contêiner de fala em texto.

Executar o contêiner com docker run

Use o comando docker run para executar o contêiner.

Conversão de fala em texto
Fala desconectada do texto

A tabela a seguir representa os vários docker run parâmetros e suas descrições correspondentes:

Parâmetro	Description
`{ENDPOINT_URI}`	O ponto de extremidade é necessário para medição e faturamento. Para obter mais informações, consulte argumentos de cobrança.
`{API_KEY}`	A chave API é necessária. Para obter mais informações, consulte argumentos de cobrança.

Ao executar o contêiner de fala para texto, configure a porta, a memória e a CPU de acordo com os requisitos e recomendações do contêiner de fala para texto.

Aqui está um comando de exemplo docker run com valores de espaço reservado. Você deve especificar os ENDPOINT_URI valores e API_KEY :

docker run --rm -it -p 5000:5000 --memory 8g --cpus 4 \
mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Este comando:

Executa um speech-to-text contêiner a partir da imagem do contêiner.
Aloca 4 núcleos de CPU e 8 GB de memória.
Expõe a porta TCP 5000 e aloca um pseudo-TTY para o contêiner.
Remove automaticamente o recipiente depois que ele sai. A imagem do contêiner ainda está disponível no computador host.

Para executar contêineres desconectados (não conectados à internet), você deve enviar este formulário de solicitação e aguardar a aprovação. Para obter mais informações sobre como aplicar e comprar um plano de compromisso para usar contêineres em ambientes desconectados, consulte Usar contêineres em ambientes desconectados na documentação de serviços de IA do Azure.

Se você for aprovado para executar o contêiner desconectado da Internet, o exemplo a seguir mostra a formatação do comando a ser usado, com valores de docker run espaço reservado. Substitua esses valores de espaço reservado por seus próprios valores.

O DownloadLicense=True parâmetro em seu docker run comando baixa um arquivo de licença para permitir que seu contêiner do Docker seja executado quando ele não estiver conectado à Internet. Ele também contém uma data de validade, após a qual o arquivo de licença é inválido para executar o contêiner. Você só pode usar um arquivo de licença com o contêiner apropriado para o qual foi aprovado. Por exemplo, você não pode usar um arquivo de licença para um speech-to-text contêiner com um neural-text-to-speech contêiner.

Marcador de Posição	Description
`{IMAGE}`	A imagem de contêiner que você deseja usar. Por exemplo: `mcr.microsoft.com/azure-cognitive-services/speech-to-text:latest`
`{LICENSE_MOUNT}`	O caminho onde a licença é baixada e montada. Por exemplo: `/host/license:/path/to/license/directory`
`{ENDPOINT_URI}`	O ponto de extremidade para autenticar sua solicitação de serviço. Você pode encontrá-lo na página Chave e ponto de extremidade do seu recurso, no portal do Azure. Por exemplo: `https://<your-resource-name>.cognitiveservices.azure.com`
`{API_KEY}`	A chave para o seu recurso de Fala. Você pode encontrá-lo na página Chave e ponto de extremidade do seu recurso, no portal do Azure.
`{CONTAINER_LICENSE_DIRECTORY}`	Localização da pasta de licença no sistema de arquivos local do contêiner. Por exemplo: `/path/to/license/directory`

docker run --rm -it -p 5000:5000 \ 
-v {LICENSE_MOUNT} \
{IMAGE} \
eula=accept \
billing={ENDPOINT_URI} \
apikey={API_KEY} \
DownloadLicense=True \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}

Depois que o arquivo de licença for baixado, você poderá executar o contêiner em um ambiente desconectado. O exemplo a seguir mostra a docker run formatação do comando que você usa, com valores de espaço reservado. Substitua esses valores de espaço reservado por seus próprios valores.

Onde quer que o contêiner seja executado, o arquivo de licença deve ser montado no contêiner e o local da pasta de licença no sistema de arquivos local do contêiner deve ser especificado com Mounts:License=. Uma montagem de saída também deve ser especificada para que os registros de uso de faturamento possam ser gravados.

Marcador de Posição	Value	Formato ou exemplo
`{IMAGE}`	A imagem de contêiner que você deseja usar. Por exemplo: `mcr.microsoft.com/azure-cognitive-services/speech-to-text:latest`
`{MEMORY_SIZE}`	O tamanho apropriado da memória a ser alocada para seu contêiner. Por exemplo: `4g`
`{NUMBER_CPUS}`	O número apropriado de CPUs a serem alocadas para seu contêiner. Por exemplo: `4`
`{LICENSE_MOUNT}`	O caminho onde a licença está localizada e montada. Por exemplo: `/host/license:/path/to/license/directory`
`{OUTPUT_PATH}`	O caminho de saída para registro. Por exemplo: `/host/output:/path/to/output/directory` Para obter mais informações, consulte registros de uso na documentação de serviços de IA do Azure.
`{CONTAINER_LICENSE_DIRECTORY}`	Localização da pasta de licença no sistema de arquivos local do contêiner. Por exemplo: `/path/to/license/directory`
`{CONTAINER_OUTPUT_DIRECTORY}`	Localização da pasta de saída no sistema de arquivos local do contêiner. Por exemplo: `/path/to/output/directory`

docker run --rm -it -p 5000:5000 --memory {MEMORY_SIZE} --cpus {NUMBER_CPUS} \ 
-v {LICENSE_MOUNT} \ 
-v {OUTPUT_PATH} \
{IMAGE} \
eula=accept \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}
Mounts:Output={CONTAINER_OUTPUT_DIRECTORY}

Os contêineres de fala fornecem um diretório padrão para gravar o arquivo de licença e o log de faturamento em tempo de execução. Os diretórios padrão são /license e /output, respectivamente.

Ao montar esses diretórios no contêiner com o docker run -v comando, verifique se o diretório da máquina local está definido como propriedade antes user:group nonroot:nonroot de executar o contêiner.

Aqui está um comando de exemplo para definir a propriedade do arquivo/diretório.

sudo chown -R nonroot:nonroot <YOUR_LOCAL_MACHINE_PATH_1> <YOUR_LOCAL_MACHINE_PATH_2> ...

Para obter mais informações sobre docker run como contêineres de fala, consulte Instalar e executar contêineres de fala com o Docker.

Utilize o recipiente

Os contêineres de fala fornecem APIs de ponto de extremidade de consulta baseadas em websocket que são acessadas por meio do SDK de Fala e da CLI de Fala. Por padrão, o SDK de Fala e a CLI de Fala usam o serviço de Fala público. Para usar o contêiner, você precisa alterar o método de inicialização.

Importante

Ao usar o serviço de Fala com contêineres, certifique-se de usar a autenticação de host. Se você configurar a chave e a região, as solicitações irão para o serviço de Fala pública. Os resultados do serviço de Fala podem não ser os esperados. As solicitações de contêineres desconectados falharão.