Contêineres personalizados de conversão de fala em texto com o Docker

Artigo
01/21/2024

A fala personalizada para o contêiner de texto transcreve gravações de áudio em tempo real ou de áudio em lote com resultados intermediários. Você pode usar um modelo personalizado criado no portal de fala personalizada. Neste artigo, você aprenderá a baixar, instalar e executar uma fala personalizada no contêiner de conversão de fala em texto.

Para obter mais informações sobre os pré-requisitos, validar se um contêiner está sendo executado, executar vários contêineres no mesmo host e executar contêineres desconectados, consulte Instalar e executar contêineres de Fala com o Docker.

Imagens de contêiner

A imagem de contêiner de fala personalizada para texto para todas as versões e localidades com suporte pode ser encontrada no sindicato do Registro de Contêiner da Microsoft (MCR). Ela reside no repositório azure-cognitive-services/speechservices/ e é chamada custom-speech-to-text.

O nome da imagem de contêiner totalmente qualificado é mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text. Acrescente uma versão específica ou acrescente :latest para obter a versão mais recente.

Versão	Caminho
Mais recente	`mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:latest`
4.6.0	`mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:4.6.0-amd64`

Todas as marcas, exceto latest, estão disponíveis no seguinte formato e diferenciam maiúsculas de minúsculas:

<major>.<minor>.<patch>-<platform>-<prerelease>

Observação

O locale e voice para contêineres de conversão de fala em texto personalizados são determinados pelo modelo personalizado ingerido pelo contêiner.

As marcas também estão disponíveis no formato JSON para sua conveniência. O corpo inclui o caminho do contêiner e a lista de marcas. As marcas não são classificadas por versão, mas "latest" é sempre incluída no final da lista, conforme mostrado neste trecho:

{
  "name": "azure-cognitive-services/speechservices/custom-speech-to-text",
  "tags": [
    "2.10.0-amd64",
    "2.11.0-amd64",
    "2.12.0-amd64",
    "2.12.1-amd64",
    <--redacted for brevity-->
    "latest"
  ]
}

Obtenha a imagem de contêiner com o docker pull

Você precisa dos pré-requisitos, incluindo o hardware necessário. Veja também a alocação recomendada de recursos para cada contêiner de Fala.

Use o comando docker pull para baixar uma imagem de contêiner do Microsoft Container Registry:

docker pull mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:latest

Observação

A locale e a voice de contêineres de Fala Personalizada são determinadas pelo modelo personalizado ingerido pelo contêiner.

Obter a ID do modelo

Antes de executar o contêiner, você precisa saber a ID do modelo do modelo personalizado ou uma ID de modelo base. Ao executar o contêiner, você especifica uma das IDs de modelo a serem baixadas e usadas.

ID do modelo personalizado
ID do modelo base

O modelo personalizado tem que passar pelo treinamento no Speech Studio. Para obter informações sobre como obter a ID do modelo, confira o ciclo de vida do modelo de fala personalizada.

Screenshot that shows the custom speech training page.

Obtenha a ID do modelo a fim de usá-la como argumento para o parâmetro ModelId do comando docker run.

Screenshot that shows custom speech model details.

Você pode obter a informação disponível sobre o modelo base usando a opção BaseModelLocale={LOCALE}. A opção fornecerá na sua conta de cobrança uma lista de modelos base disponíveis nessa localidade.

Para obter IDs de modelo base, use o comando docker run. Por exemplo:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
BaseModelLocale={LOCALE} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Esse comando verifica a imagem do contêiner e retorna os modelos base disponíveis da localidade de destino.

Observação

Embora você use o comando docker run, o contêiner não é iniciado para o serviço.

A saída fornecerá uma lista de modelos base com informações sobre a localidade, a ID do modelo, além de data e hora da criação. Por exemplo:

Checking available base model for en-us
2020/10/30 21:54:20 [Info] Searching available base models for en-us
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2016-11-04T08:23:42Z, Id: a3d8aab9-6f36-44cd-9904-b37389ce2bfa
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2016-11-04T12:01:02Z, Id: cc7826ac-5355-471d-9bc6-a54673d06e45
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2017-08-17T12:00:00Z, Id: a1f8db59-40ff-4f0e-b011-37629c3a1a53
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-04-16T11:55:00Z, Id: c7a69da3-27de-4a4b-ab75-b6716f6321e5
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-09-21T15:18:43Z, Id: da494a53-0dad-4158-b15f-8f9daca7a412
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-10-19T11:28:54Z, Id: 84ec130b-d047-44bf-a46d-58c1ac292ca7
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-11-26T07:59:09Z, Id: ee5c100f-152f-4ae5-9e9d-014af3c01c56
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-11-26T09:21:55Z, Id: d04959a6-71da-4913-9997-836793e3c115
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2019-01-11T10:04:19Z, Id: 488e5f23-8bc5-46f8-9ad8-ea9a49a8efda
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2019-02-18T14:37:57Z, Id: 0207b3e6-92a8-4363-8c0e-361114cdd719
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2019-03-03T17:34:10Z, Id: 198d9b79-2950-4609-b6ec-f52254074a05
2020/10/30 21:54:21 [Fatal] Please run this tool again and assign --modelId '<one above base model id>'. If no model id listed above, it means currently there is no available base model for en-us

Exibir download do modelo

Antes de executar o contêiner, você pode, opcionalmente, obter as informações dos modelos de exibição disponíveis e optar por baixar esses modelos no seu contêiner de conversão de fala em texto para obter uma saída de exibição final altamente aprimorada. O download do modelo de exibição está disponível com o contêiner personalizado de conversão de fala em texto versão 3.1.0 e posterior.

Observação

Embora você use o comando docker run, o contêiner não é iniciado para o serviço.

Você pode consultar ou baixar qualquer um desse tipos de modelo de exibição ou todos eles: Repontuação (Rescore), Pontuação (Punct), ressegmentação (Resegment) e wfstitn (Wfstitn). Caso contrário, você poderá usar a opção FullDisplay (com ou sem os outros tipos) para consultar ou baixar todos os tipos de modelos de exibição.

Defina o BaseModelLocale para consultar o modelo de exibição mais recente disponível na localidade de destino. Se você incluir vários tipos de modelo de exibição, o comando retornará os modelos de exibição mais recentes disponíveis para cada tipo. Por exemplo:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
Punct Rescore Resegment Wfstitn \   # Specify `FullDisplay` or a space-separated subset of display models
BaseModelLocale={LOCALE} \           
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Defina o DisplayLocale para baixar o modelo de exibição mais recente disponível na localidade de destino. Ao definir DisplayLocale, você também deve especificar FullDisplay ou um subconjunto separado por espaços de modelos de exibição. O comando baixa o modelo de exibição mais recente disponível para cada tipo especificado. Por exemplo:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
Punct Rescore Resegment Wfstitn \   # Specify `FullDisplay` or a space-separated subset of display models
DisplayLocale={LOCALE} \           
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Defina um parâmetro de ID de modelo para baixar um modelo de exibição específico: Repontuação (RescoreId), Pontuação (PunctId), ressegmentação (ResegmentId) ou wfstitn (WfstitnId). Isso é semelhante a como você baixaria um modelo base por meio do parâmetro ModelId. Por exemplo, para baixar um modelo de exibição de repontuação, você pode usar o seguinte comando com o parâmetro RescoreId:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
RescoreId={RESCORE_MODEL_ID} \         
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Observação

Se você definir mais de um parâmetro de consulta ou de download, o comando será priorizado nesta ordem: BaseModelLocale, ID do modelo e DisplayLocale (aplicável somente para modelos de exibição).

Executar o contêiner com a execução do Docker

Use o comando docker run para executar o contêiner para o serviço.

Conversão de fala em texto personalizada
Conversão de fala em texto personalizada desconectada

A seguinte tabela mostrará vários parâmetros de docker run e as descrições correspondentes:

Parâmetro	Descrição
`{VOLUME_MOUNT}`	A montagem de volume do computador host, usada pelo Docker para persistir o modelo personalizado. Um exemplo é `c:\CustomSpeech`, em que a unidade `c:\` está localizada no computador host.
`{MODEL_ID}`	A ID do modelo de fala personalizada ou modelo base. Para obter mais informações, consulte Obter a ID do modelo.
`{ENDPOINT_URI}`	O ponto de extremidade é necessário para obter a medição e a cobrança. Para obter mais informações, consulte os argumentos de cobrança.
`{API_KEY}`	A chave de API é obrigatória. Para obter mais informações, consulte os argumentos de cobrança.

Ao executar o contêiner personalizado de conversão de fala em texto, configure a porta, a memória e a CPU de acordo com os requisitos e recomendações do contêiner personalizado de conversão de fala em texto.

Aqui está um exemplo de comando docker run com valores de espaço reservado. Você deve especificar os valores VOLUME_MOUNT, MODEL_ID, ENDPOINT_URI e API_KEY:

docker run --rm -it -p 5000:5000 --memory 8g --cpus 4 \
-v {VOLUME_MOUNT}:/usr/local/models \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
ModelId={MODEL_ID} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Esse comando:

Executa um contêiner personalizado de conversão de fala em texto a partir da imagem do contêiner.
Aloca quatro núcleos de CPU e 8 GB de memória.
Carrega o modelo personalizado de conversão de fala em texto a partir do suporte de entrada do volume, por exemplo, C:\CustomSpeech.
Expõe a porta TCP 5000 e aloca um pseudo-TTY para o contêiner.
Baixa o modelo de acordo com o ModelId (caso ele não seja encontrado na montagem de volume).
Caso o modelo personalizado tenha sido baixado anteriormente, o ModelId será ignorado.
Remove automaticamente o contêiner depois que ele sai. A imagem de contêiner ainda fica disponível no computador host.

Para obter mais informações sobre docker run com contêineres de Fala, confira Instalar e executar contêineres de Fala com o Docker.

Para executar contêineres desconectados (não conectados à Internet), você deve enviar esse formulário de solicitação e aguardar aprovação. Para obter mais informações sobre como aplicar e adquirir um plano de compromisso para usar contêineres em ambientes desconectados, consulte Como usar contêineres em ambientes desconectados na documentação dos Serviços de IA do Azure.

Se você estiver autorizado a executar o contêiner desconectado da internet, o exemplo a seguir mostra a formatação do comando docker run a ser usado, com valores de espaço reservado. Substitua os valores do espaço reservado pelos seus.

Para preparar e configurar uma fala personalizada desconectada para o contêiner de conversão de fala em texto, você precisa de dois recursos de fala separados:

Um recurso comum do Serviço de Fala da IA do Azure configurado para usar um tipo de preço "S0 – Standard" ou um plano de preços do nível de compromisso "Conversão de fala em texto (personalizada)". Isso é usado para treinar, baixar e configurar seus modelos de fala personalizados para uso no contêiner.
Um recurso de Fala de IA do Azure configurado para usar o plano de preços "DC0 Commitment (Desconectado)". Isso é usado para baixar o arquivo de licença de contêiner desconectado necessário para executar o contêiner no modo desconectado.

Siga estas etapas para baixar e executar o contêiner em ambientes desconectados.

Baixe um modelo para o contêiner desconectado. Para esta etapa, use um recurso regular de Fala de IA do Azure configurado para usar um tipo de preço "S0 – Standard" ou um "Conversão de Fala em Texto (Personalizado)" plano de preço do tipo de compromisso.
Baixe a licença de contêiner desconectado. Para esta etapa, use um recurso de Fala de IA do Azure configurado para usar o plano de preços "Compromisso DC0 (Desconectado)".
Execute o contêiner desconectado para o serviço. Para esta etapa, use um recurso de Fala de IA do Azure configurado para usar o plano de preços "Compromisso DC0 (Desconectado)".

Baixar um modelo para o contêiner desconectado

Para esta etapa, use um recurso regular de Fala de IA do Azure configurado para usar um tipo de preço "S0 – Standard" ou um "Conversão de Fala em Texto (Personalizado)" plano de preço do tipo de compromisso.

A seguinte tabela mostrará vários parâmetros de docker run e as descrições correspondentes:

Parâmetro	Descrição
`{VOLUME_MOUNT}`	A montagem de volume do computador host, usada pelo Docker para persistir o modelo personalizado. Um exemplo é `c:\CustomSpeech`, em que a unidade `c:\` está localizada no computador host.
`{MODEL_ID}`	A ID do modelo de fala personalizada ou modelo base. Para obter mais informações, consulte Obter a ID do modelo.
`{ENDPOINT_URI}`	O ponto de extremidade é necessário para obter a medição e a cobrança. Para obter mais informações, consulte os argumentos de cobrança.
`{API_KEY}`	A chave de API é obrigatória. Para obter mais informações, consulte os argumentos de cobrança.

Aqui está um exemplo de comando docker run com valores de espaço reservado. Você deve especificar os valores VOLUME_MOUNT, MODEL_ID, ENDPOINT_URI e API_KEY:

docker run --rm -it -p 5000:5000 --memory 8g --cpus 4 \
-v {VOLUME_MOUNT}:/usr/local/models \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
ModelId={MODEL_ID} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Esse comando:

Executa um contêiner personalizado de conversão de fala em texto a partir da imagem do contêiner.
Aloca quatro núcleos de CPU e 8 GB de memória.
Carrega o modelo personalizado de conversão de fala em texto a partir do suporte de entrada do volume, por exemplo, C:\CustomSpeech.
Expõe a porta TCP 5000 e aloca um pseudo-TTY para o contêiner.
Baixa o modelo de acordo com o ModelId (caso ele não seja encontrado na montagem de volume).
Caso o modelo personalizado tenha sido baixado anteriormente, o ModelId será ignorado.
Remove automaticamente o contêiner depois que ele sai. A imagem de contêiner ainda fica disponível no computador host.

Para obter mais informações sobre docker run com contêineres de Fala, confira Instalar e executar contêineres de Fala com o Docker.

Baixe a licença do contêiner desconectado

Em seguida, baixe o arquivo de licença desconectado. O parâmetro DownloadLicense=True no comando docker run baixa um arquivo de licença que permitir que o contêiner do Docker seja executado quando não estiver conectado à Internet. Ele também contém uma data de validade, após a qual o arquivo de licença será inválido para executar o contêiner.

Você só pode usar um arquivo de licença com o contêiner e modelo apropriado para o qual foi aprovado. Por exemplo, você não pode usar um arquivo de licença para um contêiner speech-to-text com um contêiner neural-text-to-speech.

Espaço reservado	Descrição
`{IMAGE}`	A imagem de contêiner que você deseja usar. Por exemplo: `mcr.microsoft.com/azure-cognitive-services/custom-speech-to-text:latest`
`{LICENSE_MOUNT}`	O caminho em que a licença é baixada e montada. Por exemplo: `/host/license:/path/to/license/directory`
`{MODEL_PATH}`	O caminho onde o modelo está localizado. Por exemplo: `/host/models:/usr/local/models`
`{ENDPOINT_URI}`	O ponto de extremidade para autenticação da sua solicitação de serviço. É possível encontrá-lo na página de Chave e ponto de extremidade do recurso, no portal do Azure. Por exemplo: `https://<your-resource-name>.cognitiveservices.azure.com`
`{API_KEY}`	A chave do seu recurso de Fala. É possível encontrá-lo na página de Chave e ponto de extremidade do recurso, no portal do Azure.
`{CONTAINER_LICENSE_DIRECTORY}`	Local da pasta de licença no sistema de arquivos local do contêiner. Por exemplo: `/path/to/license/directory`

Para esta etapa, use um recurso de Fala de IA do Azure configurado para usar o plano de preços "Compromisso DC0 (Desconectado)".

docker run --rm -it -p 5000:5000 \ 
-v {LICENSE_MOUNT} \
-v {MODEL_PATH} \
{IMAGE} \
eula=accept \
billing={ENDPOINT_URI} \
apikey={API_KEY} \
DownloadLicense=True \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}

Execute o contêiner desconectado

Depois que o arquivo de licença tiver sido baixado, você poderá executar o contêiner em um ambiente desconectado. O exemplo a seguir mostra a formatação do comando docker run que você usa, com os valores de espaço reservado. Substitua os valores do espaço reservado pelos seus.

Sempre que o contêiner é executado, o arquivo de licença precisa ser montado no contêiner e a localização da pasta de licença no sistema de arquivos local do contêiner precisa ser especificada com Mounts:License=. Uma montagem de saída também precisa ser especificada para que os registros de uso de cobrança possam ser gravados.

Espaço reservado	Descrição
`{IMAGE}`	A imagem de contêiner que você deseja usar. Por exemplo: `mcr.microsoft.com/azure-cognitive-services/custom-speech-to-text:latest`
`{MEMORY_SIZE}`	O tamanho apropriado da memória a ser alocada para o contêiner. Por exemplo: `4g`
`{NUMBER_CPUS}`	O número apropriado de CPUs a serem alocadas para o contêiner. Por exemplo: `4`
`{LICENSE_MOUNT}`	O caminho em que a licença é baixada e montada. Por exemplo: `/host/license:/path/to/license/directory`
`{MODEL_PATH}`	O caminho onde o modelo está localizado. Por exemplo: `/host/models:/usr/local/models`
`{OUTPUT_PATH}`	O caminho de saída do registro em log. Por exemplo: `/host/output:/path/to/output/directory` Para obter mais informações, consulte os registros de uso na documentação dos Serviços de IA do Azure.
`{ENDPOINT_URI}`	O ponto de extremidade para autenticação da sua solicitação de serviço. É possível encontrá-lo na página de Chave e ponto de extremidade do recurso, no portal do Azure. Por exemplo: `https://<your-resource-name>.cognitiveservices.azure.com`
`{API_KEY}`	A chave do seu recurso de Fala. É possível encontrá-lo na página de Chave e ponto de extremidade do recurso, no portal do Azure.
`{CONTAINER_LICENSE_DIRECTORY}`	Local da pasta de licença no sistema de arquivos local do contêiner. Por exemplo: `/path/to/license/directory`
`{CONTAINER_OUTPUT_DIRECTORY}`	Local da pasta de saída no sistema de arquivos local do contêiner. Por exemplo: `/path/to/output/directory`

Para esta etapa, use um recurso de Fala de IA do Azure configurado para usar o plano de preços "Compromisso DC0 (Desconectado)".

docker run --rm -it -p 5000:5000 --memory {MEMORY_SIZE} --cpus {NUMBER_CPUS} \ 
-v {LICENSE_MOUNT} \ 
-v {OUTPUT_PATH} \
-v {MODEL_PATH} \
{IMAGE} \
eula=accept \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}
Mounts:Output={CONTAINER_OUTPUT_DIRECTORY}

A fala personalizada para o contêiner de texto fornece um diretório padrão para gravar o arquivo de licença e o log de cobrança em runtime. Os diretórios padrão são /license e /output, respectivamente.

Quando estiver montando esses diretórios no contêiner com o comando docker run -v, verifique se o diretório do computador local tem a propriedade definida como user:group nonroot:nonroot antes de executar o contêiner.

Veja abaixo um comando de exemplo para definir a propriedade de arquivo/diretório.

sudo chown -R nonroot:nonroot <YOUR_LOCAL_MACHINE_PATH_1> <YOUR_LOCAL_MACHINE_PATH_2> ...

Usar o contêiner

Os contêineres de Fala fornecem APIs de ponto de extremidade de consulta baseadas em websocket que são acessadas através do SDK de Fala e da CLI de Fala. Por padrão, o SDK de Fala e a CLI de Fala usam o serviço público de Fala. Para usar o contêiner, você precisa alterar o método de inicialização.

Importante

Ao usar o serviço de Fala com contêineres, certifique-se de usar a autenticação de host. Se você configurar a chave e a região, as solicitações irão para o serviço público de Fala. Os resultados do serviço de Fala podem não ser os que você espera. As solicitações de contêineres desconectados falharão.