O que é transcrição em lote?

A transcrição em lote é usada para transcrever um grande volume de dados de áudio no armazenamento. A API REST de conversão de fala em texto e a CLI de Fala dão suporte à transcrição em lote.

Observação

Para usar a transcrição em lote, você precisa de um recurso de Fala padrão (S0) em sua assinatura. Os recursos gratuitos (F0) não são suportados. Para obter mais informações, confira preços e limites.

Você deve fornecer vários arquivos por solicitação ou apontar para um contêiner de Armazenamento de Blobs do Azure com os arquivos de áudio a serem transcritos. O serviço de transcrição em lote pode lidar com um grande número de transcrições enviadas. O serviço transcreve os arquivos simultaneamente, o que reduz o tempo de retorno.

Como ele funciona?

Nas transcrições em lote é possível enviar os dados de áudio e, em seguida, recuperar os resultados da transcrição de forma assíncrona. O serviço transcreve os dados de áudio e armazena os resultados em um contêiner de armazenamento. Em seguida, você pode recuperar os resultados a partir do contêiner de armazenamento.

Para começar a usar a transcrição em lote, veja os seguintes guias de instruções:

  1. Localizar arquivos de áudio para transcrição em lote – Você pode carregar seus próprios dados ou usar arquivos de áudio existentes por meio de URI público ou URI de SAS (assinatura de acesso compartilhado).
  2. Criar uma transcrição em lote – Envie o trabalho de transcrição com parâmetros como os arquivos de áudio, a linguagem de transcrição e o modelo de transcrição.
  3. Obter resultados da transcrição em lote – Verifique o status da transcrição e recupere os resultados da transcrição de forma assíncrona.

Os trabalhos de transcrição em lote são agendados como um melhor esforço. Não é possível estimar quando um trabalho mudará para o estado de execução, mas isso deve ocorrer em poucos minutos sob a carga normal do sistema. Quando o trabalho estiver no estado de execução, a transcrição ocorrerá mais rapidamente do que a velocidade de reprodução de runtime do áudio.

Próximas etapas