Compartilhar via


API REST de Reconhecimento de fala

A API REST da conversão de fala em texto é usada para transcrição em lote e fala personalizada.

Importante

A versão 2024-11-15 mais recente da API REST de Conversão de fala em texto está disponível.

  • A API REST de Conversão de fala em texto versão 2024-05-15-preview anterior será desativada em uma data a ser anunciada.
  • A API REST de fala para texto v3.0, v3.1, v3.2, 3.2-preview.1 e 3.2-preview.2 serão desativados em 31 de março de 2026.

Para mais informações sobre a atualização, consulte os guias de migração da API REST de Conversão de fala em texto v3.0 para v3.1, v3.1 para v3.2 e v3.2 para 2024-11-15.

Use a API REST de Reconhecimento de fala para:

  • Transcrição rápida: transcreva arquivos de áudio com resultados de retorno de forma síncrona e muito mais rápida do que o áudio em tempo real. Use a API de transcrição rápida (/speechtotext/transcriptions:transcribe) nos cenários em que você precisa da transcrição de uma gravação de áudio o mais rápido possível com latência previsível, como transcrição rápida de áudio ou vídeo ou tradução de vídeo.
  • Transcrição em lote: transcreva arquivos de áudio como um lote de várias URLs ou um contêiner do Azure. Use a API de transcrição em lote (/speechtotext/transcriptions:submit) nos cenários necessários para transcrever uma grande quantidade de áudio no armazenamento, como um grande número de arquivos ou um arquivo de áudio longo.
  • Fala personalizada: carregue seus próprios dados, teste e treine um modelo personalizado, compare a precisão entre modelos e implante um modelo em um ponto de extremidade personalizado. Copie modelos para outras assinaturas se quiser que seus colegas tenham acesso a um modelo que você criou ou se desejar implantar um modelo em mais de uma região.

A API REST de Reconhecimento de fala inclui recursos como:

  • Solicite logs para cada endpoint.
  • Solicite o manifesto dos modelos criados por você para configurar contêineres locais.
  • Carregue dados de contas de armazenamento do Azure usando um URI de SAS (Assinatura de Acesso Compartilhado).
  • Traga seu próprio armazenamento. Use suas contas de armazenamento para logs, arquivos de transcrição e outros dados.
  • Algumas operações dão suporte a notificações de webhook. Você pode registrar seus webhooks para onde as notificações são enviadas.

Transcrição rápida

Os grupos de operações a seguir são aplicáveis à transcrição rápida.

Grupo de operações Descrição
Transcrições Usar Transcrições – Transcrever para transcrever arquivos de áudio.

Ao usar a transcrição rápida , você envia um único arquivo por solicitação. Consulte Criar uma transcrição para obter exemplos de como criar uma transcrição de um único arquivo de áudio.

Transcrição de lote

Os grupos de operações a seguir são aplicáveis para transcrição em lote.

Grupo de operações Descrição
Modelos Use modelos básicos ou personalizados para transcrever arquivos de áudio.

Você pode usar modelos com fala personalizada e transcrição em lote. Por exemplo, você pode usar um modelo treinado com um conjunto de dados específico para transcrever arquivos de áudio. Consulte Treinar um modelo e ciclo de vida do modelo de fala personalizado para obter exemplos de como treinar e gerenciar modelos de fala personalizados.
Transcrições Usar Transcrições – Enviar para transcrever uma grande quantidade de áudio no armazenamento.

Ao usar transcrição em lote você envia vários arquivos por solicitação ou aponta para um contêiner de Armazenamento de Blobs do Azure com os arquivos de áudio a serem transcritos. Confira Criar uma transcrição para obter exemplos de como criar uma transcrição de vários arquivos de áudio.
Webhooks Use web hooks para receber notificações sobre eventos de criação, processamento, conclusão e exclusão.

Você pode usar web hooks com fala personalizada e transcrição em lote. Os ganchos da Web se aplicam a conjuntos de dados, pontos de extremidade, avaliações, modelos e transcrições.

Fala Personalizada

Os grupos de operações a seguir são aplicáveis para fala personalizada.

Grupo de operações Descrição
Conjunto de dados Use conjuntos de dados para treinar e testar modelos de fala personalizados.

Por exemplo, você pode comparar o desempenho de uma fala personalizada treinada com um conjunto de dados específico com o desempenho de um modelo base ou modelo de fala personalizado treinado com um conjunto de dados diferente. Confira Carregar conjuntos de dados de treinamento e teste para obter exemplos de como carregar conjuntos de dados.
Pontos de extremidade Implante modelos de fala personalizados em pontos de extremidade.

Você deve implantar um ponto de extremidade personalizado para usar um modelo de fala personalizada. Confira Implantar um modelo para obter exemplos de como gerenciar pontos de extremidade de implantação.
Avaliações Use avaliações para comparar o desempenho de diferentes modelos.

Por exemplo, você pode comparar o desempenho de um modelo de fala personalizada treinado com um conjunto de dados específico com o desempenho de um modelo base ou de um modelo personalizado treinado com um conjunto de dados diferente. Consulte testar a qualidade do reconhecimento e testar a precisão para obter exemplos de como testar e avaliar modelos de fala personalizados.
Modelos Use modelos básicos ou personalizados para transcrever arquivos de áudio.

Você pode usar modelos com fala personalizada e transcrição em lote. Por exemplo, você pode usar um modelo treinado com um conjunto de dados específico para transcrever arquivos de áudio. Consulte Treinar um modelo e ciclo de vida do modelo de fala personalizado para obter exemplos de como treinar e gerenciar modelos de fala personalizados.
Webhooks Use web hooks para receber notificações sobre eventos de criação, processamento, conclusão e exclusão.

Você pode usar web hooks com fala personalizada e transcrição em lote. Os ganchos da Web se aplicam a conjuntos de dados, pontos de extremidade, avaliações, modelos e transcrições.