O que é conversão de fala em texto?

Nessa visão geral, você saberá quais são os benefícios e funcionalidades do recurso de conversão de fala em texto do Serviço de Fala, que faz parte dos Serviços de IA do Azure. A conversão de fala em texto pode ser usada para transcrição em transcrição em tempo real ou transcrição em lote de fluxos de áudio em texto.

Observação

Para comparar os preços da transcrição em tempo real com a transcrição em lote, confira os Preços do serviço de Fala.

Para obter uma lista completa de idiomas da conversão de fala em texto disponíveis, confira Suporte a idiomas e voz.

Conversão de fala em texto em tempo real

Com a conversão de fala em texto em tempo real, o áudio é transcrito à medida que a fala é reconhecida de um microfone ou arquivo. Use o reconhecimento de fala em tempo real para aplicativos que precisam transcrever áudio em tempo real, como:

A conversão de fala em texto em tempo real está disponível por meio do SDK de Fala e da CLI de Fala.

Transcrição de lote

A transcrição em lote é usada para transcrever um grande volume de dados de áudio no armazenamento. Será possível transmitir arquivos de áudio com um URI de SAS (assinatura de acesso compartilhado) e receber resultados de transcrição de maneira assíncrona. Use a transcrição em lote para aplicativos que precisam transcrever áudios em massa, como:

  • Transcrições, legendas ou legendas para áudio pré-gravado
  • Análise pós-chamada da central de atendimento
  • Diarização

A transcrição em lote está disponível por meio de:

Fala Personalizada

Com a fala personalizada, você pode avaliar e melhorar a precisão do reconhecimento de fala para seus aplicativos e produtos. Um modelo de fala personalizado pode ser usado para conversão de fala em texto em tempo real, tradução de fala e transcrição em lote.

Dica

Um ponto de extremidade de implantação hospedado não é necessário para usar a fala personalizada com a API de transcrição em lote. Você poderá conservar recursos se o modelo de fala personalizado só for usado para transcrição em lote. Para obter mais informações, confira Preços do serviço de Fala.

Pronto para uso, o reconhecimento de fala utiliza um Modelo de Linguagem Universal como um modelo base treinado com dados de propriedade da Microsoft e reflete a linguagem falada comumente usada. O modelo básico é pré-treinado com dialetos e fonética que representam vários domínios comuns. Quando você faz uma solicitação de reconhecimento de fala, o modelo base mais recente de cada linguagem com suporte é usado por padrão. O modelo base funciona bem na maioria dos cenários de reconhecimento de fala.

Um modelo personalizado pode ser usado para aumentar o modelo base para melhorar o reconhecimento do vocabulário específico do domínio específico ao aplicativo, fornecendo dados de texto para treinar o modelo. Ele também pode ser usado para melhorar o reconhecimento com base nas condições de áudio específicas do aplicativo, fornecendo dados de áudio com transcrições de referência. Para obter mais informações, confira Fala personalizada e API REST de conversão de fala em texto.

As opções de personalização variam por idioma ou localidade. Para verificar o suporte, confira Suporte a idiomas e voz para o serviço de Fala.

IA responsável

Um sistema de IA inclui não apenas a tecnologia, mas também as pessoas que a usam, que serão afetadas por ela e o ambiente em que ela foi implantada. Leia as notas de transparência para saber mais sobre o uso e a implantação de IA responsável em seus sistemas.

Próximas etapas