O que é fala para texto?

Nesta visão geral, você aprenderá sobre os benefícios e os recursos do recurso de fala para texto do serviço de Fala, que faz parte dos serviços de IA do Azure. A conversão de fala em texto pode ser usada para transcrição em tempo real ou em lote de fluxos de áudio em texto.

Nota

Para comparar os preços da transcrição em tempo real com a transcrição em lote, consulte Preços do serviço de fala.

Para obter uma lista completa dos idiomas de fala para texto disponíveis, consulte Suporte de idioma e voz.

Conversão de voz em texto em tempo real

Com fala em texto em tempo real, o áudio é transcrito à medida que a fala é reconhecida a partir de um microfone ou arquivo. Use fala em tempo real para texto para aplicativos que precisam transcrever áudio em tempo real, como:

A conversão de voz em texto em tempo real está disponível através do SDK de Fala e da CLI de Fala.

Transcrição em lotes

A transcrição em lote é usada para transcrever uma grande quantidade de áudio no armazenamento. Pode apontar para ficheiros de áudio com um URI de assinatura de acesso partilhado (SAS) e receber os resultados de transcrição de forma assíncrona. Use a transcrição em lote para aplicativos que precisam transcrever áudio em massa, como:

  • Transcrições, legendas ou legendas para áudio pré-gravado
  • Análise pós-chamada do contact center
  • Diarização

A transcrição em lote está disponível via:

Fala personalizada

Com a fala personalizada, você pode avaliar e melhorar a precisão do reconhecimento de fala para seus aplicativos e produtos. Um modelo de fala personalizado pode ser usado para conversão de fala em texto em tempo real, tradução de fala e transcrição em lote.

Gorjeta

Um ponto de extremidade de implantação hospedado não é necessário para usar fala personalizada com a API de transcrição em lote. Você pode conservar recursos se o modelo de fala personalizado for usado apenas para transcrição em lote. Para obter mais informações, consulte Preços do serviço de fala.

Pronto para usar, o reconhecimento de fala utiliza um Modelo de Linguagem Universal como um modelo base que é treinado com dados de propriedade da Microsoft e reflete a linguagem falada comumente usada. O modelo base é pré-treinado com dialetos e fonética representando vários domínios comuns. Quando você faz uma solicitação de reconhecimento de fala, o modelo base mais recente para cada idioma suportado é usado por padrão. O modelo base funciona bem na maioria dos cenários de reconhecimento de fala.

Um modelo personalizado pode ser usado para aumentar o modelo base para melhorar o reconhecimento do vocabulário específico do domínio específico para o aplicativo, fornecendo dados de texto para treinar o modelo. Ele também pode ser usado para melhorar o reconhecimento com base nas condições específicas de áudio do aplicativo, fornecendo dados de áudio com transcrições de referência. Para obter mais informações, consulte Fala personalizada e API REST de fala para texto.

As opções de personalização variam de acordo com o idioma ou a localidade. Para verificar o suporte, consulte Suporte de idioma e voz para o serviço de fala.

IA responsável

Um sistema de IA inclui não apenas a tecnologia, mas também as pessoas que a usam, as pessoas que são afetadas por ela e o ambiente em que é implantado. Leia as notas de transparência para saber mais sobre o uso e a implantação responsáveis da IA em seus sistemas.

Próximos passos