Resumo

1 minuto

Observação

Consulte a guia Texto e imagens para obter mais detalhes!

Este módulo introduz o reconhecimento de voz (voz para texto) como base para aplicações e agentes com voz habilitada. Os alunos exploram como o áudio falado é capturado a partir de um microfone ou ficheiro de áudio e convertido em texto escrito usando o Azure Speech. O módulo explica onde se encaixa a voz para texto numa aplicação — seja numa aplicação cliente ou num serviço backend — e destaca cenários comuns como transcrição em direto, legendas, processamento de correio de voz e fornecimento de entrada de texto a agentes de IA.

O módulo aborda então a síntese de voz (texto para fala), que permite às aplicações gerar áudio falado com som natural a partir de texto. Os alunos percebem como o Azure Speech utiliza vozes neurais para controlar a pronúncia, tom, velocidade e tom, e como o áudio sintetizado pode ser reproduzido imediatamente ou guardado para uso posterior. Esta secção enfatiza como a conversão de texto para fala permite que aplicações e agentes respondam audivelmente, melhorando a acessibilidade, a interação mãos-livres e a experiência do utilizador como um todo.

Por fim, o módulo integra estas capacidades com a conversão de fala para fala usando o Voice Live. Os aprendizes descobrem como o Voice Live combina voz para texto, raciocínio de IA e texto para fala num único serviço totalmente gerido para conversas em tempo real. Em vez de unir múltiplos componentes, os programadores podem usar o Voice Live para criar agentes de voz responsivos e naturais, capazes de ouvir, pensar e falar — facilitando a criação de experiências conversacionais prontas para produção com o Azure Speech e o Microsoft Foundry.

Utilize os links abaixo para saber mais.

Azure Speech na documentação do serviço
Saiba mais sobre os Kits de Desenvolvimento de Software (SDKs) do Azure Speech
Saiba mais sobre Azure Speech - Voice Live na documentação

Comentários

Esta página foi útil?