Resumo

Concluído

Observação

Consulte a guia Texto e imagens para obter mais detalhes!

Este módulo introduz o reconhecimento de voz (voz para texto) como base para aplicações e agentes com voz habilitada. Os alunos exploram como o áudio falado é capturado a partir de um microfone ou ficheiro de áudio e convertido em texto escrito usando o Azure Speech. O módulo explica onde se encaixa a voz para texto numa aplicação — seja numa aplicação cliente ou num serviço backend — e destaca cenários comuns como transcrição em direto, legendas, processamento de correio de voz e fornecimento de entrada de texto a agentes de IA.

O módulo aborda então a síntese de voz (texto para fala), que permite às aplicações gerar áudio falado com som natural a partir de texto. Os alunos percebem como o Azure Speech utiliza vozes neurais para controlar a pronúncia, tom, velocidade e tom, e como o áudio sintetizado pode ser reproduzido imediatamente ou guardado para uso posterior. Esta secção enfatiza como a conversão de texto para fala permite que aplicações e agentes respondam audivelmente, melhorando a acessibilidade, a interação mãos-livres e a experiência do utilizador como um todo.

Por fim, o módulo integra estas capacidades com a conversão de fala para fala usando o Voice Live. Os aprendizes descobrem como o Voice Live combina voz para texto, raciocínio de IA e texto para fala num único serviço totalmente gerido para conversas em tempo real. Em vez de unir múltiplos componentes, os programadores podem usar o Voice Live para criar agentes de voz responsivos e naturais, capazes de ouvir, pensar e falar — facilitando a criação de experiências conversacionais prontas para produção com o Azure Speech e o Microsoft Foundry.

Utilize os links abaixo para saber mais.