Resumo
Observação
Consulte a guia Texto e imagens para obter mais detalhes!
Este módulo introduz o reconhecimento de voz (voz para texto) como base para aplicações e agentes com voz habilitada. Os alunos exploram como o áudio falado é capturado a partir de um microfone ou ficheiro de áudio e convertido em texto escrito usando o Azure Speech. O módulo explica onde se encaixa a voz para texto numa aplicação — seja numa aplicação cliente ou num serviço backend — e destaca cenários comuns como transcrição em direto, legendas, processamento de correio de voz e fornecimento de entrada de texto a agentes de IA.
O módulo aborda então a síntese de voz (texto para fala), que permite às aplicações gerar áudio falado com som natural a partir de texto. Os alunos percebem como o Azure Speech utiliza vozes neurais para controlar a pronúncia, tom, velocidade e tom, e como o áudio sintetizado pode ser reproduzido imediatamente ou guardado para uso posterior. Esta secção enfatiza como a conversão de texto para fala permite que aplicações e agentes respondam audivelmente, melhorando a acessibilidade, a interação mãos-livres e a experiência do utilizador como um todo.
Por fim, o módulo integra estas capacidades com a conversão de fala para fala usando o Voice Live. Os aprendizes descobrem como o Voice Live combina voz para texto, raciocínio de IA e texto para fala num único serviço totalmente gerido para conversas em tempo real. Em vez de unir múltiplos componentes, os programadores podem usar o Voice Live para criar agentes de voz responsivos e naturais, capazes de ouvir, pensar e falar — facilitando a criação de experiências conversacionais prontas para produção com o Azure Speech e o Microsoft Foundry.
Utilize os links abaixo para saber mais.
- Azure Speech na documentação do serviço
- Saiba mais sobre os Kits de Desenvolvimento de Software (SDKs) do Azure Speech
- Saiba mais sobre Azure Speech - Voice Live na documentação