Riassunto
Annotazioni
Per altri dettagli, vedi la scheda Testo e immagini .
In questo modulo sono state esaminate le tecnologie vocali fondamentali che consentono interazioni vocali naturali nelle applicazioni di intelligenza artificiale. Si è appreso come il riconoscimento vocale converte le parole pronunciate in testo e come la sintesi vocale genera audio simile a quello umano dal contenuto scritto.
In questo modulo sono stati individuati:
Scenari e applicazioni di riconoscimento vocale: le tecnologie di riconoscimento vocale trasformano le esperienze utente nel servizio clienti, nell'accessibilità, nell'intelligenza artificiale conversazionale, nella documentazione sanitaria e nell'e-learning. È stato illustrato come combinare il riconoscimento vocale e la sintesi crea conversazioni fluide bidirezionali che si sentono naturali e riducono l'attrito dell'utente.
Nozioni fondamentali sul riconoscimento vocale: è stata esaminata la pipeline a sei fasi che converte l'audio in testo, dall'acquisizione delle onde audio alla produzione di trascrizioni formattate. Si è appreso come le funzionalità MFCC estraggono modelli significativi dall'audio, come i modelli acustici basati su trasformatore stimano i fonemi e come i modelli linguistici risolvono l'ambiguità applicando vocabolario e conoscenze grammaticali.
Nozioni fondamentali sulla sintesi vocale: si è scoperto il processo a quattro fasi che trasforma il testo in sintesi vocale naturale: normalizzazione del testo, analisi linguistica, generazione prosodia e sintesi audio. È stato illustrato in che modo la conversione da grafo a fonema gestisce le variazioni ortografiche, il modo in cui i modelli di trasformatore stimano il ritmo naturale e l'enfasi e il modo in cui i vocoder neurali generano forme d'onda audio ad alta fedeltà.
Suggerimento
Per altre informazioni, vedere Introduzione al riconoscimento vocale in Azure.