Introduzione
Le funzionalità vocali di intelligenza artificiale consentono di gestire i sistemi con istruzioni vocali, ottenere risposte dai computer per domande vocali, generare sottotitoli dall'audio e molto altro ancora. Le interfacce basate su voce offrono un modo più naturale per interagire con il software di intelligenza artificiale. La possibilità di interagire attraverso la lingua parlata può aumentare l'accessibilità e l'inclusione di applicazioni e agenti.
Per abilitare questo tipo di interazione, il sistema di intelligenza artificiale deve supportare almeno due funzionalità:
- Riconoscimento vocale: possibilità di rilevare e interpretare l'input parlato
- Sintesi vocale: la possibilità di generare l'output parlato
Ecco alcuni esempi di queste funzionalità:
Dettatura medica e presa di appunti nel settore sanitario: i medici possono dire ad alta voce le note dei pazienti durante o dopo gli appuntamenti. Un'app di riconoscimento vocale di intelligenza artificiale converte l'audio in testo medico accurato, riducendo la digitazione manuale e risparmiando tempo.
Trascrizione delle chiamate nel supporto tecnico: i centri contatti trascrivono le chiamate dei clienti in tempo reale, semplificando la revisione delle conversazioni, il rilevamento dei problemi e l'analisi del sentiment.
Sottotitoli automatizzati in media e intrattenimento: le piattaforme video generano sottotitoli in diretta o registrati per spettacoli e flussi, migliorando l'accessibilità e supportando i destinatari multilingue.
Feedback sull'apprendimento della lingua e della pronuncia nell'istruzione: le app di apprendimento usano le funzionalità vocali di intelligenza artificiale per ascoltare gli studenti a parlare e fornire feedback sulla pronuncia, aiutando gli studenti a praticare e migliorare le competenze linguistiche.
Assistenti vocali nel commercio al dettaglio e nell'e-commerce: gli assistenti per lo shopping virtuale usano il riconoscimento vocale per comprendere le richieste dei clienti vocali e la sintesi vocale per rispondere con informazioni sul prodotto o lo stato dell'ordine.
Azure Speech in Microsoft Foundry Tools offre funzionalità di conversione del parlato in testo, testo in parlato e traduzione vocale tramite riconoscimento e sintesi vocale. È possibile usare modelli predefiniti e personalizzati del servizio Voce per un'ampia gamma di attività, dalla trascrizione dell'audio in testo con accuratezza elevata, all'identificazione degli interlocutori delle conversazioni, alla creazione di voci personalizzate e altro ancora. Scopri come incorporare il riconoscimento vocale in un'applicazione utilizzando Azure Speech.
Annotazioni
Sappiamo che persone diverse amano imparare in modi diversi. È possibile scegliere di completare questo modulo in formato basato su video oppure leggere il contenuto come testo e immagini. Il testo contiene maggiori dettagli rispetto ai video, quindi in alcuni casi potresti voler farvi riferimento come materiale supplementare alla presentazione video.