API Voice Live per agenti vocali in tempo reale (anteprima)

2025-06-27

Annotazioni

Questa funzionalità è attualmente disponibile in anteprima pubblica. Questa anteprima viene messa a disposizione senza contratto di servizio e non è consigliata per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero presentare funzionalità limitate. Per altre informazioni, vedere le Condizioni supplementari per l'uso delle anteprime di Microsoft Azure.

Che cos'è l'API Voice Live?

L'API Voice Live è una soluzione che consente interazioni vocali di bassa latenza e di alta qualità per gli agenti vocali. L'API è progettata per gli sviluppatori che cercano esperienze scalabili ed efficienti basate su voce, eliminando così la necessità di orchestrare manualmente più componenti. Integrando il riconoscimento vocale, l'intelligenza artificiale generativa e le funzionalità di sintesi vocale in un'unica interfaccia unificata, offre una soluzione end-to-end per la creazione di esperienze senza interruzioni.

Comprendere le esperienze di interazione vocale

La tecnologia di riconoscimento vocale sta rivoluzionando il modo in cui gli esseri umani interagiscono con i sistemi, offrendo soluzioni intuitive basate su voce. Le implementazioni tradizionali implicano la combinazione di moduli diversi, ad esempio riconoscimento vocale, riconoscimento delle finalità, gestione dei dialoghi, sintesi vocale e altro ancora. Tale concatenamento può portare a una maggiore complessità di progettazione e alla latenza percepita dall'utente finale.

Grazie ai miglioramenti apportati ai modelli di linguaggio di grandi dimensioni e all'intelligenza artificiale multilingue, l'API Voice Live consolida queste funzionalità, semplificando i flussi di lavoro per gli sviluppatori. Questo approccio migliora le interazioni in tempo reale e garantisce comunicazioni naturali di alta qualità, rendendolo adatto per i settori che richiedono soluzioni istantanee abilitate per la voce.

Scenari chiave per l'API Voice Live

L'API Live di Azure AI Voice è ideale per scenari in cui le interazioni basate su voce migliorano l'esperienza utente. Gli esempi includono:

Contact center: sviluppare bot vocali interattivi per il supporto tecnico, l'esplorazione del catalogo prodotti e soluzioni self-service.
Assistenti automobilistici: abilita assistenti vocali senza mani, in auto per l'esecuzione dei comandi, la navigazione e le richieste generali.
Istruzione: creare compagni di apprendimento abilitati per la voce e tutor virtuali per la formazione interattiva e l'istruzione.
Servizi pubblici: creare agenti vocali per assistere i cittadini con query amministrative e informazioni sui servizi pubblici.
Risorse umane: migliorare i processi HR con strumenti abilitati per la voce per il supporto dei dipendenti, lo sviluppo di carriera e la formazione.

Funzionalità dell'API Voice Live

L'API Voice Live include un set completo di funzionalità per supportare casi d'uso diversi e garantire interazioni vocali superiori:

Copertura generale delle impostazioni locali: supporta oltre 15 impostazioni locali per la sintesi vocale e offre oltre 600 voci standard in più di 140 impostazioni locali per la sintesi vocale, garantendo l'accessibilità globale.
Input e output personalizzabili: usa l'elenco di frasi per una personalizzazione leggera just-in-time sull'input audio. Utilizza una voce personalizzata per creare voci distintive allineate al marchio per l'output audio.
Opzioni flessibili del modello di intelligenza artificiale generativa: scegliere tra più modelli, tra cui GPT-4o, GPT-4o-mini e Phi, personalizzati in base ai requisiti di conversazione.
Funzionalità di conversazione avanzate:
- Eliminazione del rumore: riduce il rumore ambientale per una comunicazione più chiara.
- Cancellazione dell'eco: impedisce all'agente di captare le proprie risposte.
- Rilevamento affidabile delle interruzioni: garantisce un riconoscimento accurato delle interruzioni durante le conversazioni.
- Rilevamento avanzato di fine turno: consente pause naturali senza concludere prematuramente le interazioni.
Integrazione avatar: fornisce avatar standard o personalizzabili sincronizzati con l'output audio, offrendo un'identità visiva per gli agenti vocali.
Chiamata di funzioni: abilita azioni esterne, l'uso di strumenti e risposte concrete usando il modello VoiceRAG.

Come funziona

L'API Voice Live è completamente gestita, eliminando la necessità per i clienti di gestire l'orchestrazione back-end o l'integrazione dei componenti. Gli sviluppatori forniscono input audio e ricevono output audio, visuali degli avatar e trigger di azione, il tutto con latenza minima. Non è necessario distribuire o gestire modelli di intelligenza artificiale generativi, perché l'API gestisce tutta l'infrastruttura sottostante.

Progettazione e compatibilità delle API

L'API Live di Azure AI Voice è progettata per la compatibilità con l'API Azure OpenAI Realtime. Gli eventi in tempo reale supportati sono principalmente in parità con gli eventi dell'API Realtime di Azure OpenAI, con alcune eccezioni. Per altri dettagli, vedere la guida all'API Voice Live .

Le funzionalità esclusive dell'API Voice Live sono progettate per essere facoltative e aggiuntive. È possibile aggiungere funzionalità di Riconoscimento vocale di Intelligenza artificiale di Azure, ad esempio l'eliminazione del rumore, l'annullamento echo e il rilevamento avanzato end-of-turn alle applicazioni esistenti senza dover modificare l'architettura esistente.

L'API è supportata tramite eventi WebSocket, consentendo un'integrazione semplice da server a server. Il servizio back-end o di livello intermedio si connette all'API Voice Live tramite WebSocket. È possibile usare i messaggi WebSocket direttamente per interagire con l'API.

Modelli e aree supportati

Per potenziare l'intelligenza dell'agente vocale, hai flessibilità e scelta nel modello di intelligenza artificiale generativa tra GPT-4o, GPT-4o-mini e Phi. I diversi modelli di intelligenza artificiale generativi offrono diversi tipi di funzionalità, livelli di intelligenza, velocità/latenza dell'inferenza e costi. A seconda degli aspetti più importanti per l'azienda e il caso d'uso, è possibile scegliere il modello più adatto alle proprie esigenze.

Tutti i modelli supportati in modo nativo, GPT-4o, GPT-4o-mini e Phi, sono completamente gestiti, il che significa che non è necessario implementare modelli, preoccuparsi della pianificazione della capacità o effettuare il provisioning delle prestazioni. È possibile usare semplicemente il modello necessario e l'API Voice Live si occupa del resto.

L'API Voice Live supporta i modelli e le aree seguenti:

Modello	Descrizione	Regioni supportate
`gpt-4o-realtime-preview`	GPT-4o in tempo reale + opzione per usare le voci di sintesi vocale di Azure, inclusa la voce personalizzata per l'audio.	`eastus2` `swedencentral`
`gpt-4o-mini-realtime-preview`	GPT-4o mini realtime + opzione per usare le voci di sintesi vocale di Azure, inclusa la voce personalizzata per l'audio.	`eastus2` `swedencentral`
`gpt-4o`	GPT-4o + input audio tramite riconoscimento vocale di Azure e output audio tramite sintesi vocale di Azure, inclusa una voce personalizzata.	`eastus2` `swedencentral`
`gpt-4o-mini`	GPT-4o mini + input audio tramite il riconoscimento vocale di Azure e l'output audio tramite testo di Azure per le voci vocali, inclusa la voce personalizzata.	`eastus2` `swedencentral`
`phi4-mm-realtime`	Phi4-mm + output audio tramite testo di Azure per le voci vocali, inclusa la voce personalizzata.	`eastus2` `swedencentral`
`phi4-mini`	Phi4-mm + input audio tramite trascrizione automatica di Azure + output audio tramite sintesi vocale di Azure, inclusa la sintesi vocale personalizzata.	`eastus2` `swedencentral`

Confronto tra l'API Voice Live e altre soluzioni vocali

L'API Voice Live è un'alternativa all'orchestrazione di più componenti, ad esempio il riconoscimento vocale, l'intelligenza artificiale generativa e la sintesi vocale. Questa orchestrazione può essere complessa e dispendiosa in termini di tempo, richiedendo notevoli sforzi di progettazione per l'integrazione e la manutenzione. L'API Voice Live semplifica questo processo fornendo una singola interfaccia per tutti questi componenti, consentendo agli sviluppatori di concentrarsi sulla compilazione delle applicazioni anziché sulla gestione dell'infrastruttura sottostante.

Per soddisfare i requisiti, è possibile creare una soluzione personalizzata o usare l'API Voice Live. La tabella seguente confronta i due approcci:

Requisiti dell'app	Procedere autonomamente	Voice Live API
Copertura geografica globale con elevata accuratezza (input audio)	✅	✅
Mantenere la personalità del marchio e l'identità (output audio)	✅	✅
Miglioramenti delle conversazioni	❌	✅
Scelta di modelli di intelligenza artificiale generativi	✅	✅
Output visivo con avatar per sintesi vocale	✅	✅
Basso costo di progettazione	❌	✅
Bassa latenza percepita dall'utente finale	❌	✅

Altre informazioni su Come usare l'API Voice Live
Prova la Guida Introduttiva all'API Voice Live
Vedere le informazioni di riferimento sull'API Realtime di Azure OpenAI