Riproduzione di audio in chiamata

2025-06-05

L'azione di riproduzione fornita tramite Servizi di comunicazione di Azure Call Automation SDK consente di riprodurre richieste audio ai partecipanti nella chiamata. È possibile accedere a questa azione tramite l'implementazione lato server dell'applicazione. Puoi riprodurre audio per chiamare i partecipanti tramite uno dei due metodi;

Fornire ai Servizi di comunicazione di Azure l'accesso ai file audio preregistrati in formato WAV, a cui Servizi di comunicazione di Azure può accedere con il supporto per l'autenticazione.
Testo normale che può essere convertito in output vocale tramite l'integrazione con i servizi di intelligenza artificiale di Azure.

È possibile usare l'integrazione appena annunciata tra Servizi di comunicazione di Azure e i servizi di intelligenza artificiale di Azure per riprodurre risposte personalizzate usando Sintesi vocale di Azure. È possibile usare voci neurali predefinite come le voci neurali predefinite oppure creare voci neurali personalizzate univoche per il prodotto o il marchio. Per altre informazioni su voci, lingue e impostazioni locali supportate, vedere Lingua e supporto vocale per il servizio Voce.

Nota

Servizi di comunicazione di Azure supporta attualmente due formati di file: file MP3 con ID3V2TAG e file WAV formattati come audio PCM (Pulse Code Modulation) a 16 bit, canale mono, registrato a 16 KHz. È possibile creare file audio personalizzati usando la sintesi vocale con lo strumento Di creazione di contenuti audio.

Sintesi vocale neurale predefinita

Microsoft usa l'apprendimento automatico avanzato per superare le limitazioni della sintesi vocale tradizionale nella gestione dello stress e dell'intonazione nella lingua parlata. La previsione prosodia e la sintesi vocale si verificano simultaneamente, ottenendo un output di suono più fluido e naturale. È possibile usare queste voci neurali per fare interazioni con i chatbot e gli assistenti vocali più naturali e coinvolgenti. Sono disponibili più di 100 voci predefinite tra cui scegliere. Altre informazioni sulle voci di Sintesi vocale di Azure.

Casi d'uso comuni

L'azione di gioco può essere usata in molti modi, alcuni esempi di come gli sviluppatori potrebbero voler usare l'azione di gioco nelle applicazioni sono elencati qui.

Annunci

L'applicazione potrebbe voler riprodurre un certo tipo di annuncio quando un partecipante partecipa o lascia la chiamata, per notificare ad altri utenti.

Clienti self-service

Negli scenari con sistemi IVR (Interactive Voice Response) e assistenti virtuali, è possibile usare l'applicazione o i bot per riprodurre richieste audio ai chiamanti, questa richiesta può essere sotto forma di un menu per guidare il chiamante attraverso l'interazione.

Tenere la musica

L'azione di riproduzione può essere usata anche per riprodurre musica per i chiamanti. Questa azione può essere configurata in un ciclo in modo che la musica continui a suonare fino a quando un agente non è disponibile per assistere il chiamante.

Riproduzione di messaggi di conformità

Nell'ambito dei requisiti di conformità in vari settori, i fornitori devono riprodurre messaggi legali o di conformità ai chiamanti, ad esempio "Questa chiamata viene registrata per scopi di qualità".

Architettura di esempio per la riproduzione di audio in chiamata con Sintesi vocale

Diagramma che mostra l'architettura di esempio per Play with AI.

Architettura di esempio per la riproduzione di audio in una chiamata

Screenshot del flusso per l'azione di riproduzione.

Limitazioni note

I comandi di sintesi vocale supportano un massimo di 4.000 caratteri. Se la richiesta supera questo limite, è consigliabile usare Speech Synthesis Markup Language (SSML) per le azioni di riproduzione basate su sintesi vocale.
Le voci HD di Azure AI Foundry non sono ufficialmente supportate. L'uso di queste voci comporta tempi di attesa.
Per gli scenari in cui si supera il limite di quota del servizio Voce, è possibile richiedere di aumentare questo limite seguendo la procedura descritta qui.

Passaggi successivi

Vedere la guida pratica per imparare a riprodurre richieste vocali personalizzate agli utenti.
Informazioni sull'utilizzo e sui log operativi pubblicati dall'automazione delle chiamate.
Informazioni su come raccogliere l'input del cliente.