Che cos'è l’avatar di sintesi vocale personalizzato?

2025-06-02

L'avatar di sintesi vocale personalizzato consente di creare un avatar sintetico parlante personalizzato e unico per la propria applicazione. Con l'avatar di sintesi vocale personalizzato, è possibile creare un avatar unico e dall’aspetto naturale per il proprio prodotto o marchio fornendo i dati di registrazione video degli attori selezionati. L'avatar è ancora più realistico se si utilizza anche una voce professionale o sincronizzazione vocale dell'avatar per lo stesso attore.

Importante

L'accesso all’avatar personalizzato di sintesi vocale è limitato in base all'idoneità e ai criteri di utilizzo. Richiedere l'accesso tramite il modulo di accettazione.

Come funziona?

La creazione di un avatar personalizzato per di sintesi vocale richiede almeno 10 minuti di registrazione video del talento avatar come dati di training, ed è necessario ottenere il consenso dal talento attore.

Il modello avatar personalizzato può supportare:

Generazione di video tramite l'API di sintesi batch.
Live chat tramite l'API di sintesi di streaming.

Prima di iniziare, ecco alcune considerazioni:

Caso d'uso: si userà l’avatar per creare contenuti video come materiale di training e introduzione al prodotto o come venditore virtuale in una conversazione in tempo reale con i propri clienti? Esistono alcuni requisiti di registrazione per diversi casi d'uso.

L'aspetto dell'avatar: il testo personalizzato per l'avatar del parlato ha lo stesso aspetto del talento avatar nei dati di training e non supportiamo la personalizzazione dell'aspetto del modello avatar, ad esempio vestiti, acconciature e così via. Pertanto, se l'applicazione richiede più stili dello stesso avatar, è necessario preparare i dati di training per ogni stile, poiché ogni stile di un avatar viene considerato come un singolo modello avatar.

La voce dell'avatar: L'avatar di sintesi vocale personalizzato può funzionare con la voce standard, la voce professionale e la sincronizzazione vocale per avatar.

Sincronizzazione vocale per avatar: una voce sintetica che assomiglia alla voce del talento avatar viene addestrata insieme all'avatar personalizzato che usa l'audio del video di training.
Voce professionale: ottimizzare una voce professionale con più dati di training, offrendo un'esperienza vocale premium per il tuo avatar, incluse conversazioni naturali, supporto multi-stile e multilingue.

Ecco una panoramica dei passaggi da seguire per creare un avatar personalizzato di sintesi vocale:

Ottenere il video di consenso. Ottenere una registrazione video del talento che legge una dichiarazione di consenso. Devono fornire il consenso all'utilizzo dei loro dati di immagine e voce per addestrare un modello avatar vocale personalizzato per il testo e creare una versione sintetica della loro voce.
Preparare i dati di training. Assicurarsi che la registrazione video sia nel formato corretto. È consigliabile riprendere la registrazione video in uno studio professionale per ottenere un'immagine di sfondo pulita. La qualità dell'avatar risultante dipende largamente dal video registrato usato per il training. Fattori come la frequenza del parlato, la postura del corpo, l'espressione facciale, i movimenti delle mani, la regolarità nella posizione dell'attore e l'illuminazione della registrazione video sono essenziali per creare un avatar personalizzato di sintesi vocale coinvolgente. Per altre informazioni, vedere come preparare i dati di training.
Eseguire il training del modello avatar. Dopo aver pronto i dati, caricare i dati nel portale avatar personalizzato e iniziare a eseguire il training del modello. La verifica del consenso viene eseguita durante il training. Prima di poter creare un progetto, assicurarsi di avere accesso alla funzionalità personalizzata per l'avatar vocale.
Distribuire e usare il modello avatar nelle applicazioni.

Sequenza componenti

Il modello dell’avatar personalizzato di sintesi vocale contiene tre componenti: l’analizzatore del testo, il sintetizzatore da testo ad audio e il componente che esegue il rendering del video dell’avatar di sintesi vocale.

Per generare un file video dell’avatar o eseguire streaming con il modello avatar, il testo viene il prima passato nell’analizzatore del testo, che fornisce l'output sotto forma di sequenza di fonemi.
Il sintetizzatore audio sintetizza l'audio del parlato per il testo di input, e queste due parti sono fornite da modelli vocali standard o personalizzati.
Infine, il modello avatar di sintesi vocale prevede l'immagine della sincronizzazione delle labbra con l'audio, in modo che venga generato il video sintetico.

I modelli avatar di conversione testo in parlato sono addestrati usando reti neurali profonde basate sui campioni di video registrati di esseri umani in diverse lingue. È possibile supportare tutte le lingue di voci standard e voci personalizzate.

Posizioni disponibili

Il training avatar personalizzato è disponibile solo nelle aree di servizio seguenti: Asia sud-orientale, Europa occidentale e Stati Uniti occidentali 2. È possibile usare un modello avatar personalizzato nelle aree di servizio seguenti: Asia sud-orientale, Europa settentrionale, Europa occidentale, Svezia centrale, Stati Uniti centro-meridionali, Stati Uniti orientali 2 e Stati Uniti occidentali 2.

Voce personalizzata e avatar di sintesi vocale personalizzato

La voce personalizzata e il testo personalizzato per l'avatar vocale sono funzionalità separate. È possibile usarle indipendentemente o insieme. Se stai anche creando una voce professionale per l'attore, l'avatar può essere altamente realistico.

L'avatar personalizzato per il riconoscimento vocale può funzionare con una voce standard o una voce personalizzata come voce dell'avatar. Per ulteriori informazioni, consultare Voce e lingua avatar.

Esistono due tipi di voce personalizzata per un avatar personalizzato:

Sincronizzazione vocale per avatar: quando si abilita la sincronizzazione vocale per l'opzione avatar durante il training di avatar personalizzato, un modello vocale sintetico che usa la somiglianza del talento avatar viene addestrato contemporaneamente con l'avatar. Questa voce è associata esclusivamente all'avatar personalizzato e non può essere usata in modo indipendente. La sincronizzazione vocale per avatar è attualmente supportata nelle aree Asia sud-orientale, Europa occidentale e Stati Uniti occidentali 2.
Voce professionale: è possibile ottimizzare una voce professionale. L'ottimizzazione della voce professionale e il testo personalizzato per l'avatar vocale sono funzionalità separate. È possibile usarle indipendentemente o insieme. Se si sceglie di usarli insieme, è necessario richiedere l'ottimizzazione della voce professionale e il testo personalizzato per l'avatar vocale separatamente e vengono addebitati separatamente per l'ottimizzazione vocale professionale e il testo personalizzato per l'avatar vocale. Per ulteriori informazioni, vedere la pagina dei prezzi. Inoltre, se si prevede di usare l'ottimizzazione vocale professionale con un avatar di sintesi vocale, è necessario distribuire o copiare il modello vocale personalizzato in una delle aree supportate dall'avatar.

Se si ottimizza una voce professionale e si vuole usarla insieme all'avatar personalizzato, prestare attenzione ai punti seguenti:

Assicurarsi che l'endpoint vocale personalizzato venga creato nella stessa risorsa di Azure AI Foundry dell'endpoint avatar personalizzato. Se necessario, fai riferimento a addestra il modello vocale professionale per copiare il modello vocale personalizzato nella stessa risorsa di Azure AI Foundry dell'endpoint avatar personalizzato.
È possibile visualizzare l'opzione voce personalizzata nell'elenco delle voci della pagina di generazione del contenuto avatar e delle impostazioni vocali della chat live.
Se si usa la sintesi batch per l'API avatar, aggiungere la "customVoices" proprietà per associare l'ID distribuzione del modello vocale personalizzato al nome della voce nella richiesta. Per altre informazioni, vedere le proprietà di sintesi vocale.
Se si usa la sintesi in tempo reale per l'API avatar, fare riferimento al codice di esempio in GitHub per impostare la voce personalizzata.

Condividi tramite

Che cos'è l’avatar di sintesi vocale personalizzato?

Come funziona?

Sequenza componenti

Posizioni disponibili

Voce personalizzata e avatar di sintesi vocale personalizzato

Contenuto correlato

Commenti e suggerimenti

Risorse aggiuntive