Condividi tramite


Che cos'è l’avatar di sintesi vocale personalizzato? (anteprima)

Nota

L'avatar di sintesi vocale è attualmente disponibile in anteprima pubblica. Questa anteprima viene messa a disposizione senza contratto di servizio e non è consigliata per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero presentare funzionalità limitate. Per altre informazioni, vedere le Condizioni supplementari per l'uso delle anteprime di Microsoft Azure.

L'avatar di sintesi vocale personalizzato consente di creare un avatar sintetico parlante personalizzato e unico per la propria applicazione. Con l'avatar di sintesi vocale personalizzato, è possibile creare un avatar unico e dall’aspetto naturale per il proprio prodotto o marchio fornendo i dati di registrazione video degli attori selezionati. Se si crea anche una voce neurale personalizzata per lo stesso attore e la si usa come voce dell'avatar, l'avatar sarà ancora più realistico.

Importante

L'accesso all’avatar personalizzato di sintesi vocale è limitato in base all'idoneità e ai criteri di utilizzo. Richiedere l'accesso tramite il modulo di accettazione.

Come funziona?

La creazione di un avatar personalizzato per di sintesi vocale richiede almeno 10 minuti di registrazione video del talento avatar come dati di training, ed è necessario ottenere il consenso dal talento attore.

Importante

Attualmente, l’elaborazione dei dati e il training del modello per l'avatar personalizzato sono eseguiti manualmente.

Prima di iniziare, ecco alcune considerazioni:

Caso d'uso: si userà l’avatar per creare contenuti video come materiale di training e introduzione al prodotto o come venditore virtuale in una conversazione in tempo reale con i propri clienti? Esistono alcuni requisiti di registrazione per diversi casi d'uso.

L'aspetto dell'avatar: l'avatar personalizzato di sintesi vocale ha lo stesso aspetto del talento avatar nei dati di training; la personalizzazione dell'aspetto del modello avatar, ad esempio abbigliamento, acconciature e così via, non è supportata. Pertanto, se l'applicazione richiede più stili dello stesso avatar, è necessario preparare dati di training per ogni stile, in quanto ogni stile di un avatar verrà considerato come un singolo modello avatar.

La voce dell'avatar: l’avatar personalizzato di sintesi vocale può funzionare sia con voci neurali predefinite che con voci neurali personalizzate. La creazione di una voce neurale personalizzata per il talento avatar e l'uso con l'avatar aumenterà significativamente la naturalezza dell'esperienza avatar.

Ecco una panoramica dei passaggi da seguire per creare un avatar personalizzato di sintesi vocale:

  1. Ottenere il video di consenso: ottenere una registrazione video contenente la dichiarazione di consenso. La dichiarazione di consenso è una registrazione video del talento avatar che legge una dichiarazione nella quale acconsente all'utilizzo dei propri dati di immagine e voce per eseguire il training di un modello di avatar personalizzato per la sintesi vocale.

  2. Preparare i dati di training: assicurarsi che la registrazione video sia nel formato corretto. È consigliabile riprendere la registrazione video in uno studio professionale per ottenere un'immagine di sfondo pulita. La qualità dell'avatar risultante dipende largamente dal video registrato usato per il training. Fattori come la frequenza del parlato, la postura del corpo, l'espressione facciale, i movimenti delle mani, la regolarità nella posizione dell'attore e l'illuminazione della registrazione video sono essenziali per creare un avatar personalizzato di sintesi vocale coinvolgente.

  3. Eseguire il training del modello avatar: si inizierà a eseguire il training del modello personalizzato di sintesi vocale dopo che la dichiarazione di consenso del talento avatar è stata verificata. Nella fase di anteprima di questo servizio, questo passaggio verrà eseguito manualmente da Microsoft. Si riceverà una notifica dopo il completamento del training del modello.

  4. Distribuire e usare il modello avatar nelle app

Sequenza componenti

Il modello dell’avatar personalizzato di sintesi vocale contiene tre componenti: l’analizzatore del testo, il sintetizzatore da testo ad audio e il componente che esegue il rendering del video dell’avatar di sintesi vocale.

  • Per generare un file video dell’avatar o eseguire streaming con il modello avatar, il testo viene il prima passato nell’analizzatore del testo, che fornisce l'output sotto forma di sequenza di fonemi.
  • Il sintetizzatore audio sintetizza l’audio vocale per il testo di input; questi due elementi sono forniti da modelli di sintesi vocale o voci neurali personalizzate.
  • Infine, il modello neurale dell’avatar di sintesi vocale prevede l’immagine con sincronizzazione labiale con l’audio parlato, in modo da generare il video sintetico.

Screenshot of displaying an overview of the custom text to speech avatar workflow.

I modelli neurali di avatar di sintesi vocale vengono sottoposti a training usando reti neurali profonde basate sui campioni di registrazione di video umani in lingue diverse. Tutte le lingue delle voci predefinite e delle voci neurali personalizzate sono supportate.

Voce personalizzata e avatar di sintesi vocale personalizzato

L'avatar personalizzato di sintesi vocale può funzionare con una voce neurale predefinita o una voce neurale personalizzata come voce dell'avatar. Per ulteriori informazioni, consultare Voce e lingua avatar.

La voce neurale personalizzata e l'avatar personalizzato per la sintesi vocale sono due funzionalità diverse. È possibile usarle indipendentemente o insieme. Se si prevede di usare anche la voce neurale personalizzata con un avatar di sintesi vocale, è necessario distribuire o copiare il modello di voce neurale personalizzata in una delle aree supportate dell'avatar.

Passaggi successivi