Panoramica dell'avatar di sintesi vocale

2025-06-02

L'avatar di sintesi vocale converte il testo in un video digitale di un umano fotorealistico (un avatar standard o un avatar personalizzato per la sintesi vocale) che parla con una voce naturale. Il video dell'avatar di sintesi vocale può essere sintetizzato in modo asincrono o in tempo reale. Gli sviluppatori possono creare applicazioni integrate con avatar di sintesi vocale tramite un'API, oppure usare uno strumento di creazione di contenuto in Speech Studio per creare contenuto video senza bisogno di scrivere codice.

Con i modelli avanzati di rete neurale dell'avatar di sintesi vocale, la funzionalità consente agli utenti di creare video avatar con parlato sintetico realistico e di alta qualità per varie applicazioni, rispettando al tempo stesso le procedure per l’uso responsabile dell’IA.

Suggerimento

Per eseguire la sintesi vocale con un approccio che non preveda l’uso di codice, provare lo Strumento avatar di sintesi vocale in Speech Studio.

Funzionalità dell’avatar

Le funzionalità dell’avatar di sintesi vocale includono:

Converte il testo in un video digitale di un essere umano fotorealistico capace di parlare con voci dal suono naturale basate sulla sintesi vocale di Azure per intelligenza artificiale.
Fornisce una raccolta di avatar standard.
La sintesi vocale di Azure AI genera la voce dell'avatar. Per ulteriori informazioni, consultare Voce e lingua avatar.
Effettua la sintesi vocale del testo in un video avatar in modo asincrono tramite l'API di sintesi batch o in tempo reale.
Fornisce uno strumento per la creazione di contenuto in Speech Studio volto a creare contenuto video senza bisogno di usare codice.
Abilita le conversazioni con l'avatar in tempo reale usando lo strumento della live chat con l'avatar in Speech Studio.

Grazie ai modelli avanzati di rete neurale dell'avatar di sintesi vocale, la funzionalità consente di creare video avatar con parlato sintetico realistico e di alta qualità per varie applicazioni, rispettando al tempo stesso le procedure per l’uso responsabile delI’IA.

Voce e lingua avatar

È possibile scegliere tra una gamma di voci standard per l'avatar. Il supporto linguistico per l'avatar di sintesi vocale è lo stesso del supporto linguistico per la sintesi vocale. Per informazioni dettagliate, consultare Lingue e voci supportate per il servizio cognitivo di Azure per la voce. È possibile accedere agli avatar di sintesi vocale standard tramite il portale di Speech Studio o tramite l'API.

La voce nel video sintetico può essere una voce standard di Azure AI Speech o la voce personalizzata del doppiatore selezionata da te.

Output di video avatar

Sia per la sintesi batch che per la sintesi in tempo reale, la risoluzione è di 1920 x 1080 e i fotogrammi al secondo (FPS) sono 25. Il codec di sintesi batch può essere h264, hevc o av1 se il formato è mp4 e può impostare codec come vp9 o av1 se il formato è webm; solo vp9 può contenere un canale alfa. Il codec di sintesi in tempo reale è h264. La velocità in bit del video può essere configurata nella richiesta sia per la sintesi batch che per la sintesi in tempo reale; il valore predefinito è 2000000; configurazioni più dettagliate sono disponibili nel codice campione.

	Sintesi batch	Sintesi in tempo reale
Risoluzione	1920 x 1080	1920 x 1080
FPS	25	25
Codec	h264/hevc/vp9/av1	h264

Avatar personalizzato per la sintesi vocale

È possibile creare avatar personalizzati per la sintesi vocale unici per il proprio prodotto o marchio. Per iniziare, bastano 10 minuti di registrazioni video. Se stai anche ottimizzando una voce professionale per l'attore, l'avatar può essere altamente realistico.

La sincronizzazione vocale per avatar viene allenata insieme all'avatar personalizzato utilizzando l'audio del video di allenamento. La voce è associata esclusivamente all'avatar personalizzato e non può essere usata in modo indipendente.

L'ottimizzazione della voce professionale e il testo personalizzato per l'avatar vocale sono funzionalità separate. È possibile usarle indipendentemente o insieme. Se si prevede di usare anche l'ottimizzazione vocale professionale con un avatar di sintesi vocale, è necessario distribuire o copiare il modello voce professionale ottimizzato in una delle aree supportate dall'avatar.

Per ulteriori informazioni, consultare Che cos'è l’avatar personalizzato per la sintesi vocale.

Codice di esempio

Il codice di esempio per l'avatar di sintesi vocale è disponibile in GitHub. Questi esempi illustrano gli scenari più diffusi:

Sintesi batch (REST)
Sintesi in tempo reale (SDK)
Live chat basata su Azure OpenAI (SDK)
Per creare una live chat APP con On Your Data di Azure OpenAI, è possibile fare riferimento a questo codice di esempio (cercare "On Your Data")

Prezzi

Durante una sessione in tempo reale dell'avatar o la creazione di contenuti in batch, il servizio di sintesi vocale, riconoscimento vocale, Azure OpenAI o altri servizi Azure vengono addebitati separatamente.
La sincronizzazione della voce per avatar (tramite addestramento avatar personalizzato) è tariffata come una voce personale in termini di creazione e sintesi della voce. Lo spazio di archiviazione della voce è libero.
Per informazioni sul funzionamento della fatturazione per la funzionalità avatar di sintesi vocale, vedere la nota sui prezzi dell'avatar di sintesi vocale.
Per informazioni dettagliate sui prezzi, vedere Prezzi del servizio Voce. Si noti che i prezzi avatar saranno visibili solo per le aree di servizio in cui è disponibile la funzionalità, tra cui Asia sud-orientale, Europa settentrionale, Europa occidentale, Svezia centrale, Stati Uniti centro-meridionali, Stati Uniti orientali 2 e Stati Uniti occidentali 2.

Posizioni disponibili

La funzionalità avatar di sintesi vocale è disponibile solo nelle aree di servizio seguenti: Asia sud-orientale, Europa settentrionale, Europa occidentale, Svezia centrale, Stati Uniti centro-meridionali, Stati Uniti orientali 2 e Stati Uniti occidentali 2.

Intelligenza artificiale responsabile

Abbiamo a cuore gli interessi delle persone che usano l’intelligenza artificiale quanto abbiamo a cuore la tecnologia. Per ulteriori informazioni, consultare le note sulla trasparenza e l’informativa relativa al talento vocale e di avatar per l’uso responsabile dell’IA.