L'avatar di sintesi vocale converte il testo in un video digitale di un umano fotorealistico (un avatar predefinito o un avatar di sintesi vocale personalizzato) che parla con una voce audio naturale. Il video dell'avatar di sintesi vocale può essere sintetizzato in modo asincrono o in tempo reale. Gli sviluppatori possono creare applicazioni integrate con avatar di sintesi vocale tramite un'API, oppure usare uno strumento di creazione di contenuto in Speech Studio per creare contenuto video senza bisogno di scrivere codice.
Con i modelli avanzati di rete neurale dell'avatar di sintesi vocale, la funzionalità consente agli utenti di creare video avatar con parlato sintetico realistico e di alta qualità per varie applicazioni, rispettando al tempo stesso le procedure per l’uso responsabile dell’IA.
Le funzionalità dell’avatar di sintesi vocale includono:
Converte il testo in un video digitale di un essere umano fotorealistico capace di parlare con voci dal suono naturale basate sulla sintesi vocale di Azure per intelligenza artificiale.
Fornisce una raccolta di avatar predefiniti.
La voce dell'avatar viene generata dalla sintesi vocale di Azure per intelligenza artificiale. Per ulteriori informazioni, consultare Voce e lingua avatar.
Grazie ai modelli avanzati di rete neurale dell'avatar di sintesi vocale, la funzionalità consente di creare video avatar con parlato sintetico realistico e di alta qualità per varie applicazioni, rispettando al tempo stesso le procedure per l’uso responsabile delI’IA.
Voce e lingua avatar
È possibile scegliere tra una gamma di voci predefinite per l'avatar. Il supporto linguistico per l'avatar di sintesi vocale è lo stesso del supporto linguistico per la sintesi vocale. Per informazioni dettagliate, consultare Lingue e voci supportate per il servizio cognitivo di Azure per la voce. È possibile accedere agli avatar di sintesi vocale tramite il portale di Speech Studio o tramite l'API.
La voce nel video sintetico potrebbe essere una voce neurale predefinita disponibile in Voce di Azure AI o la voce neurale personalizzata del talento vocale selezionato dall'utente.
Output di video avatar
Sia per la sintesi batch che per la sintesi in tempo reale, la risoluzione è di 1920 x 1080 e i fotogrammi al secondo (FPS) sono 25. Il codec di sintesi batch può essere h264, hevc o av1 se il formato è mp4 e può impostare codec come vp9 o av1 se il formato è webm; solo vp9 può contenere un canale alfa. Il codec di sintesi in tempo reale è h264. La velocità in bit del video può essere configurata nella richiesta sia per la sintesi batch che per la sintesi in tempo reale; il valore predefinito è 2000000; configurazioni più dettagliate sono disponibili nel codice campione.
Sintesi batch
Sintesi in tempo reale
Risoluzione
1920 x 1080
1920 x 1080
FPS
25
25
Codec
h264/hevc/vp9/av1
h264
Avatar personalizzato per la sintesi vocale
È possibile creare avatar personalizzati per la sintesi vocale unici per il proprio prodotto o marchio. Per iniziare, bastano 10 minuti di registrazioni video. Se si sta anche creando una voce neurale personalizzata per l'attore, l'avatar può essere altamente realistico. Per ulteriori informazioni, consultare Che cos'è l’avatar personalizzato per la sintesi vocale.
Durante una sessione in tempo reale dell'avatar o la creazione di contenuti in batch, il servizio di sintesi vocale, riconoscimento vocale, Azure OpenAI o altri servizi Azure vengono addebitati separatamente.
Per informazioni dettagliate sui prezzi, vedere Prezzi del servizio Voce. Si noti che i prezzi avatar saranno visibili solo per le aree di servizio in cui è disponibile la funzionalità, tra cui Asia sud-orientale, Europa settentrionale, Europa occidentale, Svezia centrale, Stati Uniti centro-meridionali, Stati Uniti orientali 2 e Stati Uniti occidentali 2.
Posizioni disponibili
La funzionalità avatar di sintesi vocale è disponibile solo nelle aree di servizio seguenti: Asia sud-orientale, Europa settentrionale, Europa occidentale, Svezia centrale, Stati Uniti centro-meridionali, Stati Uniti orientali 2 e Stati Uniti occidentali 2.