Condividi tramite


Personalizzare i movimenti dell'avatar vocale con SSML (anteprima)

Nota

L'avatar di sintesi vocale è attualmente disponibile in anteprima pubblica. Questa anteprima viene messa a disposizione senza contratto di servizio e non è consigliata per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero presentare funzionalità limitate. Per altre informazioni, vedere le Condizioni supplementari per l'uso delle anteprime di Microsoft Azure.

Il Linguaggio markup di sintesi vocale (SSML) con testo di input determina la struttura, il contenuto e altre caratteristiche dell'output vocale. La maggior parte dei tag SSML può funzionare anche con l’avatar di sintesi vocale. Inoltre, la modalità batch dell’avatar di sintesi vocale offre la funzionalità di inserimento di movimenti dell’avatar tramite l'elemento segnalibro SSML con il formato <bookmark mark='gesture.*'/>.

Un movimento inizia in corrispondenza del punto di inserimento nel tempo. Se il movimento richiede più tempo rispetto all'audio, verrà tagliato al termine dell’audio.

Esempio di segnalibro

Il seguente esempio illustra come inserire un movimento nella sintesi batch dell'avatar di sintesi vocale con SSML.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
Hello <bookmark mark='gesture.wave-left-1'/>, my name is Ava, nice to meet you!
</voice>
</speak>

In questo esempio, l'avatar inizierà a salutare con la mano a sinistra dopo la parola "Hello".

Screenshot of displaying the prebuilt avatar waving their hand at the left.

Caratteri, stili e movimenti predefiniti supportati

L'elenco completo dei movimenti supportati dell'avatar predefinito fornito qui è disponibile anche nel portale dell’avatar di sintesi vocale.

Caratteri Stili Gesti
Lisa casual-sitting numeric1-left-1
numeric2-left-1
numeric3-left-1
thumbsup-left-1
show-front-1
show-front-2
show-front-3
show-front-4
show-front-5
think-twice-1
show-front-6
show-front-7
show-front-8
show-front-9
Lisa graceful-sitting wave-left-1
wave-left-2
thumbsup-left
show-left-1
show-left-2
show-left-3
show-left-4
show-left-5
show-right-1
show-right-2
show-right-3
show-right-4
show-right-5
Lisa graceful-standing
Lisa seduta tecnica wave-left-1
wave-left-2
show-left-1
show-left-2
point-left-1
point-left-2
point-left-3
point-left-4
point-left-5
point-left-6
show-right-1
show-right-2
show-right-3
point-right-1
point-right-2
point-right-3
point-right-4
point-right-5
point-right-6
Lisa technical-standing

Solo lo stile casual-sitting è supportato tramite l'API di sintesi vocale in tempo reale. I movimenti sono supportati solo con l'API di sintesi batch e non tramite l'API in tempo reale.

Passaggi successivi