Panoramica di Speech Synthesis Markup Language (SSML)

Articolo
04/24/2024

Speech Synthesis Markup Language (SSML) è un linguaggio di markup basato su XML che è possibile usare per ottimizzare il testo agli attributi di output vocale, ad esempio intonazione, pronuncia, velocità del parlato, volume e altro ancora. Offre maggiore controllo e flessibilità rispetto all'input di testo normale.

Suggerimento

È possibile ascoltare voci in stili e campi diversi leggendo testo di esempio usando la Raccolta voci.

Scenari di casi d'uso

SSML è progettato per offrire flessibilità nella modalità di audio dell'output vocale e offre proprietà diverse per personalizzare tale output. È possibile usare SSML per:

Definire la struttura del testo di input che determina la struttura, il contenuto e altre caratteristiche dell'output vocale. Ad esempio, è possibile usare SSML per definire un paragrafo, una frase, un'interruzione o una pausa o un silenzio. È possibile eseguire il wrapping del testo con tag evento, ad esempio un segnalibro o visema, che l'applicazione può elaborare in un secondo momento. Un visema è la descrizione visiva di un fonema, i singoli suoni vocali, nella lingua parlata.
Scegliere la voce, la lingua, il nome, lo stile e il ruolo. È possibile usare più voci in un singolo documento SSML. È anche possibile regolare l'enfasi, la velocità di pronuncia, il tono e il volume. SSML può anche inserire audio pre-registrato, ad esempio un effetto audio o una nota musicale.
Controllare la pronuncia dell'audio di output. Ad esempio, è possibile usare SSML con fonemi e lessico personalizzati per migliorare la pronuncia. SSML può essere usato anche per definire il modo in cui viene pronunciata una parola o un'espressione matematica.

Modalità di utilizzo di SSML

La funzionalità SSML è disponibile in vari strumenti che potrebbero adattarsi al caso d'uso.

Importante

Viene addebitato ogni carattere convertito in parlato, inclusa la punteggiatura. Anche se il documento SSML stesso non è fatturabile, il servizio conta gli elementi facoltativi usati per regolare il modo in cui il testo viene convertito in parlato, ad esempio fonemi e tonalità, come caratteri fatturabili. Per altre informazioni, vedere la nota sui prezzi.

È possibile usare SSML nei modi seguenti:

Lo strumento di creazione del contenuto audio consente di creare testo normale e SSML in Speech Studio. È possibile ascoltare l'audio di output e regolare SSML per migliorare la sintesi vocale. Per altre informazioni, vedere Sintesi vocale con lo strumento Creazione contenuto audio.
L'API di sintesi batch accetta SSML tramite la proprietà inputs.
L'interfaccia della riga di comando di Voce accetta SSML tramite l'argomento della riga di comando spx synthesize --ssml SSML.
Speech SDK accetta SSML tramite il metodo SSML "speak" nelle diverse lingue supportate.

Panoramica di Speech Synthesis Markup Language (SSML)

Scenari di casi d'uso

Modalità di utilizzo di SSML

Passaggi successivi

Risorse aggiuntive