Condividi tramite


Panoramica di Speech Synthesis Markup Language (SSML)

Speech Synthesis Markup Language (SSML) è un linguaggio di markup basato su XML che è possibile usare per ottimizzare il testo agli attributi di output vocale, ad esempio intonazione, pronuncia, velocità del parlato, volume e altro ancora. Offre maggiore controllo e flessibilità rispetto all'input di testo normale.

Suggerimento

È possibile ascoltare voci in stili e campi diversi leggendo testo di esempio usando la Raccolta voci.

Scenari di casi d'uso

SSML è progettato per offrire flessibilità nella modalità di audio dell'output vocale e offre proprietà diverse per personalizzare tale output. È possibile usare SSML per:

  • Definire la struttura del testo di input che determina la struttura, il contenuto e altre caratteristiche dell'output vocale. Ad esempio, è possibile usare SSML per definire un paragrafo, una frase, un'interruzione o una pausa o un silenzio. È possibile eseguire il wrapping del testo con tag evento, ad esempio un segnalibro o visema, che l'applicazione può elaborare in un secondo momento. Un visema è la descrizione visiva di un fonema, i singoli suoni vocali, nella lingua parlata.
  • Scegliere la voce, la lingua, il nome, lo stile e il ruolo. È possibile usare più voci in un singolo documento SSML. È anche possibile regolare l'enfasi, la velocità di pronuncia, il tono e il volume. SSML può anche inserire audio pre-registrato, ad esempio un effetto audio o una nota musicale.
  • Controllare la pronuncia dell'audio di output. Ad esempio, è possibile usare SSML con fonemi e lessico personalizzati per migliorare la pronuncia. SSML può essere usato anche per definire il modo in cui viene pronunciata una parola o un'espressione matematica.

Modalità di utilizzo di SSML

La funzionalità SSML è disponibile in vari strumenti che potrebbero adattarsi al caso d'uso.

Importante

Viene addebitato ogni carattere convertito in parlato, inclusa la punteggiatura. Anche se il documento SSML stesso non è fatturabile, il servizio conta gli elementi facoltativi usati per regolare il modo in cui il testo viene convertito in parlato, ad esempio fonemi e tonalità, come caratteri fatturabili. Per altre informazioni, vedere la nota sui prezzi.

È possibile usare SSML nei modi seguenti:

Passaggi successivi