Panoramica di Speech Synthesis Markup Language (SSML)
Speech Synthesis Markup Language (SSML) è un linguaggio di markup basato su XML che è possibile usare per ottimizzare il testo agli attributi di output vocale, ad esempio intonazione, pronuncia, velocità del parlato, volume e altro ancora. Offre maggiore controllo e flessibilità rispetto all'input di testo normale.
Suggerimento
È possibile ascoltare voci in stili e campi diversi leggendo testo di esempio usando la Raccolta voci.
Scenari di casi d'uso
SSML è progettato per offrire flessibilità nella modalità di audio dell'output vocale e offre proprietà diverse per personalizzare tale output. È possibile usare SSML per:
- Definire la struttura del testo di input che determina la struttura, il contenuto e altre caratteristiche dell'output vocale. Ad esempio, è possibile usare SSML per definire un paragrafo, una frase, un'interruzione o una pausa o un silenzio. È possibile eseguire il wrapping del testo con tag evento, ad esempio un segnalibro o visema, che l'applicazione può elaborare in un secondo momento. Un visema è la descrizione visiva di un fonema, i singoli suoni vocali, nella lingua parlata.
- Scegliere la voce, la lingua, il nome, lo stile e il ruolo. È possibile usare più voci in un singolo documento SSML. È anche possibile regolare l'enfasi, la velocità di pronuncia, il tono e il volume. SSML può anche inserire audio pre-registrato, ad esempio un effetto audio o una nota musicale.
- Controllare la pronuncia dell'audio di output. Ad esempio, è possibile usare SSML con fonemi e lessico personalizzati per migliorare la pronuncia. SSML può essere usato anche per definire il modo in cui viene pronunciata una parola o un'espressione matematica.
Modalità di utilizzo di SSML
La funzionalità SSML è disponibile in vari strumenti che potrebbero adattarsi al caso d'uso.
Importante
Viene addebitato ogni carattere convertito in parlato, inclusa la punteggiatura. Anche se il documento SSML stesso non è fatturabile, il servizio conta gli elementi facoltativi usati per regolare il modo in cui il testo viene convertito in parlato, ad esempio fonemi e tonalità, come caratteri fatturabili. Per altre informazioni, vedere la nota sui prezzi.
È possibile usare SSML nei modi seguenti:
- Lo strumento di creazione del contenuto audio consente di creare testo normale e SSML in Speech Studio. È possibile ascoltare l'audio di output e regolare SSML per migliorare la sintesi vocale. Per altre informazioni, vedere Sintesi vocale con lo strumento Creazione contenuto audio.
- L'API di sintesi batch accetta SSML tramite la proprietà
inputs
. - L'interfaccia della riga di comando di Voce accetta SSML tramite l'argomento della riga di comando
spx synthesize --ssml SSML
. - Speech SDK accetta SSML tramite il metodo SSML "speak" nelle diverse lingue supportate.