Vue d’ensemble du langage de balisage de synthèse vocale (SSML, Speech Synthesis Markup Language)

Article
09/24/2024

Le langage de balisage de synthèse vocale (SSML) est un langage de balisage XML que vous pouvez utiliser pour affiner les attributs de sortie de votre synthèse vocale comme la hauteur, la prononciation, le débit de parole et le volume, entre autres. Il vous offre plus de contrôle et de flexibilité que l’entrée de texte brut.

Conseil

Vous pouvez écouter différents styles et tonalités de voix grâce la lecture d’exemples de texte dans la Galerie de voix.

Scénarios de cas d’usage

SSML est conçu pour vous offrir de la flexibilité quant à la façon dont vous souhaitez que votre sortie vocale sonne, et fournit différentes propriétés pour personnaliser cette sortie. Vous pouvez utiliser SSML pour :

Définir la structure du texte d’entrée qui détermine la structure, le contenu et d’autres caractéristiques de la sortie de votre synthèse vocale. Par exemple, vous pouvez utiliser SSML pour définir un paragraphe, une phrase, une pause ou un silence. Vous pouvez encapsuler du texte avec des balises d’évènement, comme un signet ou un visème, que votre application pourra traiter ultérieurement. Un visème est la description visuelle d’un phonème, les sonorités individuelles du message, dans le langage parlé.
Choisir la voix, la langue, le nom, le style et le rôle. Vous pouvez utiliser plusieurs voix dans un seul document SSML. Vous pouvez également ajuster l’accentuation, la vitesse, la hauteur et le volume de la parole. SSML peut également insérer de l’audio préenregistré, comme un effet sonore ou une note de musique.
Contrôler la prononciation de l’audio de sortie. Par exemple, vous pouvez utiliser SSML avec des phonèmes et un lexique personnalisé pour améliorer la prononciation. Vous pouvez aussi utiliser SSML pour définir la façon dont un mot ou une expression mathématique sont prononcés.

Méthodes d’utilisation de SSML

Les fonctionnalités SSML sont disponibles dans différents outils qui peuvent s’adapter à votre cas d’usage.

Important

Vous êtes facturé pour chaque caractère converti en parole, y compris les signes de ponctuation. Même si le document SSML lui-même n’est pas facturable, le service comptabilise les éléments facultatifs que vous utilisez pour ajuster la façon dont le texte est converti en parole, comme les phonèmes et la tonalité. Pour plus d’informations, consultez la remarque sur la tarification.

Vous pouvez utiliser SSML des manières suivantes :

L’outil de création de contenu audio vous permet de créer du texte brut et SSML dans Speech Studio. Vous pouvez écouter l’audio de sortie et ajuster le SSML pour améliorer la synthèse vocale. Pour plus d’informations, consultez Synthèse vocale avec l’outil Création de contenu audio.
L’API de synthèse par lots accepte SSML via la propriété inputs.
L’Interface CLI Speech accepte SSML par via l’argument de ligne de commande spx synthesize --ssml SSML.
Le kit de développement logiciel (SDK) Speech accepte SSML via la méthode SSML « speak » dans les différentes langues prises en charge.

Partager via

Vue d’ensemble du langage de balisage de synthèse vocale (SSML, Speech Synthesis Markup Language)

Scénarios de cas d’usage

Méthodes d’utilisation de SSML

Étapes suivantes

Commentaires

Ressources supplémentaires