Utiliser la voix personnelle dans votre application
Vous pouvez utiliser l’ID de profil d’orateur pour votre voix personnelle afin de synthétiser un message dans l’une des 91 langues prises en charge dans plus de 100 paramètres régionaux. Une balise de paramètres régionaux n’est pas obligatoire. La voix personnelle utilise la détection automatique de la langue au niveau de la phrase.
Intégrer la voix personnelle dans votre application
Vous devez utiliser le langage SSML (Speech Synthesis Markup Language) pour utiliser la voix personnelle dans votre application. SSML est un langage de balisage basé sur XML qui fournit un moyen standard de baliser le texte pour générer un message synthétique. Les balises SSML permettent de contrôler la prononciation, le volume, la hauteur, le débit et d’autres attributs de la sortie de synthèse vocale.
La propriété
speakerProfileId
dans SSML permet de spécifier l’ID de profil d’orateur pour la voix personnelle.Vous spécifiez le nom de la voix dans la propriété
name
dans SSML. Pour la voix personnelle, le nom de la voix doit être l’un des noms de voix de modèle de base pris en charge. Pour obtenir la liste des noms de voix de modèle de base pris en charge, utilisez l’opération BaseModels_List de l’API de voix personnalisée.Remarque
Les noms de voix étiquetés avec le
Latest
, tels queDragonLatestNeural
ouPhoenixLatestNeural
, seront mis à jour de temps à autre ; leur performance peut varier en fonction des mises à jour pour les améliorations en cours. Si vous souhaitez utiliser une version corrigée, sélectionnez-en une étiquetée avec un numéro de version, commePhoenixV2Neural
.DragonLatestNeural
est un modèle de base avec une similarité de clonage de voix supérieure par rapport àPhoenixLatestNeural
.PhoenixLatestNeural
est un modèle de base avec une prononciation plus précise et une latence inférieure àDragonLatestNeural
.Pour la voix personnelle, vous pouvez utiliser l’élément
<lang xml:lang>
pour ajuster la langue parlée. Il en va de même pour les voix multilingues. Consultez comment utiliser l’élément lang pour parler différentes langues.
Voici un exemple SSML dans une demande de synthèse vocale avec le nom vocal et l’ID de profil de l’orateur. L’exemple montre également comment passer de la langue en-US
à la langue zh-HK
à l’aide de l’élément <lang xml:lang>
.
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='DragonLatestNeural'>
<mstts:ttsembedding speakerProfileId='your speaker profile ID here'>
I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun.
<lang xml:lang='zh-HK'>我很高興聽到你覺得我很了不起,我讓你的旅行計劃更輕鬆、更有趣。</lang>
</mstts:ttsembedding>
</voice>
</speak>
Vous pouvez utiliser SSML via le SDK Speech ou l’API REST.
- Synthèse vocale en temps réel : utilisez le SDK Speech ou l’API REST pour la conversion de texte par synthèse vocale.
- Quand vous utilisez le Kit de développement logiciel (SDK) Speech, ne définissez pas l’ID de point de terminaison, tout comme pour la voix prédéfinie.
- Lorsque vous utilisez l’API REST, utilisez le point de terminaison des voix neuronales prédéfinies.
Éléments SSML pris en charge et non pris en charge pour une voix personnelle
Pour plus d’informations sur les éléments SSML pris en charge et non pris en charge pour les modèles Phoenix et Dragon, reportez-vous au tableau suivant. Pour obtenir des instructions sur l’utilisation d’éléments SSML, reportez-vous à la structure et aux événements des documents SSML.
Element | Description | Pris en charge dans Phoenix | Pris en charge dans Dragon |
---|---|---|---|
<voice> |
Spécifie les effets vocaux et facultatifs (eq_car et eq_telecomhp8k ). |
Oui | Oui |
<mstts:express-as> |
Spécifie des styles d’élocution et des rôles. | Non | Non |
<mstts:ttsembedding> |
Spécifie la propriété speakerProfileId pour une voix personnelle. |
Oui | Oui |
<lang xml:lang> |
Spécifie la langue parlée. | Oui | Oui |
<prosody> |
Ajuste la tonalité, le contour, la plage, la vitesse et le volume. | ||
pitch |
Indique la tonalité de base pour le texte. | Non | Non |
contour |
Représente les changements dans la tonalité. | Non | Non |
range |
Représente la plage de tonalités pour le texte. | Non | Non |
rate |
Indique la cadence d’énonciation du texte. | Oui | Oui |
volume |
Indique le niveau de volume de la voix. | Non | Non |
<emphasis> |
Ajoute ou supprime l’accent tonique au niveau du mot pour le texte. | Non | Non |
<audio> |
Incorpore du contenu audio préenregistré dans un document SSML. | Oui | Non |
<mstts:audioduration> |
Spécifie la durée de l’audio de sortie. | Non | Non |
<mstts:backgroundaudio> |
Ajoute de l’audio en arrière-plan à vos documents SSML ou combine un fichier audio avec la synthèse vocale. | Oui | Non |
<phoneme> |
Spécifie la prononciation phonétique dans des documents SSML. | ||
ipa |
Un des alphabets phonétiques. | Oui | Non |
sapi |
Un des alphabets phonétiques. | Non | Non |
ups |
Un des alphabets phonétiques. | Oui | Non |
x-sampa |
Un des alphabets phonétiques. | Oui | Non |
<lexicon> |
Définit comment plusieurs entités sont lues dans SSML. | Oui | Oui (uniquement l’alias de prise en charge) |
<say-as> |
Indique le type de contenu, par exemple un nombre ou une date, du texte de l’élément. | Oui | Oui |
<sub> |
Indique que la valeur de texte de l’attribut alias doit être prononcée au lieu du texte joint de l’élément. | Oui | Oui |
<math> |
Utilise MathML en texte d’entrée pour prononcer correctement les notations mathématiques dans l’audio de sortie. | Oui | Non |
<bookmark> |
Obtient le décalage de chaque marqueur dans le flux audio. | Oui | Non |
<break> |
Remplace le comportement par défaut des interruptions ou pauses entre les mots. | Oui | Oui |
<mstts:silence> |
Insère des pauses avant ou après le texte, ou entre deux phrases adjacentes. | Oui | Non |
<mstts:viseme> |
Définit la position du visage et de la bouche pendant qu’une personne parle. | Oui | Non |
<p> |
Désigne les paragraphes dans des documents SSML. | Oui | Oui |
<s> |
Désigne les phrases dans des documents SSML. | Oui | Oui |
Fonctionnalités du Kit de développement logiciel (SDK) prises en charge et non prises en charge pour une voix personnelle
Le tableau suivant décrit les fonctionnalités du Kit de développement logiciel (SDK) prises en charge pour les modèles Phoenix et Dragon. Pour plus d’informations sur l’utilisation de ces fonctionnalités du Kit de développement logiciel (SDK) dans vos applications, consultez S’abonner aux événements de synthèse.
Fonctionnalités du Kit de développement logiciel (SDK) | Description | Pris en charge dans Phoenix | Pris en charge dans Dragon |
---|---|---|---|
Limite de mot | Signale qu’une limite de mot a été reçue pendant la synthèse, fournissant un minutage précis des mots pendant le processus de synthèse vocale. | Oui | Non |
Événements de visème | Fournit des informations de visème (lèvres, mâchoires et mouvements de langue) pendant la synthèse, ce qui permet la synchronisation visuelle. | Oui | Non |
Documentation de référence
Étapes suivantes
- Découvrez-en plus sur la voix neuronale personnalisée dans la vue d’ensemble.
- En savoir plus sur Speech Studio dans la vue d’ensemble.