Utiliser la voix personnelle dans votre application
Vous pouvez utiliser l’ID de profil d’orateur pour votre voix personnelle afin de synthétiser un message dans l’une des 91 langues prises en charge dans plus de 100 paramètres régionaux. Une balise de paramètres régionaux n’est pas obligatoire. La voix personnelle utilise la détection automatique de la langue au niveau de la phrase.
Intégrer la voix personnelle dans votre application
Vous devez utiliser le langage SSML (Speech Synthesis Markup Language) pour utiliser la voix personnelle dans votre application. SSML est un langage de balisage basé sur XML qui fournit un moyen standard de baliser le texte pour générer un message synthétique. Les balises SSML permettent de contrôler la prononciation, le volume, la hauteur, le débit et d’autres attributs de la sortie de synthèse vocale.
La propriété
speakerProfileId
dans SSML permet de spécifier l’ID de profil d’orateur pour la voix personnelle.Vous spécifiez le nom de la voix dans la propriété
name
dans SSML. Pour la voix personnelle, le nom de la voix doit être l’un des noms de voix de modèle de base pris en charge. Pour obtenir la liste des noms de voix de modèle de base pris en charge, utilisez l’opération BaseModels_List de l’API de voix personnalisée.Remarque
Les noms de voix étiquetés avec le
Latest
, tels queDragonLatestNeural
ouPhoenixLatestNeural
, seront mis à jour de temps à autre ; leur performance peut varier en fonction des mises à jour pour les améliorations en cours. Si vous souhaitez utiliser une version corrigée, sélectionnez-en une étiquetée avec un numéro de version, commePhoenixV2Neural
.DragonLatestNeural
est un modèle de base avec une similarité de clonage de voix supérieure par rapport àPhoenixLatestNeural
.PhoenixLatestNeural
est un modèle de base avec une prononciation plus précise et une latence inférieure àDragonLatestNeural
.Pour la voix personnelle, vous pouvez utiliser l’élément
<lang xml:lang>
pour ajuster la langue parlée. Il en va de même pour les voix multilingues. Consultez comment utiliser l’élément lang pour parler différentes langues.
Voici un exemple SSML dans une demande de synthèse vocale avec le nom vocal et l’ID de profil de l’orateur. L’exemple montre également comment passer de la langue en-US
à la langue zh-HK
à l’aide de l’élément <lang xml:lang>
.
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='DragonLatestNeural'>
<mstts:ttsembedding speakerProfileId='your speaker profile ID here'>
I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun.
<lang xml:lang='zh-HK'>我很高興聽到你覺得我很了不起,我讓你的旅行計劃更輕鬆、更有趣。</lang>
</mstts:ttsembedding>
</voice>
</speak>
Vous pouvez utiliser SSML via le SDK Speech ou l’API REST.
- Synthèse vocale en temps réel : utilisez le SDK Speech ou l’API REST pour la conversion de texte par synthèse vocale.
- Lorsque vous utilisez le SDK Speech, ne définissez pas l’ID de point de terminaison, tout comme la voix prédéfinie.
- Lorsque vous utilisez l’API REST, utilisez le point de terminaison des voix neuronales prédéfinies.
Documentation de référence
Étapes suivantes
- Découvrez-en plus sur la voix neuronale personnalisée dans la vue d’ensemble.
- En savoir plus sur Speech Studio dans la vue d’ensemble.
Commentaires
https://aka.ms/ContentUserFeedback.
Prochainement : Tout au long de l'année 2024, nous supprimerons progressivement les GitHub Issues en tant que mécanisme de retour d'information pour le contenu et nous les remplacerons par un nouveau système de retour d'information. Pour plus d’informations, voir:Soumettre et afficher des commentaires pour