Partage via


Utiliser la voix personnelle dans votre application

Vous pouvez utiliser l’ID de profil d’orateur pour votre voix personnelle afin de synthétiser un message dans l’une des 91 langues prises en charge dans plus de 100 paramètres régionaux. Une balise de paramètres régionaux n’est pas obligatoire. La voix personnelle utilise la détection automatique de la langue au niveau de la phrase.

Intégrer la voix personnelle dans votre application

Vous devez utiliser le langage SSML (Speech Synthesis Markup Language) pour utiliser la voix personnelle dans votre application. SSML est un langage de balisage basé sur XML qui fournit un moyen standard de baliser le texte pour générer un message synthétique. Les balises SSML permettent de contrôler la prononciation, le volume, la hauteur, le débit et d’autres attributs de la sortie de synthèse vocale.

  • La propriété speakerProfileId dans SSML permet de spécifier l’ID de profil d’orateur pour la voix personnelle.

  • Vous spécifiez le nom de la voix dans la propriété name dans SSML. Pour la voix personnelle, le nom de la voix doit être l’un des noms de voix de modèle de base pris en charge. Pour obtenir la liste des noms de voix de modèle de base pris en charge, utilisez l’opération BaseModels_List de l’API de voix personnalisée.

    Remarque

    Les noms de voix étiquetés avec le Latest, tels que DragonLatestNeural ou PhoenixLatestNeural, seront mis à jour de temps à autre ; leur performance peut varier en fonction des mises à jour pour les améliorations en cours. Si vous souhaitez utiliser une version corrigée, sélectionnez-en une étiquetée avec un numéro de version, comme PhoenixV2Neural.

  • DragonLatestNeural est un modèle de base avec une similarité de clonage de voix supérieure par rapport à PhoenixLatestNeural. PhoenixLatestNeural est un modèle de base avec une prononciation plus précise et une latence inférieure à DragonLatestNeural.

  • Pour la voix personnelle, vous pouvez utiliser l’élément <lang xml:lang> pour ajuster la langue parlée. Il en va de même pour les voix multilingues. Consultez comment utiliser l’élément lang pour parler différentes langues.

Voici un exemple SSML dans une demande de synthèse vocale avec le nom vocal et l’ID de profil de l’orateur. L’exemple montre également comment passer de la langue en-US à la langue zh-HK à l’aide de l’élément <lang xml:lang>.

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
    <voice name='DragonLatestNeural'> 
        <mstts:ttsembedding speakerProfileId='your speaker profile ID here'> 
            I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun. 
            <lang xml:lang='zh-HK'>我很高興聽到你覺得我很了不起,我讓你的旅行計劃更輕鬆、更有趣。</lang>
        </mstts:ttsembedding> 
    </voice> 
</speak>

Vous pouvez utiliser SSML via le SDK Speech ou l’API REST.

  • Synthèse vocale en temps réel : utilisez le SDK Speech ou l’API REST pour la conversion de texte par synthèse vocale.
    • Quand vous utilisez le Kit de développement logiciel (SDK) Speech, ne définissez pas l’ID de point de terminaison, tout comme pour la voix prédéfinie.
    • Lorsque vous utilisez l’API REST, utilisez le point de terminaison des voix neuronales prédéfinies.

Éléments SSML pris en charge et non pris en charge pour une voix personnelle

Pour plus d’informations sur les éléments SSML pris en charge et non pris en charge pour les modèles Phoenix et Dragon, reportez-vous au tableau suivant. Pour obtenir des instructions sur l’utilisation d’éléments SSML, reportez-vous à la structure et aux événements des documents SSML.

Element Description Pris en charge dans Phoenix Pris en charge dans Dragon
<voice> Spécifie les effets vocaux et facultatifs (eq_car et eq_telecomhp8k). Oui Oui
<mstts:express-as> Spécifie des styles d’élocution et des rôles. Non Non
<mstts:ttsembedding> Spécifie la propriété speakerProfileId pour une voix personnelle. Oui Oui
<lang xml:lang> Spécifie la langue parlée. Oui Oui
<prosody> Ajuste la tonalité, le contour, la plage, la vitesse et le volume.
   pitch Indique la tonalité de base pour le texte. Non Non
   contour Représente les changements dans la tonalité. Non Non
   range Représente la plage de tonalités pour le texte. Non Non
   rate Indique la cadence d’énonciation du texte. Oui Oui
   volume Indique le niveau de volume de la voix. Non Non
<emphasis> Ajoute ou supprime l’accent tonique au niveau du mot pour le texte. Non Non
<audio> Incorpore du contenu audio préenregistré dans un document SSML. Oui Non
<mstts:audioduration> Spécifie la durée de l’audio de sortie. Non Non
<mstts:backgroundaudio> Ajoute de l’audio en arrière-plan à vos documents SSML ou combine un fichier audio avec la synthèse vocale. Oui Non
<phoneme> Spécifie la prononciation phonétique dans des documents SSML.
   ipa Un des alphabets phonétiques. Oui Non
   sapi Un des alphabets phonétiques. Non Non
   ups Un des alphabets phonétiques. Oui Non
   x-sampa Un des alphabets phonétiques. Oui Non
<lexicon> Définit comment plusieurs entités sont lues dans SSML. Oui Oui (uniquement l’alias de prise en charge)
<say-as> Indique le type de contenu, par exemple un nombre ou une date, du texte de l’élément. Oui Oui
<sub> Indique que la valeur de texte de l’attribut alias doit être prononcée au lieu du texte joint de l’élément. Oui Oui
<math> Utilise MathML en texte d’entrée pour prononcer correctement les notations mathématiques dans l’audio de sortie. Oui Non
<bookmark> Obtient le décalage de chaque marqueur dans le flux audio. Oui Non
<break> Remplace le comportement par défaut des interruptions ou pauses entre les mots. Oui Oui
<mstts:silence> Insère des pauses avant ou après le texte, ou entre deux phrases adjacentes. Oui Non
<mstts:viseme> Définit la position du visage et de la bouche pendant qu’une personne parle. Oui Non
<p> Désigne les paragraphes dans des documents SSML. Oui Oui
<s> Désigne les phrases dans des documents SSML. Oui Oui

Fonctionnalités du Kit de développement logiciel (SDK) prises en charge et non prises en charge pour une voix personnelle

Le tableau suivant décrit les fonctionnalités du Kit de développement logiciel (SDK) prises en charge pour les modèles Phoenix et Dragon. Pour plus d’informations sur l’utilisation de ces fonctionnalités du Kit de développement logiciel (SDK) dans vos applications, consultez S’abonner aux événements de synthèse.

Fonctionnalités du Kit de développement logiciel (SDK) Description Pris en charge dans Phoenix Pris en charge dans Dragon
Limite de mot Signale qu’une limite de mot a été reçue pendant la synthèse, fournissant un minutage précis des mots pendant le processus de synthèse vocale. Oui Non
Événements de visème Fournit des informations de visème (lèvres, mâchoires et mouvements de langue) pendant la synthèse, ce qui permet la synchronisation visuelle. Oui Non

Documentation de référence

Étapes suivantes