Partager via


Utiliser la voix personnelle dans votre application

Vous pouvez utiliser l’ID de profil d’orateur pour votre voix personnelle afin de synthétiser un message dans l’une des 91 langues prises en charge dans plus de 100 paramètres régionaux. Une balise de paramètres régionaux n’est pas obligatoire. La voix personnelle utilise la détection automatique de la langue au niveau de la phrase.

Intégrer la voix personnelle dans votre application

Vous devez utiliser le langage SSML (Speech Synthesis Markup Language) pour utiliser la voix personnelle dans votre application. SSML est un langage de balisage basé sur XML qui fournit un moyen standard de baliser le texte pour générer un message synthétique. Les balises SSML permettent de contrôler la prononciation, le volume, la hauteur, le débit et d’autres attributs de la sortie de synthèse vocale.

  • La propriété speakerProfileId dans SSML permet de spécifier l’ID de profil d’orateur pour la voix personnelle.

  • Vous spécifiez le nom de la voix dans la propriété name dans SSML. Pour la voix personnelle, le nom de la voix doit être l’un des noms de voix de modèle de base pris en charge. Pour obtenir la liste des noms de voix de modèle de base pris en charge, utilisez l’opération BaseModels_List de l’API de voix personnalisée.

    Remarque

    Les noms de voix étiquetés avec le Latest, tels que DragonLatestNeural ou PhoenixLatestNeural, seront mis à jour de temps à autre ; leur performance peut varier en fonction des mises à jour pour les améliorations en cours. Si vous souhaitez utiliser une version corrigée, sélectionnez-en une étiquetée avec un numéro de version, comme PhoenixV2Neural.

  • DragonLatestNeural est un modèle de base avec une similarité de clonage de voix supérieure par rapport à PhoenixLatestNeural. PhoenixLatestNeural est un modèle de base avec une prononciation plus précise et une latence inférieure à DragonLatestNeural.

  • Pour la voix personnelle, vous pouvez utiliser l’élément <lang xml:lang> pour ajuster la langue parlée. Il en va de même pour les voix multilingues. Consultez comment utiliser l’élément lang pour parler différentes langues.

Voici un exemple SSML dans une demande de synthèse vocale avec le nom vocal et l’ID de profil de l’orateur. L’exemple montre également comment passer de la langue en-US à la langue zh-HK à l’aide de l’élément <lang xml:lang>.

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
    <voice name='DragonLatestNeural'> 
        <mstts:ttsembedding speakerProfileId='your speaker profile ID here'> 
            I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun. 
            <lang xml:lang='zh-HK'>我很高興聽到你覺得我很了不起,我讓你的旅行計劃更輕鬆、更有趣。</lang>
        </mstts:ttsembedding> 
    </voice> 
</speak>

Vous pouvez utiliser SSML via le SDK Speech ou l’API REST.

  • Synthèse vocale en temps réel : utilisez le SDK Speech ou l’API REST pour la conversion de texte par synthèse vocale.
    • Lorsque vous utilisez le SDK Speech, ne définissez pas l’ID de point de terminaison, tout comme la voix prédéfinie.
    • Lorsque vous utilisez l’API REST, utilisez le point de terminaison des voix neuronales prédéfinies.

Documentation de référence

Étapes suivantes