Partager via


Qu’est-ce que l’avatar de synthèse vocale personnalisé ?

L’avatar de synthèse vocale personnalisé vous permet de créer un avatar de conversation synthétique personnalisé et unique pour votre application. Avec un avatar de synthèse vocale personnalisé, vous pouvez créer un avatar unique et naturel pour votre produit ou marque en fournissant des données d’enregistrement vidéo de vos acteurs sélectionnés. Si vous créez également une voix neuronale personnalisée pour le même acteur et que vous l’utilisez comme voix de l’avatar, l’avatar sera encore plus réaliste.

Important

L’accès à l’avatar de synthèse vocale personnalisé est limité en fonction des critères d’éligibilité et d’utilisation. Demandez l’accès à l’aide du formulaire d’admission.

Comment cela fonctionne-t-il ?

La création d’un avatar de synthèse vocale personnalisé nécessite au moins 10 minutes d’enregistrement vidéo du talent avatar en tant que données d’apprentissage, et vous devez d’abord obtenir le consentement de l’acteur.

Important

Actuellement, pour l’avatar de synthèse vocale personnalisé, le traitement des données et l’apprentissage du modèle sont effectués manuellement.

Avant de commencer, voici quelques considérations à prendre en compte :

Votre cas d’usage : utiliserez-vous l’avatar pour créer du contenu vidéo tel que du matériel de formation, une introduction au produit ou utiliserez-vous l’avatar comme vendeur virtuel dans une conversation en temps réel avec vos clients ? Il existe certaines exigences d’enregistrement pour différents cas d’usage.

L’apparence de l’avatar : l’avatar de synthèse vocale personnalisé à la parole ressemble au talent de l’avatar dans les données d’apprentissage, et nous ne prenons pas en charge la personnalisation de l’apparence du modèle d’avatar, comme les vêtements, la coiffure, etc. Par conséquent, si votre application nécessite plusieurs styles du même avatar, vous devez préparer des données d’apprentissage pour chaque style, car chaque style d’un avatar sera considéré comme un modèle d’avatar unique.

La voix de l’avatar : l’avatar de synthèse vocale personnalisé peut fonctionner avec des voix neuronales prédéfinies et des voix neuronales personnalisées. La création d’une voix neuronale personnalisée pour le talent avatar et son utilisation avec l’avatar augmente considérablement le naturel de l’expérience avec l’avatar.

Voici une vue d’ensemble des étapes permettant de créer un avatar de synthèse vocale personnalisé :

  1. Obtenir une vidéo de consentement : obtenir un enregistrement vidéo de la déclaration de consentement. La déclaration de consentement est un enregistrement vidéo du talent avatar lisant une déclaration, donnant son consentement à l’utilisation de son image et de ses données vocales pour former un modèle d’avatar de synthèse vocale personnalisé.

  2. Préparer les données d’apprentissage : vérifiez que l’enregistrement vidéo est au format approprié. Il est recommandé de filmer l’enregistrement vidéo dans un studio de tournage vidéo de qualité professionnelle pour obtenir une image d’arrière-plan propre. La qualité de l’avatar résultant dépend fortement de la vidéo enregistrée utilisée pour l’apprentissage. Des facteurs tels que le débit de la parole, la posture corporelle, l’expression faciale, les mouvements de main, la cohérence dans la position de l’acteur et l’éclairage de l’enregistrement vidéo sont essentiels pour créer un texte personnalisé attrayant à l’avatar de synthèse vocale.

  3. Former le modèle d’avatar : nous allons commencer à former le modèle de synthèse vocale personnalisé après avoir vérifié l’instruction de consentement du talent de l’avatar. Cette étape est actuellement effectuée manuellement par Microsoft. Vous serez averti une fois que le modèle a été correctement formé.

  4. Déployez et utilisez votre modèle d’avatar dans vos applications

Séquence de composants

Le modèle d’avatar de synthèse vocale personnalisé contient trois composants : analyseur de texte, synthétiseur audio de synthèse vocale et convertisseur vidéo d’avatar de synthèse vocale.

  • Pour générer un fichier ou un flux vidéo d’avatar avec le modèle d’avatar, le texte est d’abord entré dans l’analyseur de texte, qui fournit la sortie sous la forme d’une séquence phonème.
  • Le synthétiseur audio synthétise l’audio vocal pour le texte d’entrée, et ces deux parties sont fournies par des modèles de synthèse vocale ou de voix neuronale personnalisée.
  • Enfin, le modèle d’avatar de synthèse vocale neuronale prédit l’image de la synchronisation des lèvres avec l’audio vocal, afin que la vidéo synthétique soit générée.

Capture d’écran de l’affichage d’une vue d’ensemble du flux de travail d’avatar de synthèse vocale personnalisé.

Les modèles d’avatar de synthèse vocale neuronale sont formés à l’aide de réseaux neuronaux profonds basés sur les exemples d’enregistrements de vidéos humaines dans différentes langues. Toutes les langues des voix prédéfinies et des voix neuronales personnalisées peuvent être prises en charge.

Voix personnalisée et avatar de synthèse vocale personnalisé

L’avatar de synthèse vocale personnalisé peut fonctionner avec une voix neuronale prédéfinie ou une voix neuronale personnalisée en tant que voix de l’avatar. Pour plus d’informations, consultez Voix et langue de l’avatar.

La voix neuronale personnalisée et l’avatar de synthèse vocale personnalisée sont des fonctionnalités distinctes. Vous pouvez les utiliser indépendamment ou ensemble. Si vous envisagez également d’utiliser la voix neuronale personnalisée avec un avatar de synthèse vocale, vous devez déployer ou copier votre modèle de voix neuronale personnalisée dans l’une des régions prises en charge par l’avatar.

Étapes suivantes