Qu’est-ce que l’avatar de synthèse vocale personnalisé ?

2025-06-25

Un avatar de synthèse vocale personnalisé vous permet de créer un avatar de conversation synthétique personnalisé et unique pour votre application. Avec un avatar de synthèse vocale personnalisé, vous pouvez générer un avatar unique et naturel pour votre produit ou marque en fournissant des données d’enregistrement vidéo de vos acteurs sélectionnés. L’avatar est encore plus réaliste si vous utilisez également une voix professionnelle ou une synchronisation vocale pour l'avatar du même acteur.

Important

L’accès à l’avatar de synthèse vocale personnalisé est limité en fonction des critères d’éligibilité et d’utilisation. Demandez un accès à l’aide du formulaire d’admission.

Comment cela fonctionne-t-il ?

La création d’un avatar de synthèse vocale personnalisé nécessite au moins 10 minutes d’enregistrement vidéo du talent avatar en tant que données d’apprentissage. Vous devez d’abord obtenir le consentement de l’acteur.

Le modèle d’avatar personnalisé peut prendre en charge :

La génération de vidéos via l’API Synthèse par lots.
La messagerie instantanée via l’API de synthèse de diffusion en continu.

Avant de commencer, voici quelques considérations à prendre en compte :

Votre cas d’usage : utiliserez-vous l’avatar pour créer du contenu vidéo tel que du matériel de formation, une introduction au produit ou utiliserez-vous l’avatar comme vendeur virtuel dans une conversation en temps réel avec vos clients ? Il existe certaines exigences d’enregistrement pour différents cas d’utilisation.

L’apparence de l’avatar : l’avatar de synthèse vocale personnalisé ressemble au talent de l’avatar dans les données d’apprentissage. Nous ne prenons pas en charge la personnalisation de l’apparence du modèle d’avatar, comme les vêtements, la coiffure, etc. Par conséquent, si votre application nécessite plusieurs styles du même avatar, vous devez préparer des données d’apprentissage pour chaque style, car chaque style d’un avatar est considéré comme un modèle d’avatar unique.

La voix de l’avatar : L’avatar de synthèse vocale personnalisé peut fonctionner avec la voix standard, la voix professionnelle et la synchronisation vocale pour avatar.

Synchronisation vocale pour avatar : une voix synthétique semblable à la voix du talent d’avatar est entraînée en même temps que l’avatar personnalisé utilisant l’audio de la vidéo de formation.
Voix professionnelle : ajustez une voix professionnelle avec plus de données d’entraînement, offrant une expérience vocale premium pour votre avatar, y compris les conversations naturelles, le multi-style et le support multilingue.

Voici une vue d’ensemble des étapes permettant de créer un avatar de synthèse vocale personnalisé :

Obtenez une vidéo de consentement. Obtenez un enregistrement vidéo du talent en lisant une déclaration de consentement. Ils doivent consentir à l’utilisation de leurs données d’image et de voix pour entraîner un modèle d’avatar vocal personnalisé et une version synthétique de leur voix.
Préparez des données d’apprentissage. Vérifiez que l’enregistrement vidéo est au format approprié. Il est judicieux de filmer l’enregistrement vidéo dans un studio de tournage vidéo de qualité professionnelle pour obtenir une image d’arrière-plan propre. La qualité de l’avatar résultant dépend fortement de la vidéo enregistrée utilisée pour l’apprentissage. Des facteurs tels que le débit de la parole, la posture corporelle, l’expression faciale, les mouvements de main, la cohérence dans la position de l’acteur et l’éclairage de l’enregistrement vidéo sont essentiels pour créer un avatar de synthèse vocale personnalisé attrayant. Pour plus de détails, consultez Comment préparer des données d’apprentissage.
Entraînez le modèle d’avatar. Une fois les données prêtes, chargez vos données sur le portail des avatars personnalisés, puis et commencez à entraîner votre modèle. La vérification du consentement est effectuée pendant l’apprentissage. Vérifiez que vous avez accès à la fonctionnalité d’avatar de synthèse vocale personnalisé pour pouvoir créer un projet.
Déployez et utilisez votre modèle d’avatar dans vos applications.

Séquence de composants

Le modèle d’avatar de synthèse vocale personnalisé contient trois composants : analyseur de texte, synthétiseur audio de synthèse vocale et renderer vidéo d’avatar de synthèse vocale.

Pour générer un fichier ou un flux vidéo d’avatar avec le modèle d’avatar, le texte est d’abord entré dans l’analyseur de texte, qui fournit la sortie sous la forme d’une séquence phonème.
Le synthétiseur audio synthétise l’audio vocal pour le texte d’entrée, et ces deux parties sont fournies par des modèles vocaux standard ou personnalisés.
Enfin, le modèle d’avatar de synthèse vocale prédit l’image de la synchronisation des lèvres avec l’audio vocal, afin que la vidéo synthétique soit générée.

Les modèles d’avatar de synthèse vocale sont formés à l’aide de réseaux neuronaux profonds basés sur les exemples d’enregistrements de vidéos humaines dans différentes langues. Toutes les langues des voix standard et des voix personnalisées peuvent être prises en charge.

Localisations disponibles

L’apprentissage d’un avatar personnalisé est disponible uniquement dans les régions de service suivantes : Asie Sud-Est, Europe Ouest et USA Ouest 2. Vous pouvez utiliser un modèle d’avatar personnalisé dans les régions de service suivantes : Asie Sud-Est, Europe Nord, Europe Ouest, Suède Centre, USA Centre Sud, USA Est 2 et USA Ouest 2.

Voix personnalisée et avatar de synthèse vocale personnalisé

La voix personnalisée et l’avatar de synthèse vocale personnalisée sont des fonctionnalités distinctes. Vous pouvez les utiliser indépendamment ou ensemble. Si vous créez également une voix professionnelle pour l’acteur, l’avatar peut être très réaliste.

L’avatar de synthèse vocale personnalisé peut fonctionner avec une voix standard ou une voix personnalisée comme voix de l’avatar. Pour plus d’informations, consultez Voix et langue de l’avatar.

Il existe deux types de voix personnalisées pour un avatar personnalisé :

Synchronisation vocale pour avatar : lorsque vous activez l’option de synchronisation vocale pour avatar lors de l’entraînement d’avatar personnalisé, un modèle vocal synthétique utilisant la ressemblance du talent d’avatar est entraîné simultanément avec l’avatar. Cette voix est exclusivement associée à l’avatar personnalisé et ne peut pas être utilisée indépendamment. La synchronisation vocale pour avatar est actuellement prise en charge dans les régions Asie Sud-Est, Europe Ouest et USA Ouest 2.
Voix professionnelle : vous pouvez affiner une voix professionnelle. L’optimisation vocale professionnelle et l’avatar de synthèse vocale personnalisée sont des fonctionnalités distinctes. Vous pouvez les utiliser indépendamment ou ensemble. Si vous choisissez de les utiliser ensemble, vous devez appliquer des réglages vocaux professionnels et un avatar de synthèse vocale personnalisé séparément, et vous êtes facturé séparément pour le réglage de la voix professionnelle et le texte personnalisé à l’avatar vocal. Pour plus d’informations, consultez la page de tarification. En outre, si vous envisagez d’utiliser le réglage de la voix professionnelle avec un avatar de synthèse vocale, vous devez déployer ou copier votre modèle vocal personnalisé dans l’une des régions prises en charge par avatar.

Si vous ajustez une voix professionnelle et souhaitez l’utiliser avec l’avatar personnalisé, faites attention aux points suivants :

Vérifiez que le point de terminaison vocal personnalisé est créé dans la même ressource Azure AI Foundry que le point de terminaison d’avatar personnalisé. Si nécessaire, reportez-vous à former votre modèle vocal professionnel pour copier le modèle vocal personnalisé dans la même ressource Azure AI Foundry que celle du point de terminaison de l'avatar personnalisé.
Vous pouvez voir l’option de voix personnalisée dans la liste des voix de la page de génération de contenu d’avatar et les paramètres de voix de messagerie instantanée.
Si vous utilisez la synthèse par lot pour l’API d’avatar, ajoutez la propriété "customVoices" pour associer l’ID de déploiement du modèle vocal personnalisé au nom de voix dans la requête. Pour découvrir plus d’informations, consultez les propriétés de la synthèse vocale.
Si vous utilisez la synthèse en temps réel de l’API d’avatar, consultez notre exemple de code sur GitHub pour définir la voix personnalisée.

Partager via

Qu’est-ce que l’avatar de synthèse vocale personnalisé ?

Comment cela fonctionne-t-il ?

Séquence de composants

Localisations disponibles

Voix personnalisée et avatar de synthèse vocale personnalisé

Contenu connexe

Commentaires

Ressources supplémentaires