Qu’est-ce que la voix personnelle pour la synthèse vocale ?

Article
10/16/2024

La voix personnelle vous permet d’autoriser vos utilisateurs à obtenir la réplication générée par l’IA de leur voix en quelques secondes. Avec une déclaration orale et un bref échantillon vocal comme invite audio, vous pouvez créer une voix personnelle pour vos utilisateurs et leur permettre de générer un message dans l’une des 90 langues prises en charge dans plus de 100 paramètres régionaux.

Remarque

La voix personnelle est disponible dans ces régions : Europe Ouest, USA Est et Asie Sud-Est. Pour plus d’informations sur les paramètres régionaux pris en charge, consultez la prise en charge du langage vocal personnel.

Le tableau suivant résume la différence entre la voix personnelles et la voix neuronale personnalisée professionnelle.

Comparaison	Voix personnelle	Voix professionnelle
Scénarios cibles	Les clients professionnels doivent créer une application pour permettre à leurs utilisateurs de créer et d’utiliser leur propre voix personnelle dans l’application.	Des scénarios professionnels comme des voix de marque et de personnages pour les bots conversationnels ou la lecture de contenu audio.
Cas d’utilisation	Elle est limitée aux cas d’usage. Consultez la note de transparence. Les clients approuvés doivent disposer d’un plan pour prendre en charge plus de 1 000 voix personnelles.	Elle est limitée aux cas d’usage. Consultez la note de transparence.
Données de formation	Veillez à suivre le code de conduite.	Apportez vos propres données. L’enregistrement dans un studio professionnel est recommandé.
Taille de données requise	Une minute de parole humaine.	300 à 2 000 énoncés (environ 30 minutes à 3 heures de parole humaine).
Durée d’apprentissage	Moins de 5 secondes	Environ 20 à 40 heures de calcul
Qualité de la voix	Natural	Hautement naturel
Prise en charge multilingue	Oui. La voix est en mesure de parler environ 100 langues, avec la détection automatique de la langue activée.	Oui. Vous devez sélectionner la fonctionnalité « Neural – Cross lingual » pour entraîner un modèle qui parle une langue différente des données d’apprentissage.
Disponibilité	La démonstration sur Speech Studio est disponible lors de l’inscription. L’accès à l’API est limité aux clients éligibles et aux cas d’usage approuvés. Demandez l’accès via le formulaire d’entrée.	Vous pouvez uniquement effectuer l’apprentissage et le déploiement d’un modèle CNV Pro après l’approbation de l’accès. L’accès à CNV Pro est limité en fonction des critères d’éligibilité et d’utilisation. Demandez l’accès via le formulaire d’entrée.
Tarification	Consultez les détails des prix ici¹.	Consultez les détails des prix ici.
Exigences de l’IA responsable	La déclaration orale de l’orateur est requise. Aucun cas d’usage non approuvé n’est autorisé.	La déclaration orale de l’orateur est requise. Aucun cas d’usage non approuvé n’est autorisé.

¹ Notez que la tarification de la voix personnelle ne sera visible que pour les régions du service où la fonctionnalité est disponible, c’est-à-dire, Europe Ouest, USA Est et Asie Sud-Est.

Essayer la démonstration

Si vous disposez d’une ressource S0, vous pouvez accéder à la démonstration de voix personnelle dans Speech Studio. Pour utiliser l’API de voix personnelle, vous pouvez demander l’accès ici.

Accédez à Speech Studio.
Sélectionnez la carte Voix personnelle.
Vous pouvez enregistrer votre voix et tester les exemples de sortie vocale dans différentes langues. La démonstration comprend un sous-ensemble des langues prises en charge par la voix personnelle.

Procédure de création d’une voix personnelle

Pour démarrer, voici un résumé des étapes de création d’une voix personnelle :

Créer un projet.
Chargez le fichier de consentement. Avec la fonctionnalité de voix personnelle, chaque voix doit être créée avec le consentement explicite de l’utilisateur. Une déclaration enregistrée de l’utilisateur (propriétaire de la ressource Azure AI Speech) acceptant que le client crée et utilise sa voix est requise.
Obtenez un ID de profil d’orateur pour la voix personnelles. Vous obtenez un ID de profil d’orateur basé sur la déclaration de consentement oral de l’orateur et une invite audio. Les caractéristiques vocales de l’utilisateur sont encodées dans la propriété speakerProfileId utilisée pour la synthèse vocale.

Une fois que vous disposez d’une voix personnelle, vous pouvez l’utiliser pour synthétiser un message dans l’une des 91 langues prises en charge dans plus de 100 paramètres régionaux. Une balise de paramètres régionaux n’est pas obligatoire. La voix personnelle utilise la détection automatique de la langue au niveau de la phrase. Pour obtenir plus d’informations, consultez Utiliser la voix personnelle dans votre application.

Conseil

Consultez les exemples de code dans le référentiel du kit de développement logiciel (SDK) Speech sur GitHub pour découvrir comment utiliser la voix personnelle dans votre application.

Documentation de référence

Documentation de référence sur l’API REST de voix personnalisée

IA responsable

Nous nous soucions des personnes qui utilisent l’IA et qui en sont affectées autant que nous nous soucions de la technologie. Pour plus d’informations, consultez les notes de transparence sur l’IA responsable.

Étapes suivantes

Créer un projet.
Découvrez plus d’informations sur la voix neuronale personnalisée dans la vue d’ensemble.
En savoir plus sur Speech Studio dans la vue d’ensemble.

Partage via