Partage via


Qu’est-ce que la voix personnelle pour la synthèse vocale ?

La voix personnelle vous permet d’obtenir la réplication de votre voix (ou celle des utilisateurs de votre application) générée par l’IA en quelques secondes. Fournissez un exemple de reconnaissance vocale d’une minute en tant qu’invite audio, puis utilisez-le pour générer un message dans l’une des plus de 90 langues prises en charge sur plus de 100 paramètres régionaux.

Remarque

La voix personnelle est disponible dans ces régions : Europe Ouest, USA Est et Asie Sud-Est. Pour plus d’informations sur les paramètres régionaux pris en charge, consultez la prise en charge du langage vocal personnel.

Le tableau suivant résume la différence entre la voix personnelles et la voix neuronale personnalisée professionnelle.

Comparaison Voix personnelle Voix professionnelle
Scénarios cibles Les clients professionnels doivent créer une application pour permettre à leurs utilisateurs de créer et d’utiliser leur propre voix personnelle dans l’application. Des scénarios professionnels comme des voix de marque et de personnages pour les bots conversationnels ou la lecture de contenu audio.
Cas d’utilisation Elle est limitée aux cas d’usage. Consultez la note de transparence. Les clients approuvés doivent disposer d’un plan pour prendre en charge plus de 1 000 voix personnelles. Elle est limitée aux cas d’usage. Consultez la note de transparence.
Données de formation Veillez à suivre le code de conduite. Apportez vos propres données. L’enregistrement dans un studio professionnel est recommandé.
Taille de données requise Une minute de parole humaine. 300 à 2 000 énoncés (environ 30 minutes à 3 heures de parole humaine).
Durée d’apprentissage Moins de 5 secondes Environ 20 à 40 heures de calcul
Qualité de la voix Natural Hautement naturel
Prise en charge multilingue Oui. La voix est en mesure de parler environ 100 langues, avec la détection automatique de la langue activée. Oui. Vous devez sélectionner la fonctionnalité « Neural – Cross lingual » pour entraîner un modèle qui parle une langue différente des données d’apprentissage.
Disponibilité La démonstration sur Speech Studio est disponible lors de l’inscription. L’accès à l’API est limité aux clients éligibles et aux cas d’usage approuvés. Demandez l’accès via le formulaire d’entrée. Vous pouvez uniquement effectuer l’apprentissage et le déploiement d’un modèle CNV Pro après l’approbation de l’accès. L’accès à CNV Pro est limité en fonction des critères d’éligibilité et d’utilisation. Demandez l’accès via le formulaire d’entrée.
Tarification Consultez les détails des prix ici1. Consultez les détails des prix ici.
Exigences de l’IA responsable La déclaration orale de l’orateur est requise. Aucun cas d’usage non approuvé n’est autorisé. La déclaration orale de l’orateur est requise. Aucun cas d’usage non approuvé n’est autorisé.

1 Notez que la tarification de la voix personnelle ne sera visible que pour les régions du service où la fonctionnalité est disponible, c’est-à-dire, Europe Ouest, USA Est et Asie Sud-Est.

Essayer la démonstration

Si vous disposez d’une ressource S0, vous pouvez accéder à la démonstration de voix personnelle dans Speech Studio. Pour utiliser l’API de voix personnelle, vous pouvez demander l’accès ici.

  1. Accédez à Speech Studio.

  2. Sélectionnez la carte Voix personnelle.

  3. Vous pouvez enregistrer votre voix et tester les exemples de sortie vocale dans différentes langues. La démonstration comprend un sous-ensemble des langues prises en charge par la voix personnelle.

    Capture d’écran de l’expérience de démonstration de voix personnelle dans Speech Studio.

Procédure de création d’une voix personnelle

Pour démarrer, voici un résumé des étapes de création d’une voix personnelle :

  1. Créer un projet.
  2. Chargez le fichier de consentement. Avec la fonctionnalité de voix personnelle, chaque voix doit être créée avec le consentement explicite de l’utilisateur. Une déclaration enregistrée de l’utilisateur (propriétaire de la ressource Azure AI Speech) acceptant que le client crée et utilise sa voix est requise.
  3. Obtenez un ID de profil d’orateur pour la voix personnelles. Vous obtenez un ID de profil d’orateur basé sur la déclaration de consentement oral de l’orateur et une invite audio. Les caractéristiques vocales de l’utilisateur sont encodées dans la propriété speakerProfileId utilisée pour la synthèse vocale.

Une fois que vous disposez d’une voix personnelle, vous pouvez l’utiliser pour synthétiser un message dans l’une des 91 langues prises en charge dans plus de 100 paramètres régionaux. Une balise de paramètres régionaux n’est pas obligatoire. La voix personnelle utilise la détection automatique de la langue au niveau de la phrase. Pour obtenir plus d’informations, consultez Utiliser la voix personnelle dans votre application.

Conseil

Consultez les exemples de code dans le référentiel du kit de développement logiciel (SDK) Speech sur GitHub pour découvrir comment utiliser la voix personnelle dans votre application.

Documentation de référence

IA responsable

Nous nous soucions des personnes qui utilisent l’IA et qui en sont affectées autant que nous nous soucions de la technologie. Pour plus d’informations, consultez les notes de transparence sur l’IA responsable.

Étapes suivantes