Notes
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Important
Les traductions non anglaises sont fournies uniquement pour des raisons pratiques. Consultez la EN-US version de ce document pour obtenir la version définitive.
L’objectif de cet article est d’aider les talents de voix et d’avatar à comprendre la technologie derrière les fonctionnalités de synthèse vocale que leurs voix et images aident à créer. Il contient également des divulgations importantes de confidentialité pour les talents sur la façon dont Microsoft peut traiter, utiliser et conserver des fichiers audio et vidéo contenant les voix et images enregistrées des talents et aide Microsoft à prévenir et/ou à répondre aux plaintes des services Azure AI.
Microsoft s’engage à concevoir l’IA de manière responsable. Nous espérons que cette note favorisera une meilleure compréhension partagée entre les constructeurs techniques, les talents vocaux, les talents d’avatar et le grand public sur les utilisations prévues et bénéfiques de cette technologie.
Termes clés de synthèse vocale
Modèle vocal : Modèle d’ordinateur de synthèse vocale qui peut imiter des caractéristiques vocales uniques d’un haut-parleur cible. Un modèle vocal est également appelé police vocale ou voix synthétique. Un modèle vocal est un ensemble de paramètres au format binaire qui n’est pas lisible par l’homme et ne contient pas d’enregistrements audio. Il ne peut pas être inversé pour dériver ou construire les enregistrements audio d’un être humain parlant.
Talent vocal : Individus ou intervenants cibles dont les voix sont enregistrées et utilisées pour créer des modèles vocaux destinés à sonner comme la voix du talent vocal.
Modèle avatar : Modèle d’ordinateur d’avatar de synthèse vocale qui peut imiter des caractéristiques faciales uniques d’un acteur cible. Un modèle d’avatar est un ensemble de paramètres au format binaire qui n’est pas lisible par l’homme et ne contient pas d’enregistrements vidéo ou audio. Il ne peut pas être conçu à l’inverse pour dériver ou construire des enregistrements vidéo d’un être humain agissant.
Talent d’avatar : Le modèle d’avatar de synthèse vocale personnalisé nécessite une formation sur un enregistrement vidéo d’un véritable langage humain. Cette personne est l’artiste d’avatar. Les clients doivent obtenir un consentement suffisant en vertu de toutes les lois et réglementations pertinentes du talent d’avatar pour utiliser leur image pour créer un avatar personnalisé.
Fonctionnement de la synthèse vocale neuronale
Fonctionnement : Le texte neuronal vers la voix synthétise la parole à l’aide de réseaux neuronaux profonds qui ont « appris » la façon dont les phonétiques sont combinés dans la parole humaine naturelle plutôt que d’utiliser la programmation classique ou les méthodes statistiques. Outre les enregistrements d'un artiste vocal particulier, la synthèse vocale neuronale utilise une bibliothèque source qui contient des enregistrements de nombreux locuteurs différents.
Que savoir sur ce sujet : En raison de la façon dont il synthétise les voix, le texte neuronal à la parole peut produire des styles de parole qui ne faisaient pas partie des enregistrements originaux, tels que les changements de tonalité de la voix et de l’affectation. Les voix neuronales sont fluides et répliquent bien les pauses naturelles, les particularités et les hésitations que les gens expriment quand ils parlent. Ceux qui entendent des voix synthétiques créées par une synthèse vocale neuronale ont tendance à les évaluer plus proches de la voix humaine que les voix de synthèse vocale standard.
Exemples de la façon dont Microsoft l’utilise :
- La voix neuronale prédéfinie est une fonctionnalité de synthèse vocale qui offre des modèles vocaux « prêts à l’emploi » pour les clients. Les voix neuronales prédéfinies sont également utilisées dans plusieurs produits Microsoft, notamment le navigateur Edge, le Narrateur, Office et Teams.
-
La voix neuronale personnalisée est une fonctionnalité de synthèse vocale qui permet de créer des modèles vocaux synthétiques personnalisés de type unique. Voici les fonctionnalités de la voix neuronale personnalisée :
- Le transfert de langue peut s’exprimer dans une langue différente des enregistrements vocaux d’origine.
- Le transfert de style peut exprimer un style de parole différent des enregistrements vocaux originaux. Par exemple, une voix de newscaster.
- La transformation vocale peut exprimer de manière différente des enregistrements vocaux originaux. Par exemple, la modification du ton ou de la hauteur pour créer différentes voix de caractères.
- D’autres voix utilisées dans les produits et services de Microsoft, comme Cortana.
À attendre lors de l’enregistrement : Contribution d’au moins 300 lignes pour un modèle vocal de preuve de concept et environ 2 000 lignes pour produire un nouveau modèle vocal pour une utilisation en production.
Fonctionnement de l’avatar de synthèse vocale
Fonctionnement : L'avatar de synthèse vocale est créé sur la voix neuronale prédéfinie et la voix neuronale personnalisée, et synthétise le contenu vidéo d’avatar avec une voix neuronale prédéfinie ou personnalisée de synthèse vocale synchronisée. Le processus de synthèse utilise des réseaux neuronaux profonds formés sur des modèles développés en fonction des enregistrements vidéo des talents d’avatar. Les modèles sont entraînés avec les caractéristiques acoustiques extraites des éléments audio de l’enregistrement, ainsi que des caractéristiques physiques, des mouvements de bouche, des expressions faciales et des éléments visuels connexes extraits des éléments vidéo de l’enregistrement.
Que savoir sur ce sujet : Le visage, le corps et les mouvements de l'avatar de synthèse vocale ressemblent étroitement à ceux du talent de l'avatar. Cependant, la voix de synthèse de l’avatar peut être générée à partir de l'une des voix neuronales prédéfinies que Microsoft met à disposition ou d'une voix neuronale personnalisée, y compris dans le cas où le talent vocal est le même individu que le talent de l'avatar, si cet individu a autorisé une telle utilisation.
Exemples de la façon dont Microsoft l’utilise :
- L’avatar de synthèse vocale préconçu est une fonctionnalité de synthèse vocale d’Azure AI Speech qui offre des modèles d’avatar de synthèse vocale "clé en main" pour un usage par le client.
- L’avatar de synthèse vocale personnalisé est une fonctionnalité de synthèse vocale d’Azure AI Speech qui permet la création de modèles d’avatars de synthèse vocale personnalisés d’un type unique.
Quoi attendre lors de l’enregistrement : vous devez contribuer au moins 10 minutes d’enregistrement vidéo pour un modèle d’avatar personnalisé de preuve de concept et environ 20 minutes d’enregistrement vidéo pour produire un modèle d’avatar personnalisé complet pour une utilisation en production.
Talent vocal et voix synthétiques : une relation en constante évolution
Reconnaissant la relation intégrale entre les talents vocaux et les voix synthétiques, Microsoft a interviewé les talents vocaux pour mieux comprendre leurs perspectives sur les nouveaux développements technologiques. La recherche que nous avons menée en 2019 a montré que les talents vocaux ont pu tirer parti des fonctionnalités introduites par le texte neuronal à la parole, telles que l’économie du temps de studio pour terminer des travaux d’enregistrement et l’ajout de capacité pour accomplir plus d’affectations d’action vocale. En même temps, il y avait des degrés divers de sensibilisation sur la façon dont les développements de la technologie vocale pouvaient avoir un impact sur leur profession.
Dans l’ensemble, les talents vocaux ont exprimé un désir de transparence et de clarté sur :
- Limites sur ce que leur ressemblance vocale pouvait et ne pouvait pas être utilisée pour exprimer.
- Durée d’utilisation autorisée de sa ressemblance vocale.
- Impact potentiel sur les futures opportunités d’enregistrement.
- Le personnage qui serait associé à sa ressemblance vocale.
Voix synthétique dans une utilisation plus large
Jusqu’ici, l’adoption de voix de synthèse vocale était limitée en raison de leur son semblable à un robot. La plupart ont été utilisés pour prendre en charge l’accessibilité, par exemple en tant que lecteur d’écran pour les personnes aveugles ou ayant une faible vision. Les voix de synthèse ont également été utilisées par les personnes atteintes d'un trouble de la parole. Par exemple, feu Stephen Hawking utilisait une voix générée par synthèse vocale.
Maintenant, avec des voix synthétiques de plus en plus réalistes et la montée en puissance dans les interactions quotidiennes plus familières entre les machines et les humains, les utilisations de cette technologie ont proliféré et étendu. Les systèmes de synthèse vocale alimentent les assistants vocaux sur une variété d'appareils et d'applications. Ils lisent les actualités, les résultats de recherche, les annonces de services publics, le contenu éducatif et bien plus encore.
Avatar synthétique dans une utilisation plus large
Comme pour les voix vocales, les avatars offrent désormais des apparences réalistes, des mouvements et des expressions faciales associées à des voix sonores réalistes. Ces avatars parlants peuvent être utilisés dans diverses situations, comme pour présenter du contenu dans une formation en ligne, présenter un discours au nom d’une entreprise, interagir avec les clients dans les paramètres de service à la clientèle, et bien plus encore.
Approche de Microsoft pour l’utilisation responsable de la synthèse vocale
Chaque jour, les gens trouvent de nouvelles façons d’appliquer du texte à la technologie vocale, et tous ne sont pas pour le bien des individus ou de la société. En cas d’utilisation abusive, des voix de synthèse à l'apparence humaine ou des avatars parlants réalistes pourraient provoquer des dommages. Par exemple, une campagne de mauvaise information pourrait devenir beaucoup plus puissante si elle utilisait la voix et l’image d’une figure publique bien connue.
Nous reconnaissons qu’il n’existe aucun moyen parfait d’empêcher les médias d’être modifiés ou de prouver sans ambiguïté leur origine. Par conséquent, notre approche de l’utilisation responsable s’est concentrée sur la transparence sur les fonctionnalités vocales d’Azure AI Speech en limitant les utilisations autorisées de ces fonctionnalités personnalisées et en démontrant nos valeurs par action.
Exigences et conseils pour obtenir un consentement explicite de la voix et du talent d’avatar
Si vous utilisez des produits ou services Microsoft pour traiter les données biométriques, vous êtes responsable de : (i) fournir un avis aux personnes concernées, y compris en ce qui concerne les périodes de rétention et la destruction ; (ii) obtenir le consentement des personnes concernées ; et (iii), en supprimant les données biométriques, toutes les conditions appropriées et requises en vertu des exigences applicables en matière de protection des données. La signification de « Données biométriques » sera présentée à l’article 4 du RGPD et, le cas échéant, des termes équivalents dans le cadre d’autres exigences de protection des données.
Pour utiliser la voix neuronale personnalisée, nous demandons contractuellement aux clients d’effectuer les opérations suivantes :
- Obtenez une autorisation écrite explicite du talent vocal pour utiliser la voix de cette personne dans le but de créer une voix neuronale personnalisée.
- Fournissez ce document aux talents vocaux afin qu’ils puissent comprendre le fonctionnement du texte à la parole et comment il peut être utilisé une fois le processus d’enregistrement audio terminé.
- Obtenez les autorisations nécessaires du talent vocal pour le traitement, l’utilisation et la rétention des fichiers audio des talents vocaux pour effectuer la vérification de l’orateur sur les données d’entraînement et pour l’utilisation et la rétention des modèles vocaux de Microsoft, comme décrit ci-dessous.
Nous vous recommandons également d’effectuer les opérations suivantes :
- Partagez les contextes prévus d’utilisation avec des talents vocaux afin qu’ils sachent qui entendra leur voix, dans quels scénarios et si/comment les personnes pourront interagir avec elle.
- Assurez-vous que les talents vocaux sont conscients qu’un modèle vocal créé à partir de leurs enregistrements peut dire des choses qu’ils n’ont pas spécifiquement enregistrées dans le studio.
- Discutez s’il y a quelque chose qu’ils seraient mal à l’aise avec le modèle vocal utilisé pour dire.
Traitement, utilisation et conservation des données par Microsoft
Utilisation par Microsoft de fichiers audio de talent vocal pour la vérification de l’orateur
Les clients doivent obtenir l'autorisation des artistes vocaux pour utiliser leur voix afin de créer des modèles vocaux personnalisés pour une voix synthétique. Cette protection technique vise à empêcher l’utilisation abusive de notre service, par exemple, en empêchant quelqu’un d’entraîner des modèles vocaux avec des enregistrements audio et d’utiliser les modèles pour usurper une voix sans connaissance ou consentement de l’orateur.
Dans Speech Studio, vous devez charger un fichier audio avec une attestation enregistrée de l’artiste vocal. Microsoft se réserve le droit d’utiliser la technologie de reconnaissance de l’orateur de Microsoft sur cette déclaration d’accusé de réception enregistrée et de le vérifier par rapport aux données audio d’entraînement pour confirmer que les voix proviennent du même orateur, ou si nécessaire pour examiner l’utilisation abusive d’Azure AI Speech.
Les signatures vocales de l’orateur créées à partir des fichiers d’instruction d’accusé de réception enregistrés et des données audio d’entraînement sont utilisées par Microsoft uniquement à des fins mentionnées ci-dessus. Microsoft conserve le fichier d’instructions enregistré tant que nécessaire pour préserver la sécurité et l’intégrité des services Azure AI de Microsoft. Apprenez-en davantage sur la façon dont nous traitons, utilisons et conservez des données dans la documentation sur les données, la confidentialité et la sécurité.
Utilisation de modèles personnalisés par Microsoft
Bien que les clients conservent les droits d’utilisation exclusifs de leur modèle vocal neuronal personnalisé, Microsoft peut conserver indépendamment une copie des modèles vocaux neuronaux personnalisés tant que nécessaire. Microsoft peut utiliser votre modèle vocal neuronal personnalisé pour protéger la sécurité et l’intégrité des services d’IA Microsoft Azure.
Microsoft sécurisera et stockera une copie de la déclaration enregistrée de reconnaissance par les talents vocaux et des modèles vocaux neuronaux personnalisés avec le même niveau de sécurité élevé que celui utilisé pour ses autres services Azure. En savoir plus sur le Centre de gestion de la confidentialité Microsoft.
Nous continuerons d'identifier et d'être explicites sur les utilisations intentionnelles, bénéfiques et prévues de la synthèse vocale, fondées sur les normes sociales existantes et les attentes des gens vis-à-vis des médias, lorsqu'il s'agit de déterminer s'ils sont réels ou faux. Conformément aux principes de confiance de Microsoft, Microsoft ne surveille pas ou ne modérera pas activement le contenu audio généré par votre utilisation de la voix neuronale personnalisée. Les clients sont uniquement responsables de l’assurance que l’utilisation est conforme à toutes les lois et réglementations applicables et conformément aux conditions de l’accord du client avec les talents vocaux.
Utilisation de données de talent vocal par Microsoft avec une voix neuronale personnalisée lite
Custom neural voice lite est un type de projet en préversion publique qui vous permet d’enregistrer 20-50 exemples vocaux sur Speech Studio et de créer un modèle vocal personnalisé léger à des fins de démonstration et d’évaluation. Le script d’enregistrement et le script de test sont prédéfinis par Microsoft. Un modèle vocal synthétique que vous créez à l’aide de la voix neuronale personnalisée lite peut être déployé et utilisé plus largement uniquement si vous appliquez et recevez un accès complet à la voix neuronale personnalisée (sous réserve de conditions applicables).
La voix synthétique et l’enregistrement audio associé que vous envoyez via Speech Studio seront automatiquement supprimés dans les 90 jours, sauf si vous obtenez un accès complet à la voix neuronale personnalisée et choisissez de déployer la voix synthétique, auquel cas vous contrôlerez la durée de sa rétention. Si le talent vocal souhaite que la voix synthétique et les enregistrements audio associés soient supprimés avant 90 jours, ils peuvent les supprimer directement sur le portail ou contacter leur entreprise pour le faire.
En outre, avant de pouvoir déployer n’importe quel modèle vocal synthétique créé à l’aide d’un projet de voix neuronale personnalisée, le talent vocal doit fournir un enregistrement supplémentaire dans lequel il reconnaît que la voix synthétique sera utilisée à des fins supplémentaires au-delà de la démonstration et de l’évaluation.
Recommandations en matière de déploiement responsable
Étant donné que la synthèse vocale est une technologie adaptable, il existe des zones grises pour déterminer comment elle doit ou ne doit pas être utilisée. Pour les parcourir, nous avons formulé les instructions suivantes pour utiliser des modèles de voix et d’avatar synthétiques :
- Protégez les propriétaires de voix et d’images/ressemblances contre l’utilisation abusive ou le vol d’identité.
- Empêchez la prolifération de contenus faux et trompeurs.
- Encouragez l’utilisation dans les scénarios où les consommateurs s’attendent à interagir avec du contenu synthétique.
- Encouragez l’utilisation dans les scénarios où les consommateurs observent la génération du contenu synthétique.
Exemples d’utilisation inappropriée
Le texte par synthèse vocale Azure AI ne doit pas être utilisé :
- Pour tromper les gens et/ou désinformer de façon intentionnelle;
- À des fins de fausses publicités, y compris via des publicités en direct ; Pour prétendre être d’une personne, d’une entreprise, d’un organisme gouvernemental ou d’une entité sans autorisation explicite de faire cette représentation ;
- Pour emprunter l’identité d’une personne sans autorisation explicite, y compris pour obtenir des informations ou des privilèges ;
- Pour créer, inciter ou déguiser le discours haineux, la discrimination, la diffamation, le terrorisme ou les actes de violence ;
- Pour exploiter ou manipuler des enfants ;
- Pour passer des appels téléphoniques non sollicités, des communications en bloc, des billets ou des messages ;
- Pour déguiser les positions politiques ou les idéologies politiques ;
- Pour diffuser du contenu non attribué ou déformer les sources.
Exemples d’utilisation appropriée
Les cas d’usage appropriés peuvent inclure, mais ne sont pas limités à :
- Agents virtuels basés sur des personnages fictifs. Par exemple, la recherche web à la demande, le contrôle IoT ou le support client fourni par le caractère de marque d’une entreprise.
- Médias de divertissement à utiliser dans du contenu fictif. Par exemple, les films, les jeux vidéo, la télévision, la musique enregistrée ou les livres audio.
- Établissements d’enseignement accrédités ou médias éducatifs. Par exemple, des plans de cours interactifs ou des visites guidées du musée.
- Technologie d’assistance et traduction en temps réel. Par exemple, les personnes atteintes d’ALS préservant leurs voix.
- Annonces de la fonction publique utilisant des personnages fictifs. Par exemple, les annonces d’aéroport ou de terminal de train.
- Publicité/diffusion en direct : contenu publicitaire, streaming en direct associé au marketing ou à la vente d’un produit.