Enregistrement d’échantillons vocaux pour la voix neuronale personnalisée

Article
01/21/2024

Cet article fournit des instructions sur la préparation d’exemples de voix de haute qualité pour la création d’un modèle vocal professionnel utilisant le projet de voix neuronale personnalisée Pro.

La création d’une voix neuronale personnalisée de qualité production à partir de zéro n’est pas une mince affaire. Une voix neuronale personnalisée se compose avant tout d’une grande collection d’échantillons audio de voix humaine. Il est essentiel que ces enregistrements audio soient de haute qualité. Choisissez un talent vocal ayant une expérience dans ces types d’enregistrements, et enregistrez-le en faisant appel à un ingénieur spécialisé disposant d’un matériel professionnel.

Mais avant de pouvoir effectuer ces enregistrements, vous avez besoin d’un script, c’est-à-dire les mots qui sont énoncés par votre artiste vocal pour créer les échantillons audio.

L’enregistrement d’une voix professionnelle implique de nombreux petits détails très importants. Ce guide est une feuille de route détaillant le processus qui vous aidera à obtenir des résultats homogènes.

Conseils relatifs à la préparation des données pour une sortie vocale de haute qualité

Une voix neuronale personnalisée très naturelle dépend de plusieurs facteurs, comme la qualité et la taille de vos données d’entraînement.

La qualité de vos données d’entraînement est un facteur primordial. Par exemple, dans le même jeu d’apprentissage, l’homogénéité du volume, le débit, la tonalité et la manière expressive de s’exprimer sont essentiels pour créer une voix neuronale personnalisée de haute qualité. Vous devez également éviter les bruits de fond dans l’enregistrement, et vous assurer que le script et l’enregistrement correspondent. Pour vous assurer de la qualité de vos données, vous devez respecter les critères de sélection du script et les exigences d’enregistrement.

En ce qui concerne la taille des données d’entraînement, dans la plupart des cas, vous pouvez créer une voix neuronale personnalisée acceptable avec 500 énoncés. Selon nos tests, l’ajout de données d’entraînement supplémentaires dans la plupart des langues n’améliore pas nécessairement la tonalité naturelle de la voix elle-même (testée à l’aide du score MOS). Toutefois, avec plus de données d’entraînement qui couvrent plus d’instances de mots, vous avez une probabilité plus élevée de réduire le ratio des éléments non satisfaisants de la voix, tels que les défauts, pour la sortie vocale. Pour entendre à quoi ressemblent les éléments insatisfaisants de la voix, reportez-vous aux exemples GitHub.

Dans certains cas, vous pouvez souhaiter un personnage vocal avec des caractéristiques uniques. Par exemple, un personnage de dessin animé a besoin d’une voix avec un style d’élocution spécial, ou une voix dynamique dans l’intonation. Dans ce cas, nous vous recommandons de préparer au moins 1 000 énoncés (idéalement, 2 000) et de les enregistrer dans un studio d’enregistrement professionnel. Pour en savoir plus sur la façon d’améliorer la qualité de votre modèle vocal, consultez Caractéristiques et limitations de l’utilisation de la voix neuronale personnalisée.

Rôles lors d’un enregistrement vocal

Un projet d’enregistrement d’une voix neuronale personnalisée implique quatre rôles de base :

Rôle	Objectif
Voix professionnelle	La voix de cette personne sert de base à la voix neuronale personnalisée.
Ingénieur du son	Surveille les aspects techniques de l’enregistrement et commande le matériel d’enregistrement.
Directeur	Prépare le script et dirige l’enregistrement de la voix professionnelle.
Éditeur	Finalise les fichiers audio et prépare leur transfert vers Speech Studio.

Une même personne peut remplir plusieurs rôles. Ce guide part du principe que vous tenez le rôle de directeur et recrutez à la fois l’artiste vocal et l’ingénieur du son. Si vous souhaitez effectuer vous-même les enregistrements, cet article fournit certaines informations sur le rôle d’ingénieur du son. Le rôle d’éditeur n’est nécessaire qu’après la session d’enregistrement. En attendant, le directeur ou l’ingénieur du son peut remplir ce rôle.

Choisir votre voix professionnelle

Les acteurs spécialisés dans la voix off ou le doublage, l’animation radio ou la présentation de journaux sont de bons candidats. Choisissez une personne dont la voix naturelle vous plaît. Il est possible de créer une voix de « personnage » unique, mais il est plus difficile pour la plupart des acteurs de reproduire cette voix de manière cohérente, et cet effort risque d’entraîner une déformation de la voix. Le principal facteur quant au choix de la voix professionnelle est l’homogénéité. Vos enregistrements pour le même style de voix doivent donner l’impression qu’ils ont été réalisés le même jour et dans la même pièce. Pour tendre à cet idéal, vous devez suivre de bonnes pratiques en matière d’enregistrement et d’ingénierie.

Votre artiste vocal doit être capable de parler à un débit, à un niveau de volume, à une hauteur et sur un ton constants avec une diction nette. L’artiste doit aussi être capable de contrôler ses variations de tonalité, ses émotions ou ses tics de langage. L’enregistrement d’échantillons vocaux est une activité plus fatigante que d’autres types de travail vocal. La plupart des artistes vocaux sont capables d’effectuer des enregistrements pendant deux ou trois heures par jour seulement. Limitez les sessions à trois ou quatre jours par semaine, en accordant si possible un jour de repos entre deux sessions.

Collaborez avec votre artiste vocal pour développer un personnage qui définit le son global et le ton émotionnel de la voix neuronale personnalisée, en veillant à identifier les sons « neutres » de ce personnage. Vous définissez les styles de voix de votre personnage et demandez à votre artiste vocal de lire le script d’une manière qui reproduit les styles souhaités.

Par exemple, un personnage naturellement optimiste laisse transparaître son optimisme même s’il parle sur un ton neutre. Toutefois, un tel trait de caractère doit rester subtil et homogène. Écoutez des énoncés de voix existantes pour avoir une idée de ce que vous recherchez.

Conseil

En règle générale, vous devez garder la propriété des enregistrements vocaux que vous effectuez. Votre acteur devrait travailler sous contrat dans le cadre de votre projet.

Créer un script

Le point de départ de toute session d’enregistrement de voix neuronale personnalisée est le script, qui contient les énoncés qui seront lus par votre acteur. Le terme « énoncés » englobe les phrases complètes et les expressions plus courtes. La création d’une voix neuronale personnalisée nécessite au moins 300 énoncés enregistrés en tant que données de formation.

Les énoncés de votre script peuvent provenir de n’importe quelle source : fiction, non-fiction, transcription de discours, bulletin d’informations ou tout autre document imprimé. Pour obtenir une brève description des potentiels problèmes juridiques, consultez la section « Aspects juridiques ». Vous pouvez également écrire votre propre texte.

Vos énoncés n’ont pas besoin de provenir de la même source, du même type de source ou d’être liés d’une manière ou d’une autre. Toutefois, si vous comptez utiliser des expressions spécifiques (par exemple, « Vous vous êtes connecté avec succès ») dans votre application de reconnaissance vocale, veillez à les inclure dans votre script. Votre voix neuronale personnalisée a ainsi plus de chances de bien prononcer ces phrases.

Il est recommandé que les scripts d’enregistrement comprennent à la fois des phrases générales et des phrases propres à un domaine. Par exemple, si vous prévoyez d’enregistrer 2 000 phrases, 1 000 d’entre elles peuvent être des phrases générales, 1 000 autres peuvent être des phrases de votre domaine cible ou du cas d’utilisation de votre application.

Nous fournissons des exemples de scripts dans les domaines « Général », « Conversation » et « Service client » pour chaque langue afin de vous aider à préparer vos scripts d’enregistrement. Vous pouvez utiliser ces scripts partagés Microsoft pour vos enregistrements directement ou les utiliser comme référence pour créer le vôtre.

Critères de sélection des scripts

Voici quelques recommandations générales que vous pouvez suivre pour créer un corpus de qualité (échantillons audio enregistrés) pour la formation d’une voix neuronale personnalisée.

Équilibrez votre script pour couvrir les différents types de phrases dans votre domaine, y compris les instructions, les questions, les exclamations, les phrases longues et les phrases courtes.

Chaque phrase doit contenir entre quatre et 30 mots et aucun doublon ne doit être inclus dans votre script.
Pour savoir comment équilibrer les différents types de phrases, reportez-vous au tableau suivant :

Types de phrases	Couverture
Phrases d’affirmation	Les phrases affirmatives doivent représenter entre 70 et 80 % du script.
Phrases interrogatives	Les phrases interrogatives doivent constituer environ 10 à 20 % de votre script de domaine, dont 5 à 10 % de tonalités montantes et 5 à 10 % de tonalités descendantes.
Phrases d’exclamation	Les phrases exclamatives doivent constituer environ 10 à 20 % de votre script.
Court mot/expression	Les scripts de mots/phrases courts doivent également représenter environ 10 % du nombre total d’énoncés, avec 5 à 7 mots par cas.

Notes

Les mots/expressions courts doivent être séparés par des virgules. Ils permettent de rappeler à votre artiste vocal de faire des pauses pendant la lecture.

Voici les meilleures pratiques :

Couverture équilibrée des catégories grammaticales, comme les verbes, les substantifs, les adjectifs, etc.
Couverture équilibrée des prononciations. Incluez toutes les lettres de A à Z pour que le moteur de synthèse vocale apprenne à prononcer chaque lettre dans votre style.
Scripts lisibles et compréhensibles pour la personne qui lit.
Évitez d’utiliser trop de modèles similaires pour les mots/expressions, comme « facile » et « plus facile ».
Incluez des formats différents pour les nombres : adresse, unité, téléphone, quantité, date, etc., dans tous les types de phrases.
Incluez des phrases orthographiques si c’est quelque chose que votre voix neuronale personnalisée lira. Par exemple, « l’orthographe du mot Pomme est P O M M E ».

Ne placez pas plusieurs phrases sur une seule ligne ou dans un seul énoncé. Séparez chaque ligne par énoncé.
Vérifiez que la phrase est nette. En général, n’incluez pas trop de mots non standard tels que des nombres ou des abréviations, car ils sont difficiles à lire. Certaines applications peuvent nécessiter de lire beaucoup de nombres ou d’acronymes. Dans ce cas, vous pouvez inclure ces mots, mais en les normalisant dans leur forme parlée.

Voici quelques-unes des meilleures pratiques, par exemple :
- Pour les lignes avec des abréviations, au lieu de « càd », écrivez « c’est-à-dire ».
- Pour les lignes comportant des chiffres, au lieu de « 18 », utilisez « dix-huit ».
- Pour les lignes avec des acronymes, au lieu de « ABC », écrivez « A B C ».
Veillez à ce que votre artiste vocal prononce ces mots d’une façon attendue. Assurez la cohérence de votre script et des enregistrements au cours du processus d’entraînement.
Votre script doit inclure un grand nombre de mots et de phrases variées, avec un large éventail de longueurs, de structures et de tons.
Vérifiez attentivement que le script ne contient pas d’erreurs. Si possible, demandez aussi à un tiers d’effectuer cette vérification. Quand vous parcourez le script avec votre artiste vocal, vous pouvez éventuellement détecter d’autres erreurs.

Différence entre le script d’artiste vocal et le script d’entraînement

Le script d’entraînement peut différer du script d’artiste vocal, en particulier pour les scripts qui contiennent des chiffres, des symboles, des abréviations, une date et une heure. Les scripts préparés pour l’artiste vocal doivent suivre les conventions de lecture natives, telles que 50 % et 45 $. Les scripts utilisés pour l’entraînement doivent être normalisés de façon à correspondre à l’enregistrement audio, comme cinquante pour cent et quarante-cinq dollars.

Notes

Nous fournissons des exemples de scripts pour l’artiste vocal sur GitHub. Pour utiliser les exemples de scripts pour l’entraînement, vous devez les normaliser en fonction des enregistrements de votre artiste vocal avant de charger le fichier.

Le tableau suivant montre la différence entre les scripts pour artiste vocal et le script normalisé pour l’entraînement.

Category	Exemple de script d’artiste vocal	Exemple de script d’entraînement (normalisé)
Chiffres	123	cent vingt-trois
symboles	50%	cinquante pour cent
Abréviation	ASAP	dès que possible
Date et heure	3 mars à 17h00	Trois mars à dix-sept heures

Défauts typiques d’un script

La qualité médiocre du script peut nuire aux résultats de l’apprentissage. Pour obtenir des résultats d’entraînement de haute qualité, il est essentiel d’éviter les défauts.

Les défauts de script figurent généralement dans les catégories suivantes :

Category	Exemple
Contenu dénué de sens.	« Les idées vertes décolorées dorment furieusement. »
Phrases incomplètes.	-« Ceci était mon dernier Réveillon » (sans objet, aucune signification spécifique) - « Ils sont déjà amusant (sans guillemets à la fin, ce n’est pas une phrase complète)
Faute de frappe dans les phrases.	- Commencer par une minuscule - Aucune ponctuation de fin si nécessaire - Faute d’orthographe - Ponctuation manquante : aucun point à la fin (sauf un titre d’actualité) - Terminer par des symboles, sauf virgule, question, exclamation - Format incorrect, par exemple : - 45$ (doit être $45) - Pas d’espace ou espace excessif entre les mots/punctuation
La duplication dans un format similaire, une par modèle est suffisante.	-« À présent 13h00 à New York » -« À présent 14h00 à New York » -« À présent 15h00 à New York » -« À présent 13h00 à Seattle » -« À présent 13h00 à Washington D.C. »
Mots étrangers rares : seuls les mots étrangers couramment utilisés sont acceptables dans le script.	En anglais, il est possible d’utiliser le mot français « faux » dans le langage courant, mais une expression française comme « coincer la bulle » est plutôt rare.
Emoji ou tout autre symbole peu courant

Format de script

Ce script sera utilisé lors des sessions d’enregistrement et vous pouvez le configurer comme vous le souhaitez. Créez le fichier texte exigé par Speech Studio séparément.

Un format de script de base contient trois colonnes :

Le numéro de l’énoncé, à partir de 1. Cette numérotation aide toutes les personnes dans le studio à accéder directement à un énoncé précis (« reprenons l’énoncé 356 »). Vous pouvez utiliser la fonctionnalité de numérotation de paragraphe de Microsoft Word pour numéroter automatiquement les lignes du tableau.
Une colonne vide où vous inscrivez le numéro de la prise ou le code temporel de chaque énoncé, pour vous aider à le repérer dans l’enregistrement terminé.
Le texte de l’énoncé lui-même.

Sample script

Remarque

La plupart des studios enregistrent de courts segments appelés « prises ». Chaque prise contient généralement de 10 à 24 énoncés. Le simple fait de noter le nombre de prises suffira pour trouver un énoncé plus tard. Si vous enregistrez dans un studio qui souhaite effectuer des enregistrements plus longs, utilisez plutôt des codes temporels. Le studio sera équipé d’un large écran indiquant le code.

Laissez suffisamment d’espace après chaque ligne pour y noter vos remarques. Veillez à ce qu’aucun énoncé n’apparaisse sur deux pages. Numérotez les pages et imprimez votre script sur le recto de chaque page.

Imprimez trois copies du script : une pour l’artiste vocal, une pour l’ingénieur du son et l’autre pour le directeur (vous). Utilisez un trombone plutôt que des agrafes : un acteur expérimenté sépare les pages pour éviter de faire du bruit en les feuilletant.

Déclaration de l’artiste vocal

Pour entraîner une voix neuronale, vous devez créer un profil d’artiste vocal à l’aide d’un fichier audio enregistré par l’artiste vocal qui consent à l’utilisation de ses données vocales pour l’entraînement d’un modèle vocal personnalisé Custom Voice. Quand vous préparez votre script d’enregistrement, veillez à inclure la déclaration suivante.

Aspects juridiques

Conformément à la législation, la lecture par un acteur d’un texte protégé par un copyright est un travail impliquant la rémunération de l’auteur du texte. Ce travail ne sera pas identifiable dans le produit final, la voix neuronale personnalisée. Pourtant, le droit d’utiliser un travail protégé par un copyright à cet effet n’est pas bien établi. Microsoft ne peut pas fournir de conseils juridiques à ce sujet ; consultez votre propre conseiller juridique.

Heureusement, il est possible d’éviter totalement ces problèmes. Il existe de nombreuses sources de texte que vous pouvez utiliser sans licence ou autorisation.

Source du texte	Description
Corpus CMU Arctic	Environ 1 100 phrases sélectionnées provenant d’œuvres libres de droits et destinées spécifiquement à des projets de synthèse vocale. C’est un excellent point de départ.
Œuvres libres de droits	Il s’agit en général, d’œuvres publiées avant 1923. En anglais, le projet Gutenberg propose des dizaines de milliers de ces œuvres. Vous pouvez vous concentrer sur des œuvres plus récentes car leur contenu est plus proche de l’anglais moderne.
Œuvres gouvernementales	Les œuvres créées par l’état fédéral des États-Unis ne sont pas soumises au droit d’auteur, mais cela peut être le cas dans d’autres pays/régions.
Domaine public	Œuvres pour lesquelles le droit d’auteur est explicitement exclu ou dédié au domaine public. Certaines juridictions interdisent tout renoncement total au droit d’auteur.
Œuvres cédées sous licence	Œuvres distribuées sous licence comme Creative Commons ou la Licence de documentation libre GNU (GFDL). Wikipédia utilise une licence GFDL. Certaines licences, toutefois, peuvent imposer des restrictions quant à une utilisation du contenu sous licence qui pourrait affecter la création d’un modèle vocal neuronal personnalisé. Par conséquent, lisez attentivement la licence.

Enregistrement de votre script

Enregistrez votre script dans un studio d’enregistrement professionnel spécialisé dans le travail de la voix. Ce type de studio est équipé d’une cabine d’enregistrement, d’un équipement approprié et d’un personnel compétent formé à son utilisation. Il est recommandé de ne pas lésiner sur l’enregistrement.

Discutez de votre projet avec l’ingénieur du son chargé de l’enregistrement et écoutez ses conseils. L’enregistrement doit avoir peu voire aucune compression de plage dynamique (maximum 4:1). Il est essentiel que l’audio affiche un volume homogène et un rapport signal/bruit élevé, tout en étant exempt de sons parasites.

Exigences en matière d’enregistrement

Pour obtenir des résultats de haute qualité en termes d’apprentissage, respectez les conditions suivantes lors de l’enregistrement ou de la préparation des données :

Clair et bien prononcé
Vitesse naturelle : pas trop lente ou trop rapide entre les fichiers audio.
Volume, prosodie et pause appropriés : stabilité dans la même phrase ou entre les phrases, pause correcte pour la ponctuation.
Aucun bruit lors de l’enregistrement
Ajuster à votre conception de personnage
Pas d’accent incorrect : ajuster à la conception cible
Aucune prononciation incorrecte

Vous pouvez vous référer à la spécification ci-dessous pour préparer les échantillons audio en tant que meilleure pratique.

Propriété	Valeur
Format de fichier	*.wav, Mono
Taux d’échantillonnage	24 kHz
Format d’échantillonnage	16 bits, PCM
Niveaux de volume de pointe	-3 dB à -6 dB
SNR	>35 dB
Silence	-Il doit y avoir un silence (recommandé de 100 ms) au début et à la fin, mais pas plus de 200 ms – Silence entre des mots ou des expressions <-30 dB – Silence dans l’onde après le dernier mot prononcé <-60 dB
Bruit ambiant ou écho	– Le niveau de bruit au début de l’onde avant de parler < -70 dB

Notes

Vous pouvez enregistrer à une fréquence d’échantillonnage et une profondeur de bits plus élevées, par exemple au format PCM 48 kHz 24 bits. Au cours de la formation de la voix neuronale personnalisée, nous allons l’échantillonner au format PCM 24 kHz 16 bits automatiquement.

Un rapport signal/bruit (SNR) supérieur indique un bruit plus faible dans votre contenu audio. Vous pouvez généralement atteindre un SNR supérieur à 35 en effectuant les enregistrements dans un studio professionnel. Un contenu audio dont le SNR est inférieur à 20 peut entraîner un niveau de bruit conséquent dans la voix générée.

N’hésitez pas à réenregistrer les énoncés affichant un faible score de prononciation ou un mauvais ratio signal / bruit. Si vous ne pouvez pas réenregistrer, envisagez d’exclure ces énoncés de vos données.

Erreurs audio typiques

Pour obtenir des résultats d’apprentissage de haute qualité, il est fortement recommandé d’éviter les erreurs audio. Les erreurs audio se classent généralement dans les catégories suivantes :

Le fichier audio ne correspond pas à l’ID de script.
Le format du fichier WAR est illisible et non valide.
Le taux d’échantillonnage audio est inférieur à 16 KHz. Il est recommandé que le taux d’échantillonnage du fichier .wav soit supérieur ou égal à 24 kHz pour une voix neuronale de haute qualité.
La valeur maximale du volume n’est pas comprise entre -3 dB (70 % du volume maximal) et -6 dB (50 %).
Dépassement de la forme d’onde : la forme d’onde est coupée à sa valeur maximale, et donc incomplète.
Les parties silencieuses de l’enregistrement ne sont pas propres ; vous pouvez entendre des sons tels que le bruit ambiant, des bruits de bouche et de l’écho.

Par exemple, l’audio ci-dessous contient le bruit ambiant entre les énoncés.

L’exemple ci-dessous contient des signes de décalage DC ou d’écho.
Le volume global est trop faible. Vos données sont marquées comme un problème si le volume est inférieur à-18 dB (10 % du volume maximal). Assurez-vous que tous les fichiers audio soient au même niveau de volume.
Aucun silence avant le premier mot ou après le dernier mot. En outre, le silence de début ou de fin ne doit pas être supérieur à 200 ms ou inférieur à 100 ms.

Faites-le vous-même

Si vous voulez effectuer vous-même l’enregistrement au lieu de faire appel à un studio d’enregistrement, voici quelques conseils pour bien démarrer. Avec la popularité croissante des enregistrements à domicile et des podcasts, il est plus facile que jamais de trouver des conseils et des ressources en ligne pour réussir ses enregistrements.

Pour votre cabine d’enregistrement, choisissez une petite pièce, sans écho notable ni « tonalité de pièce ». Elle doit être aussi silencieuse et insonorisée que possible. Vous pouvez fixer aux murs des rideaux afin de réduire l’écho et de neutraliser ou d’étouffer le son de la pièce.

Utilisez un microphone à condenseur studio de haute qualité (un « micro » pour faire plus court) adapté à l’enregistrement vocal. Les micros Sennheiser, AKG voire les derniers modèles Zoom produisent de bons résultats. Vous pouvez acheter un micro ou en louer un dans une entreprise de location de matériel audio-vidéo. Recherchez un modèle doté d’une interface USB. Ce type de micro combine de façon optimale un microphone, un préampli et un convertisseur analogique-numérique, ce qui simplifie la connexion.

Vous pouvez également utiliser un microphone analogique. De nombreuses entreprises de location proposent des microphones « vintage » réputés pour la qualité de la voix qu’ils reproduisent. Un système analogique professionnel utilise des connecteurs XLR équilibrés plutôt que les prises d’un quart de pouce (1/4”) dont sont équipés les systèmes grand public. Si vous optez pour un système analogique, vous aurez également besoin d’un préampli et d’une interface audio pour ordinateur avec ces connecteurs.

Installez le microphone sur un support ou sur un pied, puis placez un filtre anti-pop devant le microphone pour supprimer le bruit des consonnes occlusives comme « p » et « b ». Certains microphones sont munis d’un système de suspension qui les isole des vibrations du support, ce qui est utile.

L’acteur doit se tenir à une distance constante du microphone. Collez sur le sol des bandes pour lui indiquer la position idéale. S’il préfère travailler assis, surveillez tout particulièrement la distance par rapport au micro et évitez tout bruit de chaise.

Posez le script sur un pupitre. Évitez toute inclinaison de pupitre qui risquerait de réverbérer le son vers le microphone.

La personne qui commande l’équipement (l’ingénieur du son) doit se trouver dans un local distinct de la cabine d’enregistrement où se trouve l’acteur, et disposer d’un moyen de communiquer avec lui (circuit d’ordre).

L’enregistrement doit contenir le moins de bruit possible, avec un objectif de -80 dB.

Écoutez attentivement l’enregistrement d’un silence dans votre cabine et identifiez la source des éventuels bruits afin de les supprimer. Les sources courantes de bruit sont les orifices de ventilation, les ballasts de néons, la circulation environnante et les ventilateurs des équipements (même un petit notebook peut avoir des ventilateurs). Les microphones et les câbles peuvent générer un bruit électrique (un bourdonnement ou un sifflement) s’ils sont placés à proximité d’une climatisation. Un bourdonnement peut également être dû à une boucle de masse, présente quand un appareil est raccordé à plusieurs circuits électriques.

Conseil

Dans certains cas, vous pouvez utiliser un égaliseur ou un plug-in logiciel de réduction du bruit pour éliminer le bruit de vos enregistrements, même s’il est toujours préférable de le supprimer à sa source.

Réglez les niveaux afin d’utiliser au maximum la plage dynamique disponible de l’enregistrement numérique sans saturation. Cela signifie que vous devez régler le son à un niveau élevé, mais pas si élevé qu’il en devient déformé. L’image suivante montre un exemple de forme d’onde d’un bon enregistrement :

A good recording waveform

Ici, la majeure partie de la plage (hauteur) est utilisée, mais les pics les plus élevés du signal n’atteignent pas le haut ou le bas de la fenêtre. Vous pouvez également constater que la latence dans l’enregistrement ressemble à une fine ligne horizontale, indiquant un faible niveau de bruit. Cet enregistrement comporte une plage dynamique et un rapport signal/bruit acceptables.

Enregistrez directement sur l’ordinateur par le biais d’une interface audio de haute qualité ou d’un port USB, en fonction du micro que vous utilisez. Pour un système analogique, gardez une chaîne audio simple : micro, préampli, interface audio, ordinateur. Vous pouvez acheter à un prix raisonnable une licence des logiciels Avid Pro Tools et Adobe Audition. Si votre budget est extrêmement serré, essayez la version gratuite d’Audacity.

Effectuez un enregistrement de type 44,1 kHz 16 bits monophonique (qualité CD) ou plus. Si votre équipement le permet, utilisez un échantillonnage 48 kHz 24 bits pour obtenir un son exceptionnel. Vous réduisez l’échantillonnage à 24 kHz 16 bits avant de l’envoyer à Speech Studio. Mais il est préférable de disposer d’un enregistrement original de haute qualité, si des modifications s’avèrent nécessaires.

Dans l’idéal, différentes personnes occupent les rôles de directeur, ingénieur du son et acteur. N’essayez pas de tout faire vous-même. Faute de mieux, une même personne peut endosser le costume de directeur et d’ingénieur du son.

Avant la session

Pour éviter toute perdre de temps au studio, parcourez le script avec votre acteur avant la session d’enregistrement. À mesure qu’il se familiarise avec le texte, l’acteur apprend à prononcer correctement les éventuels mots inconnus.

Notes

La plupart des studios d’enregistrement sont équipés d’un écran électronique pour afficher les scripts dans la cabine d’enregistrement. Dans ce cas, saisissez vos notes directement dans le document du script. Mais conservez une copie papier pour prendre des notes pendant la session. Les ingénieurs du son demandent aussi souvent une copie papier. Et gardez toujours une troisième copie imprimée en secours pour l’acteur, au cas où l’ordinateur tombe en panne.

L’acteur vous demandera parfois de lui préciser le mot à mettre en relief dans un énoncé (« mot opérationnel »). Dites-lui que vous souhaitez une lecture naturelle, sans mise en relief particulière. Une mise en relief peut être ajoutée lorsque la reconnaissance vocale est synthétisée : elle ne doit pas faire partie de l’enregistrement d’origine.

Demandez à l’acteur de prononcer distinctement tous les mots. Chaque mot du script doit être prononcé. Aucun son ne doit être omis ou avalé, comme c’est souvent le cas dans une conversation informelle, sauf si le script a été écrit dans ce sens.

Texte écrit	Prononciation informelle indésirable
never going to give you up	never gonna give you up
there are four lights	there're four lights
how's the weather today	how's th' weather today
say hello to my little friend	say hello to my lil' friend

L’acteur ne doit pas ajouter de pause entre chaque mot. La phrase doit toujours être prononcée de façon naturelle, même si elle sonne un peu formelle. La maîtrise de cette nuance peut demander du temps.

La session d'enregistrement

Créez un enregistrement de référence, ou fichier de correspondance, d’un énoncé standard en début de session. Demandez à l’acteur de répéter cette ligne à chaque page environ. À chaque fois, comparez le nouvel enregistrement et la référence. Cet exercice aide l’acteur à conserver un niveau constant de volume, de tempo et d’intonation. Pendant ce temps, l’ingénieur du son peut utiliser le fichier de correspondance comme référence pour les niveaux et l’homogénéité globale du son.

Le fichier de correspondance est particulièrement important pour reprendre l’enregistrement après une pause ou à une date ultérieure. Jouez plusieurs fois ce fichier à l’acteur afin de le faire répéter, jusqu’à ce que les deux versions se ressemblent.

Pour enregistrer un corpus avec un style spécifique, choisissez soigneusement les scripts qui présentent le style souhaité. Pendant l’enregistrement, assurez-vous que l’artiste vocal reste cohérent en ce qui concerne le volume, le tempo, la tonalité et le ton pour obtenir des enregistrements qui incarnent le style prévu.

Demandez à l’acteur de respirer profondément et de faire une pause avant chaque énoncé. Enregistrez quelques secondes de silence entre les énoncés. Les mots doivent être prononcés de la même façon chaque fois qu’ils apparaissent, en prenant en compte le contexte.

Enregistrez environ cinq secondes de silence avant le premier enregistrement pour capturer la « tonalité de la pièce ». Cette pratique permet à Speech Studio d’atténuer les bruits parasites.

Conseil

Comme vous avez avant tout besoin de l’artiste vocal, vous pouvez effectuer un enregistrement monophonique (monocanal) de ces lignes. Mais s’il s’agit d’un enregistrement en stéréo, vous pouvez utiliser le second canal pour capturer le son provenant de la salle de contrôle et écouter ainsi les discussions concernant des lignes ou des prises particulières. Supprimez cette piste de la version chargée dans Speech Studio.

Écoutez attentivement, à l’aide d’un casque, les enregistrements de la voix professionnelle. Vous devez obtenir une diction naturelle et une prononciation claire, sans bruits parasites. N’hésitez pas à demander à l’acteur de répéter un énoncé, si vous estimez que ces critères ne sont pas remplis.

Conseil

Si vous utilisez un grand nombre d’énoncés, un énoncé unique peut ne pas avoir d’effet notable sur la voix neuronale personnalisée finale. Il est parfois préférable de noter simplement les énoncés qui posent problème, puis de les exclure de votre jeu de données pour examiner le résultat final de la voix neuronale personnalisée. Vous pourrez toujours retourner en studio afin d’y enregistrer les échantillons manquants.

Pour chaque énoncé, notez sur le script le numéro de la prise ou le code temporel. Demandez également à l’ingénieur du son de marquer si possible chaque énoncé dans les métadonnées ou le « cue sheet » de l’enregistrement.

Faites régulièrement des pauses et proposez une boisson à l’acteur pour maintenir une bonne qualité de voix.

Après la session

Les studios d’enregistrement modernes travaillent sur ordinateur. À la fin de la session, vous recevez un ou plusieurs fichiers audio, pas une bande. Ces fichiers sont probablement au format WAV ou AIFF en qualité CD (44,1 kHz 16 bits) ou plus. Un échantillonnage 24 kHz 16 bits est courant et recommandé. Le taux d’échantillonnage par défaut d’une voix neuronale personnalisée s’élève à 24 kHz. Il est recommandé d’utiliser un taux d’échantillonnage de 24 kHz pour vos données d’apprentissage. Les taux d’échantillonnage plus élevés, par exemple 96 kHz, ne sont généralement pas nécessaires.

Avec Speech Studio, chaque énoncé fourni doit être dans son propre fichier. Chaque fichier audio fourni par le studio contient plusieurs énoncés. Par conséquent, la principale tâche de post-production consiste à diviser les enregistrements et à les préparer pour l’envoi. L’ingénieur du son de l’enregistrement peut avoir placé des marqueurs dans le fichier (ou créé un « cue sheet » distinct) pour indiquer où chaque énoncé commence.

Utilisez vos notes pour identifier exactement vos prises, puis un utilitaire de montage comme Avid Pro Tools, Adobe Audition ou la version gratuite d’Audacity pour copier chaque énoncé dans un nouveau fichier.

Écoutez attentivement chaque fichier. À ce stade, vous pouvez modifier les petits sons indésirables que vous avez manqués pendant l’enregistrement, par exemple un léger bruit de bouche avant une ligne, mais veillez à ne pas supprimer l’énoncé. Si vous ne pouvez pas corriger un fichier, supprimez-le de votre jeu de données et prenez note de cette opération.

Convertissez chaque fichier au format 16 bits et à un taux d’échantillonnage de 24 kHz avant l’enregistrement et, si vous avez enregistré les conversations du studio, supprimez le second canal. Enregistrez chaque fichier au format WAV, puis nommez les fichiers à l’aide des numéros d’énoncé de votre script.

Pour finir, créez la transcription qui associe chaque fichier WAV à une version texte de l’énoncé correspondant. La section Entraîner votre modèle vocal comprend les détails relatifs au format nécessaire. Vous pouvez copier le texte directement à partir de votre script. Créez ensuite un fichier Zip contenant les fichiers WAV et la transcription du texte.

Archivez les enregistrements originaux dans un endroit sûr afin de pouvoir les réutiliser ultérieurement si nécessaire. Conservez également votre script et vos notes.

Étapes suivantes

Vous êtes prêt à charger vos enregistrements et à créer votre voix neuronale personnalisée.

Effectuer l’apprentissage de votre modèle vocal

Enregistrement d’échantillons vocaux pour la voix neuronale personnalisée

Conseils relatifs à la préparation des données pour une sortie vocale de haute qualité

Rôles lors d’un enregistrement vocal

Choisir votre voix professionnelle

Créer un script

Critères de sélection des scripts

Différence entre le script d’artiste vocal et le script d’entraînement

Défauts typiques d’un script

Format de script

Déclaration de l’artiste vocal

Aspects juridiques

Enregistrement de votre script

Exigences en matière d’enregistrement

Erreurs audio typiques

Faites-le vous-même

Avant la session

La session d'enregistrement

Après la session

Étapes suivantes

Ressources supplémentaires