Données de formation pour la voix neuronale personnalisée

Article
01/22/2024

Dès que vous êtes prêt à créer une voix personnalisée pour la synthèse vocale dans votre application, vous devez dans un premier temps rassembler les enregistrements audio et les scripts associés pour commencer l’entraînement du modèle de voix. Le service Speech se sert de ces données pour créer une voix unique correspondant à la voix des enregistrements. Après avoir entraîné la voix, vous pouvez commencer la synthèse vocale dans vos applications.

Conseil

Pour créer une voix à des fins de production, nous vous recommandons de faire appel aux services d’un studio d’enregistrement et d’une voix professionnelle. Pour plus d’informations, consultez Enregistrer des échantillons vocaux pour créer une voix neuronale personnalisée.

Types de données d’entraînement

Un jeu de données d’entraînement vocal comprend des enregistrements audio et un fichier texte contenant les transcriptions associées. Chaque fichier audio doit contenir un seul énoncé (une seule phrase ou un seul tour pour un système de dialogues) et durer moins de 15 secondes.

Dans certains cas, vous ne disposerez peut-être pas encore du jeu de données approprié. Vous pouvez tester l’entraînement de la voix neuronale personnalisée avec des fichiers audio disponibles, courts ou longs, avec ou sans transcriptions.

Ce tableau répertorie les types de données et la façon dont chacun est utilisé pour créer un modèle vocal personnalisé pour la synthèse vocale.

Type de données	Description	Quand l’utiliser	Traitement supplémentaire nécessaire
Énoncés individuels + transcription correspondante	Collection (.zip) de fichiers audio (.wav) correspondant à des énoncés individuels. Chaque fichier audio est limité à 15 secondes et est associé à une transcription formatée (.txt).	Enregistrements professionnels avec transcriptions correspondantes	Prêt pour l’entraînement.
Audio long + transcription	Collection (.zip) de fichiers audio longs et non segmentés (.wav ou .mp3, de plus de 20 secondes, au plus 1 000 fichiers audio), associés à une collection de transcriptions (.zip) qui contient tous les mots prononcés.	Vous disposez de fichiers audio et des transcriptions correspondantes, mais ils ne sont pas segmentés en énoncés.	Segmentation (à l’aide de la transcription Batch). Transformation du format audio partout où cela est nécessaire.
Audio uniquement (préversion)	Collection (.zip) de fichiers audio (.wav ou .mp3, au plus 1 000 fichiers audio) sans transcription.	Vous disposez uniquement de fichiers audio, sans transcriptions.	Segmentation + génération de transcriptions (à l’aide de la transcription Batch). Transformation du format audio partout où cela est nécessaire.

Les fichiers doivent être regroupées par type dans un jeu de données et chargés sous forme de fichier zip. Chaque jeu de données ne peut contenir qu’un seul type de données.

Notes

Le nombre maximal de jeux de données qu’il est autorisé d’importer par abonnement est de 500 fichiers zip pour les utilisateurs disposant d’un abonnement standard (S0).

Énoncés individuels + transcription correspondante

Vous pouvez préparer les enregistrements d’énoncés individuels et la transcription correspondante de deux façons différentes : Soit en écrivant un script et en le faisant lire par une voix professionnelle, soit en utilisant un enregistrement audio disponible publiquement et en le transcrivant en texte. Dans ce dernier cas, éliminez les disfluences dans les fichiers audio telles que les « euh » et autres sons de remplissage, bégaiements, mots marmonnés ou erreurs de prononciation.

Pour obtenir un modèle de voix de qualité satisfaisante, créez les enregistrements dans une pièce silencieuse avec un microphone de qualité. Il est essentiel de faire attention à l’homogénéité du volume, au débit, à la tonalité et de s’exprimer de manière expressive.

Pour des exemples de format de données, consultez l’exemple de jeu d’apprentissage sur GitHub. L’exemple de jeu d’entraînement comprend l’exemple de script et l’audio associé.

Données audio pour les énoncés individuels + transcription correspondante

Chaque fichier audio doit contenir un seul énoncé (une seule phrase ou un seul tour pour un système de dialogues) et durer moins de 15 secondes. La langue parlée doit être identique dans tous les fichiers. Les voix de synthèse vocale personnalisées multilingues ne sont pas prises en charge, à l’exception de la combinaison chinois-anglais. Chaque fichier audio doit avoir un nom de fichier unique avec l’extension de nom de fichier .wav.

Suivez ces recommandations pendant la préparation du contenu audio.

Propriété	Valeur
Format de fichier	RIFF (.wav), regroupé dans un fichier .zip
Nom de fichier	Caractères de nom de fichier pris en charge par le système d’exploitation Windows, avec l’extension .wav. Les caractères `\ / : * ? " < > \\|` ne sont pas autorisés. Il ne peut pas commencer ou se terminer par un espace, et ne peut pas commencer par un point. Noms de fichiers en double non autorisés.
Taux d’échantillonnage	Lorsque vous créez une voix neuronale personnalisée, une fréquence de 24 000 Hz est nécessaire.
Format d’échantillonnage	PCM, au moins 16 bits
Durée du contenu audio	Moins de 15 secondes
Format d’archive	.zip
Taille d’archive maximale	2 048 Mo

Notes

Le taux d’échantillonnage par défaut d’une voix neuronale personnalisée s’élève à 24 000 Hz. Les fichiers audio dont le taux d’échantillonnage est inférieur à 16 000 Hz sont rejetés. Si un fichier .zip contient des fichiers .wav dont le taux d’échantillonnage est différent, seuls ceux dont ce taux est supérieur ou égal à 16 000 Hz sont importés. Vos fichiers audio dont le taux d’échantillonnage est supérieur à 16 000 Hz et inférieurs à 24 000 Hz sont échantillonnés à 24 000 Hz pour entraîner une voix neuronale. Nous vous recommandons d’utiliser un taux d’échantillonnage de 24 000 Hz pour vos données d’entraînement.

Données de transcription pour les énoncés individuels + transcription correspondante

Le fichier de transcription est un fichier texte brut. Suivez ces recommandations pour préparer votre transcriptions.

Propriété	Valeur
Format de fichier	Texte brut (.txt)
Format d’encodage	ANSI, ASCII, UTF-8, UTF-8-BOM, UTF-16-LE ou UTF-16-BE. Pour zh-CN, les encodages ANSI et ASCII ne sont pas pris en charge.
Nb d’énoncés par ligne	Un – Chaque ligne du fichier de transcription doit contenir le nom d’un des fichiers audio, suivi de la transcription correspondante. Vous devez utiliser une tabulation (\t) pour séparer le nom du fichier et la transcription.
Taille maximale du fichier	2 048 Mo

Voici un exemple d’organisation des transcriptions, énoncé par énoncé, dans un même fichier .txt :

0000000001[tab]	This is the waistline, and it's falling.
0000000002[tab]	We have trouble scoring.
0000000003[tab]	It was Janet Maslin.

Il est important que les transcriptions soient parfaitement fidèles au contenu audio correspondant. Les erreurs de transcription entraînent une perte de qualité pendant l’entraînement.

Audio long + transcription (préversion)

Notes

Pour Audio long + transcription (préversion), seules les langues suivantes sont prises en charge : chinois (mandarin, simplifié), anglais (Inde), anglais (Royaume-Uni), anglais (États-Unis), français (France), allemand (Allemagne), italien (Italie), japonais (Japon), portugais (Brésil) et espagnol (Mexique).

Dans certains cas, vous n’aurez peut-être pas de contenu audio segmenté à disposition. Speech Studio peut vous aider à segmenter de longs fichiers audio et à créer des transcriptions. Le service de segmentation d’audio long utilise la fonctionnalité d’API de transcription par lots de la reconnaissance vocale.

Pendant le traitement de la segmentation, vos fichiers audio et les transcriptions sont aussi envoyés au service Custom Speech de façon à affiner le modèle de reconnaissance et ainsi améliorer l’exactitude de vos données. Aucune donnée n’est conservée pendant ce processus. À l’issue de la segmentation, seuls les énoncés segmentés et leurs transcriptions correspondantes seront stockés pour vos besoins de téléchargement et d’entraînement.

Notes

Ce service est facturé dans le cadre de l’utilisation de votre abonnement de reconnaissance vocale. Le service de segmentation d’audio long est pris en charge uniquement avec les ressources Speech standard (S0).

Données audio pour l’audio long + transcription

Suivez ces recommandations au moment de préparer le contenu audio à segmenter.

Propriété	Valeur
Format de fichier	RIFF (.wav) ou .mp3, regroupé dans un fichier .zip
Nom de fichier	Caractères de nom de fichier pris en charge par le système d’exploitation Windows, avec l’extension .wav. Les caractères `\ / : * ? " < > \\|` ne sont pas autorisés. Il ne peut pas commencer ou se terminer par un espace, et ne peut pas commencer par un point. Noms de fichiers en double non autorisés.
Taux d’échantillonnage	Lorsque vous créez une voix neuronale personnalisée, une fréquence de 24 000 Hz est nécessaire.
Format d’échantillonnage	RIFF (.wav) : PCM, au moins 16 bits MP3 : vitesse de transmission d’au moins 256 kbits/s
Durée du contenu audio	Plus de 20 secondes
Format d’archive	.zip
Taille d’archive maximale	2 048 Mo, au plus 1 000 fichiers audio inclus

Notes

Le taux d’échantillonnage par défaut d’une voix neuronale personnalisée s’élève à 24 000 Hz. Les fichiers audio dont le taux d’échantillonnage est inférieur à 16 000 Hz sont rejetés. Vos fichiers audio dont le taux d’échantillonnage est supérieur à 16 000 Hz et inférieurs à 24 000 Hz sont échantillonnés à 24 000 Hz pour entraîner une voix neuronale. Nous vous recommandons d’utiliser un taux d’échantillonnage de 24 000 Hz pour vos données d’entraînement.

Tous les fichiers audio doivent être regroupés dans un fichier zip. Il est possible de placer des fichiers .wav et des fichiers .mp3 dans le même fichier zip. Par exemple, vous pouvez charger un fichier audio de 45 secondes nommé « kingstory.wav » et un fichier audio de 200 secondes nommé « queenstory.mp3 » dans le même fichier zip. Tous les fichiers .mp3 seront convertis au format .wav à l’issue du traitement.

Données de transcription pour l’audio long + transcription

Les transcriptions doivent être préparées selon les spécifications listées dans ce tableau. Chaque fichier audio doit être mis en correspondance avec une transcription.

Propriété	Valeur
Format de fichier	Texte brut (.txt), regroupé dans un fichier .zip
Nom de fichier	Utilisez le nom du fichier audio correspondant
Format d’encodage	ANSI, ASCII, UTF-8, UTF-8-BOM, UTF-16-LE ou UTF-16-BE. Pour zh-CN, les encodages ANSI et ASCII ne sont pas pris en charge.
Nb d’énoncés par ligne	Aucune limite
Taille maximale du fichier	2 048 Mo

Tous les fichiers de transcriptions de ce type de données doivent être regroupés dans un fichier zip. Par exemple, vous pouvez charger un fichier audio de 45 secondes nommé « kingstory.wav » et un fichier audio de 200 secondes nommé « queenstory.mp3 » dans le même fichier zip. Vous devez charger un autre fichier zip contenant les deux transcriptions correspondantes, l’une nommée « kingstory.txt » et l’autre « queenstory.txt ». Dans chaque fichier texte brut, vous fournissez la transcription complète correcte pour le contenu audio correspondant.

Une fois le jeu de données chargé, nous vous aiderons à segmenter le fichier audio en énoncés sur la base de la transcription fournie. Vous pouvez vérifier les énoncés segmentés et les transcriptions correspondantes en téléchargeant le jeu de données. Des ID uniques sont attribués automatiquement aux énoncés segmentés. Il est important de vérifier que les transcriptions que vous fournissez sont 100 % exactes. La présence d’erreurs dans les transcriptions peut réduire la précision pendant la segmentation audio et occasionner des pertes de qualité pendant la phase d’entraînement qui vient après.

Audio uniquement (préversion)

Notes

Pour Audio uniquement (préversion), seules les langues suivantes sont prises en charge : chinois (mandarin, simplifié), anglais (Inde), anglais (Royaume-Uni), anglais (États-Unis), français (France), allemand (Allemagne), italien (Italie), japonais (Japon), portugais (Brésil) et espagnol (Mexique).

Si vous n’avez pas de transcriptions pour vos enregistrements audio, utilisez l’option Audio uniquement pour charger vos données. Notre système peut vous aider à segmenter et transcrire vos fichiers audio. Gardez à l’esprit que l’utilisation de ce service vous est facturée au titre de votre abonnement de reconnaissance vocale.

Suivez ces recommandations pendant la préparation du contenu audio.

Notes

Le service de segmentation de contenu audio de longue durée exploite la fonctionnalité de transcription par lots de la reconnaissance vocale, qui prend uniquement en charge les utilisateurs disposant d’un abonnement standard (S0).

Propriété	Valeur
Format de fichier	RIFF (.wav) ou .mp3, regroupé dans un fichier .zip
Nom de fichier	Caractères de nom de fichier pris en charge par le système d’exploitation Windows, avec l’extension .wav. Les caractères `\ / : * ? " < > \\|` ne sont pas autorisés. Il ne peut pas commencer ou se terminer par un espace, et ne peut pas commencer par un point. Noms de fichiers en double non autorisés.
Taux d’échantillonnage	Lorsque vous créez une voix neuronale personnalisée, une fréquence de 24 000 Hz est nécessaire.
Format d’échantillonnage	RIFF (.wav) : PCM, au moins 16 bits MP3 : vitesse de transmission d’au moins 256 kbits/s
Durée du contenu audio	Aucune limite
Format d’archive	.zip
Taille d’archive maximale	2 048 Mo, au plus 1 000 fichiers audio inclus

Notes

Le taux d’échantillonnage par défaut d’une voix neuronale personnalisée s’élève à 24 000 Hz. Vos fichiers audio dont le taux d’échantillonnage est supérieur à 16 000 Hz et inférieurs à 24 000 Hz sont échantillonnés à 24 000 Hz pour entraîner une voix neuronale. Nous vous recommandons d’utiliser un taux d’échantillonnage de 24 000 Hz pour vos données d’entraînement.

Tous les fichiers audio doivent être regroupés dans un fichier zip. Une fois le jeu de données chargé, le service Speech vous aide à segmenter le fichier audio en énoncés à partir de notre service de transcription par lots. Des ID uniques sont attribués automatiquement aux énoncés segmentés. Les transcriptions correspondantes sont générées via la reconnaissance vocale. Tous les fichiers .mp3 seront convertis au format .wav à l’issue du traitement. Vous pouvez vérifier les énoncés segmentés et les transcriptions correspondantes en téléchargeant le jeu de données.

Données de formation pour la voix neuronale personnalisée

Types de données d’entraînement

Énoncés individuels + transcription correspondante

Données audio pour les énoncés individuels + transcription correspondante

Données de transcription pour les énoncés individuels + transcription correspondante

Audio long + transcription (préversion)

Données audio pour l’audio long + transcription

Données de transcription pour l’audio long + transcription

Audio uniquement (préversion)

Étapes suivantes

Ressources supplémentaires