Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Lorsque vous êtes prêt à créer une voix personnalisée pour votre application, la première étape consiste à collecter des enregistrements audio et des scripts associés pour démarrer le réglage de la voix professionnelle. La « voix personnalisée » est un terme parapluie qui comprend à la fois le réglage de la voix professionnelle et la voix personnelle. Le service Speech utilise ces données pour l’optimisation de la voix professionnelle, créant ainsi un réglage vocal unique pour correspondre à la voix dans les enregistrements. Après avoir affiné une voix professionnelle, vous pouvez commencer à synthétiser la parole dans vos applications.
Conseil
Pour créer une voix à des fins de production, nous vous recommandons de faire appel aux services d’un studio d’enregistrement et d’une voix professionnelle. Pour plus d’informations, consultez enregistrer des exemples vocaux pour le réglage précis de la voix professionnelle.
Types de données pour le réglage précis de la voix professionnelle
Un jeu de données pour l’optimisation vocale professionnelle comprend des enregistrements audio et un fichier texte avec les transcriptions associées. Chaque fichier audio doit contenir un seul énoncé (une seule phrase ou un seul tour pour un système de dialogues) et durer moins de 15 secondes.
Dans certains cas, vous ne disposerez peut-être pas encore du jeu de données approprié. Vous pouvez tester l’optimisation vocale professionnelle avec des fichiers audio disponibles, courts ou longs, avec ou sans transcriptions.
Ce tableau répertorie les types de données et la façon dont chacun est utilisé pour le réglage précis de la voix professionnelle.
| Type de données | Descriptif | Quand l’utiliser | Traitement supplémentaire nécessaire | Traité par |
|---|---|---|---|---|
| Énoncés individuels + transcription correspondante | Collection (.zip) de fichiers audio (.wav) correspondant à des énoncés individuels. Chaque fichier audio est limité à 15 secondes et est associé à une transcription formatée (.txt). | Enregistrements professionnels avec transcriptions correspondantes | Prêt pour un réglage précis. | Segmenté |
| Audio long + transcription | Collection (.zip) de fichiers audio longs et non segmentés (.wav ou .mp3, de plus de 20 secondes, au plus 1 000 fichiers audio), associés à une collection de transcriptions (.zip) qui contient tous les mots prononcés. | Vous disposez de fichiers audio et des transcriptions correspondantes, mais ils ne sont pas segmentés en énoncés. | Segmentation (à l’aide de la transcription Batch). Transformation du format audio partout où cela est nécessaire. |
Segmenté, contextuel |
| Audio uniquement (préversion) | Collection (.zip) de fichiers audio (.wav ou .mp3, au plus 1 000 fichiers audio) sans transcription. | Vous disposez uniquement de fichiers audio, sans transcriptions. | Segmentation + génération de transcriptions (à l’aide de la transcription Batch). Transformation du format audio partout où cela est nécessaire. |
Segmenté, contextuel |
Les fichiers doivent être regroupées par type dans un jeu de données et chargés sous forme de fichier zip. Chaque jeu de données ne peut contenir qu’un seul type de données.
Notes
Le nombre maximal de jeux de données qu’il est autorisé d’importer par abonnement est de 500 fichiers zip pour les utilisateurs disposant d’un abonnement standard (S0).
Si traité en mode contextuel, l’audio serait conservé dans son intégralité pour préserver les informations contextuelles, assurant ainsi des intonations plus naturelles.
Énoncés individuels + transcription correspondante
Vous pouvez préparer les enregistrements d’énoncés individuels et la transcription correspondante de deux façons différentes : Soit en écrivant un script et en le faisant lire par une voix professionnelle, soit en utilisant un enregistrement audio disponible publiquement et en le transcrivant en texte. Dans ce dernier cas, éliminez les disfluences dans les fichiers audio telles que les « euh » et autres sons de remplissage, bégaiements, mots marmonnés ou erreurs de prononciation.
Pour obtenir un modèle de voix de qualité satisfaisante, créez les enregistrements dans une pièce silencieuse avec un microphone de qualité. Il est essentiel de faire attention à l’homogénéité du volume, au débit, à la tonalité et de s’exprimer de manière expressive.
Pour obtenir des exemples de format de données, reportez-vous à l’exemple de jeu de données sur GitHub. L’exemple de jeu de données inclut l’exemple de script et l’audio associé.
Données audio pour les énoncés individuels + transcription correspondante
Chaque fichier audio doit contenir un seul énoncé (une seule phrase ou un seul tour pour un système de dialogues) et durer moins de 15 secondes. La langue parlée doit être identique dans tous les fichiers. Les voix de synthèse vocale personnalisées multilingues ne sont pas prises en charge, à l’exception de la combinaison chinois-anglais. Chaque fichier audio doit avoir un nom de fichier unique avec l’extension de nom de fichier .wav.
Suivez ces recommandations pendant la préparation du contenu audio.
| Propriété | Valeur |
|---|---|
| Format de fichier | RIFF (.wav), regroupé dans un fichier .zip |
| Nom de fichier | Caractères de nom de fichier pris en charge par le système d’exploitation Windows, avec l’extension .wav. Les caractères \ / : * ? " < > \| ne sont pas autorisés. Il ne peut pas commencer ou se terminer par un espace, et ne peut pas commencer par un point. Noms de fichiers en double non autorisés. |
| Taux d’échantillonnage | 24 KHz et plus requis lors du réglage précis d’une voix professionnelle. |
| Format d’échantillonnage | PCM, au moins 16 bits |
| Durée du contenu audio | Moins de 15 secondes |
| Format d’archive | .zip |
| Taille d’archive maximale | 2 048 Mo |
Notes
Le taux d’échantillonnage par défaut pour le réglage de la voix professionnelle est de 24 KHz. Les fichiers audio dont le taux d’échantillonnage est inférieur à 16 000 Hz sont rejetés. Si un fichier .zip contient des fichiers .wav dont le taux d’échantillonnage est différent, seuls ceux dont ce taux est supérieur ou égal à 16 000 Hz sont importés. Vos fichiers audio avec un taux d’échantillonnage supérieur à 16 000 Hz et inférieur à 24 KHz seront échantillonnés à 24 KHz pour le réglage précis. Il est recommandé d’utiliser un taux d’échantillonnage de 24 KHz et plus pour vos données de réglage précis.
Données de transcription pour les énoncés individuels + transcription correspondante
Le fichier de transcription est un fichier texte brut. Suivez ces recommandations pour préparer votre transcriptions.
| Propriété | Valeur |
|---|---|
| Format de fichier | Texte brut (.txt) |
| Format d’encodage | ANSI, ASCII, UTF-8, UTF-8-BOM, UTF-16-LE ou UTF-16-BE. Pour zh-CN, les encodages ANSI et ASCII ne sont pas pris en charge. |
| Nb d’énoncés par ligne | Un – Chaque ligne du fichier de transcription doit contenir le nom d’un des fichiers audio, suivi de la transcription correspondante. Vous devez utiliser une tabulation (\t) pour séparer le nom du fichier et la transcription. |
| Taille maximale du fichier | 2 048 Mo |
Voici un exemple d’organisation des transcriptions, énoncé par énoncé, dans un même fichier .txt :
0000000001[tab] This is the waistline, and it's falling.
0000000002[tab] We have trouble scoring.
0000000003[tab] It was Janet Maslin.
Il est important que les transcriptions soient parfaitement fidèles au contenu audio correspondant. Les erreurs dans les transcriptions introduisent une perte de qualité pendant le processus de réglage précis.
Audio long + transcription (préversion)
Notes
Pour l’audio long + transcription (préversion), seules ces langues sont prises en charge : Chinois (Mandarin, Simplifié), Chinois (Cantonese, Traditionnel), Chinois (Taïwanais mandarin), Anglais (Inde), Anglais (Royaume-Uni), Français (France), Allemand (Allemagne), Hindi (Inde), Italien (Italie), Japonais (Japon), Portugais (Brésil), Espagnol (Espagne) et Espagnol (Mexique).
Traité comme contextuel est actuellement disponible uniquement pour le chinois (mandarin, simplifié) et l’anglais (États-Unis).
Dans certains cas, vous n’aurez peut-être pas de contenu audio segmenté à disposition. Speech Studio peut vous aider à segmenter de longs fichiers audio et à créer des transcriptions. Le service de segmentation d’audio long utilise la fonctionnalité d’API de transcription par lots de la reconnaissance vocale.
Le service offre deux modes de traitement :
- Segmenté : mode de traitement par défaut qui fonctionne avec toutes les langues prises en charge
- Contextuel : mode amélioré qui conserve l’audio dans son ensemble pour conserver les informations contextuelles pour des intonations plus naturelles.
Pendant le traitement de la segmentation, vos fichiers audio et les transcriptions sont aussi envoyés au service Custom Speech de façon à affiner le modèle de reconnaissance et ainsi améliorer l’exactitude de vos données. Aucune donnée n’est conservée pendant ce processus. Une fois la segmentation effectuée, seuls les énoncés segmentés et leurs transcriptions de mappage sont stockés pour votre téléchargement et réglage précis.
Données audio pour l’audio long + transcription
Suivez ces recommandations au moment de préparer le contenu audio à segmenter.
| Propriété | Valeur |
|---|---|
| Format de fichier | RIFF (.wav) ou .mp3, regroupé dans un fichier .zip |
| Nom de fichier | Caractères de nom de fichier pris en charge par le système d’exploitation Windows, avec l’extension .wav. Les caractères \ / : * ? " < > \| ne sont pas autorisés. Il ne peut pas commencer ou se terminer par un espace, et ne peut pas commencer par un point. Noms de fichiers en double non autorisés. |
| Taux d’échantillonnage | 24 KHz et plus requis lors du réglage précis d’une voix professionnelle. |
| Format d’échantillonnage | RIFF (.wav) : PCM, au moins 16 bits MP3 : vitesse de transmission d’au moins 256 kbits/s |
| Durée du contenu audio | Plus de 30 secondes |
| Format d’archive | .zip |
| Taille d’archive maximale | 2 048 Mo, au plus 1 000 fichiers audio inclus |
Notes
Le taux d’échantillonnage par défaut pour le réglage de la voix professionnelle est de 24 KHz. Les fichiers audio dont le taux d’échantillonnage est inférieur à 16 000 Hz sont rejetés. Vos fichiers audio avec un taux d’échantillonnage supérieur à 16 000 Hz et inférieur à 24 KHz seront échantillonnés à 24 KHz pour le réglage précis. Il est recommandé d’utiliser un taux d’échantillonnage de 24 KHz et plus pour vos données de réglage précis.
Les énoncés segmentés doivent idéalement être d'une durée comprise entre 5 et 15 secondes. Pour obtenir des résultats de segmentation optimaux, il est recommandé d’inclure des pauses naturelles de 0,5 à 1 seconde toutes les 5 à 15 secondes de parole, de préférence à la fin des phrases ou des phrases.
Tous les fichiers audio doivent être regroupés dans un fichier zip. Il est possible de placer des fichiers .wav et des fichiers .mp3 dans le même fichier zip. Par exemple, vous pouvez charger un fichier audio de 45 secondes nommé « kingstory.wav » et un fichier audio de 200 secondes nommé « queenstory.mp3 » dans le même fichier zip. Tous les fichiers .mp3 seront convertis au format .wav à l’issue du traitement.
Données de transcription pour l’audio long + transcription
Les transcriptions doivent être préparées selon les spécifications listées dans ce tableau. Chaque fichier audio doit être mis en correspondance avec une transcription.
| Propriété | Valeur |
|---|---|
| Format de fichier | Texte brut (.txt), regroupé dans un fichier .zip |
| Nom de fichier | Utilisez le nom du fichier audio correspondant |
| Format d’encodage | ANSI, ASCII, UTF-8, UTF-8-BOM, UTF-16-LE ou UTF-16-BE. Pour zh-CN, les encodages ANSI et ASCII ne sont pas pris en charge. |
| Nb d’énoncés par ligne | Aucune limite |
| Taille maximale du fichier | 2 048 Mo |
Tous les fichiers de transcriptions de ce type de données doivent être regroupés dans un fichier zip. Par exemple, vous pouvez charger un fichier audio de 45 secondes nommé « kingstory.wav » et un fichier audio de 200 secondes nommé « queenstory.mp3 » dans le même fichier zip. Vous devez charger un autre fichier zip contenant les deux transcriptions correspondantes, l’une nommée « kingstory.txt » et l’autre « queenstory.txt ». Dans chaque fichier texte brut, vous fournissez la transcription complète correcte pour le contenu audio correspondant.
Une fois le jeu de données chargé, nous vous aiderons à segmenter le fichier audio en énoncés sur la base de la transcription fournie. Vous pouvez vérifier les énoncés segmentés et les transcriptions correspondantes en téléchargeant le jeu de données. Des ID uniques sont attribués automatiquement aux énoncés segmentés. Il est important de vérifier que les transcriptions que vous fournissez sont 100 % exactes. Les erreurs dans les transcriptions peuvent réduire la précision pendant la segmentation audio et introduire une perte de qualité dans la phase de réglage précis qui vient plus tard.
Audio uniquement (préversion)
Notes
Pour l’audio uniquement (préversion), seules ces langues sont prises en charge : chinois (mandarin, simplifié), chinois (cantonais, traditionnel), chinois (Taïwanais mandarin), anglais (Inde), anglais (Royaume-Uni), anglais (États-Unis), français (France), allemand (Allemagne), Hindi (Inde), Italien (Italie), Japonais (Japon), Portugais (Brésil), Espagnol (Espagne) et Espagnol (Mexique).
Traité comme contextuel est actuellement disponible uniquement pour le chinois (mandarin, simplifié) et l’anglais (États-Unis).
Si vous n’avez pas de transcriptions pour vos enregistrements audio, utilisez l’option Audio uniquement pour charger vos données. Notre système peut vous aider à segmenter et transcrire vos fichiers audio.
Le service offre deux modes de traitement :
- Segmenté : mode de traitement par défaut qui fonctionne avec toutes les langues prises en charge
- Contextuel : mode amélioré qui conserve l’audio dans son ensemble pour conserver les informations contextuelles pour des intonations plus naturelles.
Suivez ces recommandations pendant la préparation du contenu audio.
| Propriété | Valeur |
|---|---|
| Format de fichier | RIFF (.wav) ou .mp3, regroupé dans un fichier .zip |
| Nom de fichier | Caractères de nom de fichier pris en charge par le système d’exploitation Windows, avec l’extension .wav. Les caractères \ / : * ? " < > \| ne sont pas autorisés. Il ne peut pas commencer ou se terminer par un espace, et ne peut pas commencer par un point. Noms de fichiers en double non autorisés. |
| Taux d’échantillonnage | 24 KHz et plus requis lors du réglage précis d’une voix professionnelle. |
| Format d’échantillonnage | RIFF (.wav) : PCM, au moins 16 bits MP3 : vitesse de transmission d’au moins 256 kbits/s |
| Durée du contenu audio | Aucune limite |
| Format d’archive | .zip |
| Taille d’archive maximale | 2 048 Mo, au plus 1 000 fichiers audio inclus |
Notes
Le taux d’échantillonnage par défaut pour le réglage de la voix professionnelle est de 24 KHz. Vos fichiers audio avec un taux d’échantillonnage supérieur à 16 000 Hz et inférieur à 24 KHz seront échantillonnés à 24 KHz pour le réglage précis. Il est recommandé d’utiliser un taux d’échantillonnage de 24 KHz et plus pour vos données de réglage précis.
Les énoncés segmentés doivent idéalement être d'une durée comprise entre 5 et 15 secondes. Pour obtenir des résultats de segmentation optimaux, il est recommandé d’inclure des pauses naturelles de 0,5 à 1 seconde toutes les 5 à 15 secondes de parole, de préférence à la fin des phrases ou des phrases.
Tous les fichiers audio doivent être regroupés dans un fichier zip. Une fois le jeu de données chargé, le service Speech vous aide à segmenter le fichier audio en énoncés à partir de notre service de transcription par lots. Vous pouvez sélectionner le mode de traitement standard ou contextuel, en fonction de votre langue et de vos besoins. Des ID uniques sont attribués automatiquement aux énoncés segmentés. Les transcriptions correspondantes sont générées via la reconnaissance vocale. Tous les fichiers .mp3 seront convertis au format .wav à l’issue du traitement. Vous pouvez vérifier les énoncés segmentés et les transcriptions correspondantes en téléchargeant le jeu de données.