Comment créer des transcriptions étiquetées à la main

Article
09/19/2024

Les transcriptions étiquetées à la main sont des transcriptions mot pour mot d’un fichier audio. Vous utilisez des transcriptions étiquetées à la main pour évaluer la précision des modèles et ainsi améliorer l’exactitude de la reconnaissance, en particulier lorsque les mots sont supprimés ou remplacés de manière incorrecte. Ce guide peut vous aider à créer des transcriptions de haute qualité.

Un échantillon représentatif de données de transcription est recommandé pour évaluer la précision du modèle. Les données doivent couvrir des prononciations différentes et des orateurs différents, représentant ce que disent les utilisateurs à l’application. Pour les données de test, la durée maximale de chaque fichier audio individuel est de 2 heures.

Un grand échantillon de données de transcription est nécessaire pour améliorer la reconnaissance. Nous vous suggérons de fournir entre 1et 100 heures de données audio. Le service Speech utilise jusqu’à 100 heures d’audio pour l’entraînement (jusqu’à 20 heures pour les modèles plus anciens qui ne sont pas facturés pour l’entraînement). Chaque fichier audio individuel ne doit pas dépasser 40 secondes (jusqu’à 30 secondes pour la personnalisation de Whisper).

Ce guide comprend des sections pour les paramètres régionaux Anglais (US), Chinois mandarin et Allemand.

Les transcriptions de tous les fichiers WAV sont contenues dans un seul fichier en texte brut (.txt ou .tsv). Chaque ligne du fichier de transcription contient le nom d’un des fichiers audio, suivi de la transcription correspondante. Le nom de fichier et la transcription sont séparés par une tabulation (\t).

Par exemple :

speech01.wav	speech recognition is awesome
speech02.wav	the quick brown fox jumped all over the place
speech03.wav	the lazy dog was not amused

Les transcriptions sont normalisées en texte afin que le système puisse les traiter. Toutefois, vous devez effectuer certaines normalisations importantes avant de charger le jeu de données.

Les transcriptions étiquetées à la main pour les langues autres que l’anglais et le chinois mandarin doivent être codées en UTF-8 avec un marqueur d’ordre des octets. Pour connaître les exigences de transcription pour d’autres paramètres régionaux, consultez les sections suivantes.

fr-FR

Les transcriptions étiquetées à la main pour le contenu audio en anglais doivent être fournies sous forme de texte brut, uniquement avec des caractères ASCII. Évitez d’utiliser des caractères de ponctuation Latin-1 ou Unicode. Ces caractères sont souvent ajoutés par inadvertance pendant la copie de texte dans une application de traitement de texte la capture des données dans des pages web. Si ces caractères sont présents, veillez à les mettre à jour par une substitution ASCII appropriée.

Voici quelques exemples :

Caractères à éviter	Substitution	Notes
"Hello world"	"Hello world"	Les guillemets typographiques ouvrants et fermants sont substitués par des caractères ASCII appropriés.
John’s day	John's day	L’apostrophe est substituée par le caractère ASCII approprié.
It was good—no, it was great!	it was good--no, it was great!	Le tiret cadratin est substitué par deux traits d’union.

Normalisation du texte pour l’anglais des États-Unis

La normalisation du texte consiste à transformer les mots dans un format cohérent utilisé pendant l’entraînement d’un modèle. Si certaines règles de normalisation sont automatiquement appliquées au texte, nous vous recommandons cependant de suivre ces recommandations pendant la phase de préparation de données de transcription étiquetées à la main :

Développez les abréviations.
Écrivez les chaînes numériques non standard en lettres (comme les termes de comptabilité).
Les caractères non alphabétiques ou les caractères alphanumériques mixtes doivent être retranscrits comme ils se prononcent.
Les abréviations prononcées comme des mots n’ont pas besoin d’être modifiés (par exemple, « radar », « laser », « RAM » ou « OTAN »).
Écrivez les abréviations dont les lettres se prononcent en les séparant avec un espace.
Si vous utilisez l’audio, transcrivez les nombres en mots correspondant à l’audio (par exemple, « 101 » peut être prononcé « un zéro un » ou « cent un »).
Évitez de répéter des caractères, des mots ou des groupes de mots plus de trois fois, par exemple « oui oui oui oui ». Le service Speech peut supprimer des lignes avec ce type de répétition.

Voici quelques exemples de normalisation à effectuer au niveau de la transcription :

Texte d’origine	Texte après la normalisation (à la main)
Dr. Bruce Banner	Docteur Bruce Banner
James Bond, 007	James Bond, double oh seven
Ke$ha	Kesha
How long is the 2x4	How long is the two by four
The meeting goes from 1-3pm	The meeting goes from one to three pm
My blood type is O+	My blood type is O positive
Water is H20	Water is H 2 O
Play OU812 by Van Halen	Play O U 8 1 2 by Van Halen
UTF-8 with BOM	U T F 8 with BOM
It costs $3.14	It costs three fourteen

Les règles de normalisation suivantes sont automatiquement appliquées aux transcriptions :

Utilisation de lettres minuscules
Suppression de tous les signes de ponctuation, à l’exception des apostrophes dans les mots
Écriture des nombres en lettres/forme parlée, comme les montants en dollars

Voici quelques exemples de normalisation effectuée automatiquement au niveau de la transcription :

Texte d’origine	Texte après la normalisation (automatique)
"Holy cow!" said Batman.	holy cow said batman
"What?" said Batman’s sidekick, Robin.	what said batman’s sidekick robin
Go get -em!	go get em
I’m double-jointed	I'm double jointed
104 Elm Street	one oh four Elm street
Tune to 102.7	tune to one oh two point seven
Pi is about 3.14	pi is about three point one four

de-DE

Les transcriptions étiquetées à la main pour le contenu audio en allemand doivent être encodées en UTF-8 avec un indicateur d’ordre des octets.

Normalisation de texte pour l’allemand

Écrire les décimales sous la forme « , » et non « . ».
Écrire des séparateurs d’heure sous la forme « : » et non « . » (par exemple : 12:00 Uhr).
Les abréviations telles que « ca. » ne sont pas remplacées. Nous vous recommandons d’utiliser la forme parlée complète.
Les quatre principaux opérateurs mathématiques (+, -, * et /) sont supprimés. Nous vous recommandons de les remplacer par leur forme écrite : « plus », « minus », « mal » et « geteilt ».
Les opérateurs de comparaison sont supprimés (=, < et >). Nous vous recommandons de les remplacer par « gleich », « kleiner als » et « grösser als ».
Écrivez les fractions, telles que 3/4, sous forme écrite (par exemple, « drei viertel » au lieu de 3/4).
Remplacez le symbole « € » par la forme écrite « Euro ».

Voici quelques exemples de normalisation à effectuer au niveau de la transcription :

Texte d’origine	Texte après la normalisation utilisateur	Texte après la normalisation système
Es ist 12.23 Uhr	Es ist 12:23 Uhr	es ist zwölf uhr drei und zwanzig uhr
{12.45}	{12,45}	zwölf komma vier fünf
2 + 3 - 4	2 plus 3 minus 4	zwei plus drei minus vier

Les règles de normalisation suivantes sont automatiquement appliquées aux transcriptions :

Utilisation de lettres minuscules pour tout le texte
Suppression de toute la ponctuation, notamment les différents types de guillemets ("test", ’test’, "test„ et «test» sont acceptés)
Suppression des lignes contenant un des caractères spéciaux suivants : ¢ ¤ ¥ ¦ § © ª ¬ ® ° ± ² µ × ÿ Ø¬¬
Écriture des nombres en forme parlée, y compris les montants en dollars ou en euros
Acceptation des trémas uniquement pour a, o et u. Les autres sont remplacés par « th » ou ignorés.

Voici quelques exemples de normalisation effectuée automatiquement au niveau de la transcription :

Texte d’origine	Texte après la normalisation
Frankfurter Ring	frankfurter ring
¡Eine Frage!	eine frage
Wir, haben	wir haben

ja-JP

En japonais (ja-JP), il y a une longueur maximale de 90 caractères pour chaque phrase. Les lignes dont les phrases sont plus longues sont ignorées. Pour ajouter du texte plus long, insérez un point entre deux segments de phrase.

zh-CN

Les transcriptions étiquetées à la main pour le contenu audio en chinois mandarin doivent être encodées en UTF-8 avec un indicateur d’ordre des octets. Évitez l’utilisation des signes de ponctuation de demi-largeur. Ces caractères peuvent être inclus par inadvertance pendant la préparation des données dans un programme de traitement ou la récupération de données dans des pages web. Si ces caractères sont présents, veillez à les mettre à jour par une substitution appropriée avec des caractères à pleine chasse.

Voici quelques exemples :

Caractères à éviter	Substitution	Notes
"你好"	"你好"	Les guillemets typographiques ouvrants et fermants sont substitués par des caractères appropriés.
需要什么帮助?	需要什么帮助？	Le point d’interrogation est substitué par le caractère approprié.

Normalisation de texte pour le chinois Mandarin

Développez les abréviations.
Écrivez les chaînes numériques sous leur forme orale.

Voici quelques exemples de normalisation à effectuer au niveau de la transcription :

Texte d’origine	Texte après la normalisation
我今年 21	我今年二十一
3 号楼 504	三号楼五零四

Les règles de normalisation suivantes sont automatiquement appliquées aux transcriptions :

Suppression de tous les signes de ponctuation.
Écriture des nombres sous la forme orale.
Conversion des lettres pleine largeur en lettres de demi-largeur
Utilisation de lettres majuscules pour tous les mots anglais.

Voici quelques exemples de normalisation automatique de la transcription :

Texte d’origine	Texte après la normalisation
3.1415	三点一四一五
￥ 3.5	三元五角
w f y z	W F Y Z
1992 年 8 月 8 日	一九九二年八月八日
你吃饭了吗?	你吃饭了吗
下午 5:00 的航班	下午五点的航班
我今年 21 岁	我今年二十一岁

Partager via

Comment créer des transcriptions étiquetées à la main

fr-FR

Normalisation du texte pour l’anglais des États-Unis

de-DE

Normalisation de texte pour l’allemand

ja-JP

zh-CN

Normalisation de texte pour le chinois Mandarin

Étapes suivantes

Commentaires

Ressources supplémentaires