Erstellen von menschenmarkierten Transkriptionen

Artikel
01/19/2024

Humantranskriptionen sind wortwörtliche Transkriptionen einer Audiodatei. Sie verwenden Humantranskriptionen, um die Erkennungsgenauigkeit zu verbessern, insbesondere wenn Wörter gelöscht oder nicht ordnungsgemäß ersetzt werden. Dieser Leitfaden kann Ihnen dabei helfen, qualitativ hochwertige Transkriptionen zu erstellen.

Eine große Stichprobe von Transkriptionsdaten ist erforderlich, um die Erkennung zu verbessern. Wir empfehlen die Bereitstellung von Audiodaten für eine Dauer zwischen einer und 20 Stunden. Der Speech-Dienst verwendet bis zu 20 Stunden Audiodaten für das Training. Dieser Leitfaden enthält Abschnitte für US-Englisch, Mandarin-Chinesisch und deutsche Gebietsschemata.

Die Transkriptionen für alle WAV-Dateien sind in einer einzelnen Nur-Text-Datei (.txt oder .tsv) enthalten. Jede Zeile der Transkriptionsdatei enthält den Namen einer der Audiodateien, gefolgt von der entsprechenden Transkription. Der Dateiname und die Transkription werden jeweils durch ein Tabulatorzeichen (\t) getrennt.

Beispiel:

speech01.wav	speech recognition is awesome
speech02.wav	the quick brown fox jumped all over the place
speech03.wav	the lazy dog was not amused

Der Text der Transkriptionen wird normalisiert, damit sie vom System verarbeitet werden können. Vor dem Hochladen des Datasets müssen jedoch einige wichtige Normalisierungen vorgenommen werden.

Menschenmarkierte Transkriptionen für andere Sprachen als Englisch oder Chinesisch (Mandarin) müssen UTF-8-codiert sein und eine Bytereihenfolge-Marke aufweisen. Weitere Transkriptionsanforderungen für Gebietsschemata finden Sie in den folgenden Abschnitten.

de-DE

Menschenmarkierte Transkriptionen für Audioaufnahmen in Englisch müssen als Nur-Text ausschließlich in ASCII-Zeichen bereitgestellt werden. Vermeiden Sie die Verwendung von Lateinisch-1- oder Unicode-Interpunktionszeichen. Diese Zeichen werden oft versehentlich beim Kopieren von Text aus einem Textverarbeitungsprogramm oder beim Erfassen von Daten aus Webseiten hinzugefügt. Wenn solche Zeichen vorhanden sind, stellen Sie sicher, dass sie durch die entsprechenden ASCII-Zeichen ersetzt werden.

Folgende Rollen stehen beispielsweise zur Verfügung:

Nicht zu verwendende Zeichen	Substitution	Notizen
“Hello world”	"Hello world"	Die öffnenden und schließenden Anführungszeichen werden durch entsprechende ASCII-Zeichen ersetzt.
John’s day	John's day	Das Apostroph wird durch das entsprechende ASCII-Zeichen ersetzt.
It was good—no, it was great!	it was good--no, it was great!	Der Gedankenstrich wird durch zwei Bindestriche ersetzt.

Textnormalisierung für Englisch (USA)

Textnormalisierung ist die Transformation von Wörtern in ein konsistentes Format, das beim Trainieren eines Modells verwendet wird. Einige Normalisierungsregeln werden automatisch auf Text angewendet, doch wird empfohlen, beim Vorbereiten der menschenmarkierten Transkriptionsdaten die folgenden Richtlinien zu beachten:

Schreiben Sie Abkürzungen in Wörtern aus.
Schreiben Sie nicht standardmäßige numerische Zeichenfolgen in Wörtern aus (z.B. Buchhaltungsbegriffe).
Nicht alphabetische Zeichen oder gemischte alphanumerische Zeichen müssen entsprechend ihrer Aussprache transkribiert werden.
Abkürzungen, die als Wörter ausgesprochen werden, dürfen nicht bearbeitet werden (z.B. „Radar“, „Laser“, „RAM“ oder „NATO“).
Schreiben Sie Abkürzungen, die als einzelne Buchstaben ausgesprochen werden, mit jeweils einem Leerzeichen zwischen den einzelnen Buchstaben aus.
Wenn Sie Audiodaten verwenden, transkribieren Sie Zahlen als Worte, die mit der Tonspur übereinstimmen, zum Beispiel kann „101“ auf Englisch als „one oh one“ oder „one hundred and one“ ausgesprochen werden.
Vermeiden Sie es, mehr als dreimal Zeichen, Wörter oder Wortgruppen zu wiederholen, zum Beispiel „yeah yeah yeah yeah“. Der Sprachdienst kann Zeilen mit solchen Wiederholungen löschen.

Es folgen einige Beispiele für die Normalisierung, die Sie für die Transkription durchführen sollten:

Ursprünglicher Text	Text nach der Normalisierung (Person)
Dr. Bruce Banner	Doctor Bruce Banner
James Bond, 007	James Bond, double oh seven
Ke$ha	Kesha
How long is the 2x4	How long is the two by four
The meeting goes from 1-3pm	The meeting goes from one to three pm
My blood type is O+	My blood type is O positive
Water is H20	Water is H 2 O
Play OU812 by Van Halen	Play O U 8 1 2 by Van Halen
UTF-8 with BOM	U T F 8 with BOM
It costs $3.14	It costs three fourteen

Die folgenden Normalisierungsregeln werden automatisch auf Transkriptionen angewendet:

Verwenden von Kleinbuchstaben
Entfernen aller Interpunktionszeichen außer Apostrophen in Wörtern
Erweitern von Zahlen in Wörter/gesprochene Form, z.B. Dollarangaben

Es folgen einige Beispiele für die Normalisierung, die automatisch für die Transkription durchgeführt wird:

Ursprünglicher Text	Text nach der Normalisierung (automatisch)
"Holy cow!" said Batman.	holy cow said batman
"What?" said Batman's sidekick, Robin.	what said batman's sidekick robin
Go get -em!	go get em
I'm double-jointed	I'm double jointed
104 Elm Street	one oh four Elm street
Tune to 102.7	tune to one oh two point seven
Pi is about 3.14	pi is about three point one four

de-DE

Menschenmarkierte Transkriptionen für Audioaufnahmen in Deutsch müssen UTF-8-codiert sein und eine Bytereihenfolge-Marke aufweisen.

Textnormalisierung für Deutsch

Schreiben Sie Dezimaltrennzeichen als Komma (,) und nicht als Punkt (.).
Schreiben Sie Zeittrennzeichen als Doppelpunkt (:) und nicht als Punkt (.) (Beispiel: 12:00 Uhr).
Abkürzungen wie „ca.“ werden nicht ersetzt. Es empfiehlt sich, die vollständige gesprochene Form zu verwenden.
Die vier wichtigsten mathematischen Operatoren (+, -, * und /) werden entfernt. Es wird empfohlen, sie durch die jeweilige Schriftform zu ersetzen: „plus“, „minus“, „mal“ und „geteilt“.
Vergleichsoperatoren werden entfernt (=, < und >). Wir empfehlen, sie durch „gleich“, „kleiner als“ und „grösser als“ zu ersetzen.
Schreiben Sie Brüche wie 3/4 in Schriftform (Beispiel: „drei viertel“ anstatt 3/4).
Ersetzen Sie das Symbol „€“ durch die Schriftform „Euro“.

Es folgen einige Beispiele für die Normalisierung, die Sie für die Transkription durchführen sollten:

Ursprünglicher Text	Text nach Normalisierung durch den Benutzer	Text nach Normalisierung durch das System
Es ist 12.23 Uhr	Es ist 12:23 Uhr	es ist zwölf uhr dreiundzwanzig
{12,45}	{12,45}	zwölf komma vier fünf
2 + 3 - 4	2 plus 3 minus 4	zwei plus drei minus vier

Die folgenden Normalisierungsregeln werden automatisch auf Transkriptionen angewendet:

Verwenden von Kleinbuchstaben für sämtlichen Text
Entfernen aller Interpunktionszeichen, einschließlich verschiedener Typen von Anführungszeichen ("test", 'test', „test“ oder «test» können verwendet werden)
Verwerfen aller Zeilen mit Sonderzeichen des folgenden Zeichensatzes: ¢ ¤ ¥ ¦ § © ª ¬ ® ° ± ² µ × ÿ Ø¬¬
Erweitern von Zahlen in die Schriftform, einschließlich Dollar-/Euroangaben
Akzeptieren von Umlauten nur für a, o und u; Andere werden durch „th“ ersetzt oder verworfen.

Es folgen einige Beispiele für die Normalisierung, die automatisch für die Transkription durchgeführt wird:

Ursprünglicher Text	Text nach der Normalisierung
Frankfurter Ring	frankfurter ring
¡Eine Frage!	eine frage
Wir, haben	wir haben

ja-JP

In „Japanisch“ (ja-JP) gibt es für jeden Satz eine maximale Länge von 90 Zeichen. Zeilen mit längeren Sätzen werden verworfen. Fügen Sie einen Punkt dazwischen ein, um einen längeren Text hinzuzufügen.

zh-CN

Menschenmarkierte Transkriptionen für Audioaufnahmen in Chinesisch (Mandarin) müssen UTF-8-codiert sein und eine Bytereihenfolge-Marke aufweisen. Vermeiden Sie die Verwendung von Interpunktionszeichen halber Breite. Diese Zeichen können unbeabsichtigt eingefügt werden, wenn die Daten in einem Textverarbeitungsprogramm vorbereitet oder aus Webseiten erfasst werden. Wenn solche Zeichen vorhanden sind, stellen Sie sicher, dass sie durch die entsprechenden Zeichen normaler Breite ersetzt werden.

Folgende Rollen stehen beispielsweise zur Verfügung:

Nicht zu verwendende Zeichen	Substitution	Notizen
"你好"	"你好"	Die öffnenden und schließenden Anführungszeichen wurden durch entsprechende Zeichen ersetzt.
需要什么帮助?	需要什么帮助？	Das Fragezeichen wird durch das entsprechende Zeichen ersetzt.

Textnormalisierung für Chinesisch (Mandarin)

Schreiben Sie Abkürzungen in Wörtern aus.
Schreiben Sie numerische Zeichenfolgen wie in gesprochener Form aus.

Es folgen einige Beispiele für die Normalisierung, die Sie für die Transkription durchführen sollten:

Ursprünglicher Text	Text nach der Normalisierung
我今年 21	我今年二十一
3 号楼 504	三号楼五零四

Die folgenden Normalisierungsregeln werden automatisch auf Transkriptionen angewendet:

Entfernen aller Interpunktionszeichen.
Erweitern von Zahlen in die gesprochene Form.
Konvertieren von Buchstaben normaler Breite in Buchstaben halber Breite
Verwenden von Großbuchstaben für alle englischen Wörter.

Im Folgenden finden Sie einige Beispiele für die Normalisierung der automatischen Transkription:

Ursprünglicher Text	Text nach der Normalisierung
3.1415	三点一四一五
￥ 3.5	三元五角
w f y z	W F Y Z
1992 年 8 月 8 日	一九九二年八月八日
你吃饭了吗?	你吃饭了吗
下午 5:00 的航班	下午五点的航班
我今年 21 岁	我今年二十一岁

Erstellen von menschenmarkierten Transkriptionen

de-DE

Textnormalisierung für Englisch (USA)

de-DE

Textnormalisierung für Deutsch

ja-JP

zh-CN

Textnormalisierung für Chinesisch (Mandarin)

Nächste Schritte

Zusätzliche Ressourcen