Så här skapar du transkriptioner med mänsklig etikett

Artikel
01/22/2024

Transkriptioner som är märkta med människor är transkriptioner ord för ord av en ljudfil. Du använder transkriptioner med mänskliga etiketter för att förbättra igenkänningsprecisionen, särskilt när ord tas bort eller ersätts felaktigt. Den här guiden kan hjälpa dig att skapa högkvalitativa transkriptioner.

Ett stort urval av transkriptionsdata krävs för att förbättra igenkänningen. Vi föreslår att du tillhandahåller mellan 1 och 20 timmars ljuddata. Speech-tjänsten använder upp till 20 timmars ljud för träning. Den här guiden har avsnitt för amerikanska engelska, mandarin kinesiska och tyska språk.

Transkriptionerna för alla WAV-filer finns i en enda oformaterad fil (.txt eller .tsv). Varje rad i transkriptionsfilen innehåller namnet på en av ljudfilerna, följt av motsvarande transkription. Filnamnet och transkriptionen avgränsas med en flik (\t).

Till exempel:

speech01.wav	speech recognition is awesome
speech02.wav	the quick brown fox jumped all over the place
speech03.wav	the lazy dog was not amused

Transkriptionerna är textnormaliserade så att systemet kan bearbeta dem. Du måste dock göra några viktiga normaliseringar innan du laddar upp datauppsättningen.

Transkriptioner som är märkta med människor för andra språk än engelska och mandarinkineser måste vara UTF-8-kodade med en byteordningsmarkör. För andra nationella transkriptionskrav, se följande avsnitt.

en-US

Transkriptioner med mänskliga etiketter för engelskt ljud måste anges som oformaterad text, endast med ASCII-tecken. Undvik att använda latin-1- eller Unicode-skiljetecken. Dessa tecken läggs ofta oavsiktligt till när du kopierar text från ett ordbehandlingsprogram eller skrapar data från webbsidor. Om dessa tecken finns ser du till att uppdatera dem med lämplig ASCII-ersättning.

Några exempel:

Tecken att undvika	Ersättning	Kommentar
"Hello world"	"Hello world"	De inledande och avslutande citattecknen ersätts med lämpliga ASCII-tecken.
Johns dag	Johns dag	Apostrofen ersätts med lämpligt ASCII-tecken.
Det var bra – nej, det var fantastiskt!	Det var bra- nej, det var fantastiskt!	Em-bindestrecket ersätts med två bindestreck.

Textnormalisering för engelska i USA

Textnormalisering är omvandlingen av ord till ett konsekvent format som används vid träning av en modell. Vissa normaliseringsregler tillämpas automatiskt på text, men vi rekommenderar att du använder dessa riktlinjer när du förbereder dina transkriptionsdata med mänsklig etikett:

Skriv ut förkortningar i ord.
Skriv ut icke-standard numeriska strängar i ord (till exempel redovisningsvillkor).
Icke-alfabetiska tecken eller blandade alfanumeriska tecken ska transkriberas som uttalade.
Förkortningar som uttalas som ord bör inte redigeras (till exempel "radar", "laser", "RAM" eller "NATO").
Skriv ut förkortningar som uttalas som separata bokstäver med varje bokstav avgränsad med ett blanksteg.
Om du använder ljud transkriberar du tal som ord som matchar ljudet (till exempel "101" kan uttalas som "en oh en" eller "ett hundra och ett").
Undvik att upprepa tecken, ord eller grupper med ord mer än tre gånger, till exempel "ja ja ja ja". Speech-tjänsten kan släppa rader med en sådan upprepning.

Här är några exempel på normalisering som du bör utföra på transkriptionen:

Ursprunglig text	Text efter normalisering (människa)
Dr Bruce Banderoll	Doctor Bruce Banderoll
James Bond, 007	James Bond, dubbel oh sju
Ke$ha	Kesha
Hur lång är 2x4	Hur länge är de två med fyra
Mötet går från 13:00 till 15:00	Mötet går från ett till tre pm
Min blodtyp är O+	Min blodtyp är O-positiv
Vatten är H20	Vatten är H 2 O
Spela OU812 av Van Halen	Spela O U 8 1 2 av Van Halen
UTF-8 med BOM	U T F 8 med BOM
Det kostar $3.14	Det kostar tre fjorton

Följande normaliseringsregler tillämpas automatiskt på transkriptioner:

Använd gemener.
Ta bort alla skiljetecken utom apostrofer i ord.
Expandera tal till ord/talat formulär, till exempel dollarbelopp.

Här följer några exempel på normalisering som utförs automatiskt på transkriptionen:

Ursprunglig text	Text efter normalisering (automatisk)
»Helig ko!» sade Batman.	heliga ko sade batman
»Vad?» sade Batmans sidekick, Robin.	vad sa Batmans sidekick robin
Gå och hämta dem!	gå och hämta dem
Jag är dubbelledad	Jag är dubbelledad
104 Elm Street	en oh fyra Elm street
Justera till 102,7	justera till en oh två punkt sju
Pi är cirka 3,14	pi är ungefär tre punkt ett fyra

de-DE

Transkriptioner som är märkta med mänskliga etiketter för tyskt ljud måste vara UTF-8-kodade med en byteordningsmarkör.

Textnormalisering för tyska

Skriv decimaltecken som "" och inte ".".
Skriv tidsavgränsare som ":" och inte ".". (till exempel: 12:00 Uhr).
Förkortningar som "ca" ersätts inte. Vi rekommenderar att du använder det fullständiga talade formuläret.
De fyra huvudsakliga matematiska operatorerna (+, -, *och /) tas bort. Vi rekommenderar att du ersätter dem med det skriftliga formuläret: "plus", "minus", "mal" och "geteilt".
Jämförelseoperatorer tas bort (=, <och >). Vi rekommenderar att du ersätter dem med "gleich", "kleiner als" och "grösser als".
Skriv bråktal, till exempel 3/4, i skriftlig form (till exempel "drei viertel" i stället för 3/4).
Ersätt symbolen "€" med dess skriftliga form "Euro".

Här är några exempel på normalisering som du bör utföra på transkriptionen:

Ursprunglig text	Text efter användarnormalisering	Text efter systemnormalisering
Es ist 12.23 Uhr	Es ist 12:23 Uhr	es ist zwölf uhr drei und zwanzig uhr
{12.45}	{12,45}	zwölf komma vier fünf
2 + 3 - 4	2 plus 3 minus 4	zwei plus drei minus vier

Följande normaliseringsregler tillämpas automatiskt på transkriptioner:

Använd gemener för all text.
Ta bort alla skiljetecken, inklusive olika typer av citattecken ("test", "test", "test" och «test» är OK).
Ta bort rader med specialtecken från den här uppsättningen: ¢ ¤ ¥ ¢ § © ª ¬ ® ° ± ² μ × ÿ Ø¬¬.
Utöka tal till talad form, inklusive dollar- eller eurobelopp.
Acceptera umlauts endast för en, o, och du. Andra ersätts med "th" eller ignoreras.

Här följer några exempel på normalisering som utförs automatiskt på transkriptionen:

Ursprunglig text	Text efter normalisering
Frankfurter Ring	frankfurter ring
¡Eine Frage!	eine frage
Wir, haben	wir haben

ja-JP

På japanska (ja-JP) finns det en maximal längd på 90 tecken för varje mening. Rader med längre meningar ignoreras. Om du vill lägga till längre text infogar du en punkt däremellan.

zh-CN

Transkriptioner som är märkta med mänskliga etiketter för kinesiskt mandarinljud måste vara UTF-8 kodade med en byteordningsmarkör. Undvik att använda interpunktionstecken med halv bredd. Dessa tecken kan inkluderas oavsiktligt när du förbereder data i ett ordbehandlingsprogram eller skrapar data från webbsidor. Om dessa tecken finns ser du till att uppdatera dem med lämplig ersättning med full bredd.

Några exempel:

Tecken att undvika	Ersättning	Kommentar
"你好"	"你好"	De inledande och avslutande citattecknen ersätts med lämpliga tecken.
需要什么帮助?	需要什么帮助？	Frågetecknet ersätts med lämpligt tecken.

Textnormalisering för mandarin kinesiska

Skriv ut förkortningar i ord.
Skriv ut numeriska strängar i talat format.

Här är några exempel på normalisering som du bör utföra på transkriptionen:

Ursprunglig text	Text efter normalisering
我今年 21	我今年二十一
3 号楼 504	三号楼五零四

Följande normaliseringsregler tillämpas automatiskt på transkriptioner:

Ta bort alla skiljetecken.
Expandera tal till talat formulär.
Konvertera bokstäver med full bredd till bokstäver med halv bredd.
Använda versaler för alla engelska ord.

Här följer några exempel på automatisk transkriptionsnormalisering:

Ursprunglig text	Text efter normalisering
3.1415	三点一四一五
¥ 3,5	三元五角
w f y z	W F Y Z
1992 年 8 月 8 日	一九九二年八月八日
你吃饭了吗?	你吃饭了吗
下午 5:00 的航班	下午五点的航班
我今年 21 岁	我今年二十一岁

Share via

Så här skapar du transkriptioner med mänsklig etikett

en-US

Textnormalisering för engelska i USA

de-DE

Textnormalisering för tyska

ja-JP

zh-CN

Textnormalisering för mandarin kinesiska

Nästa steg

Ytterligare resurser