Share via


Så här skapar du transkriptioner med mänsklig etikett

Transkriptioner som är märkta med människor är transkriptioner ord för ord av en ljudfil. Du använder transkriptioner med mänskliga etiketter för att förbättra igenkänningsprecisionen, särskilt när ord tas bort eller ersätts felaktigt. Den här guiden kan hjälpa dig att skapa högkvalitativa transkriptioner.

Ett stort urval av transkriptionsdata krävs för att förbättra igenkänningen. Vi föreslår att du tillhandahåller mellan 1 och 20 timmars ljuddata. Speech-tjänsten använder upp till 20 timmars ljud för träning. Den här guiden har avsnitt för amerikanska engelska, mandarin kinesiska och tyska språk.

Transkriptionerna för alla WAV-filer finns i en enda oformaterad fil (.txt eller .tsv). Varje rad i transkriptionsfilen innehåller namnet på en av ljudfilerna, följt av motsvarande transkription. Filnamnet och transkriptionen avgränsas med en flik (\t).

Till exempel:

speech01.wav	speech recognition is awesome
speech02.wav	the quick brown fox jumped all over the place
speech03.wav	the lazy dog was not amused

Transkriptionerna är textnormaliserade så att systemet kan bearbeta dem. Du måste dock göra några viktiga normaliseringar innan du laddar upp datauppsättningen.

Transkriptioner som är märkta med människor för andra språk än engelska och mandarinkineser måste vara UTF-8-kodade med en byteordningsmarkör. För andra nationella transkriptionskrav, se följande avsnitt.

en-US

Transkriptioner med mänskliga etiketter för engelskt ljud måste anges som oformaterad text, endast med ASCII-tecken. Undvik att använda latin-1- eller Unicode-skiljetecken. Dessa tecken läggs ofta oavsiktligt till när du kopierar text från ett ordbehandlingsprogram eller skrapar data från webbsidor. Om dessa tecken finns ser du till att uppdatera dem med lämplig ASCII-ersättning.

Några exempel:

Tecken att undvika Ersättning Kommentar
"Hello world" "Hello world" De inledande och avslutande citattecknen ersätts med lämpliga ASCII-tecken.
Johns dag Johns dag Apostrofen ersätts med lämpligt ASCII-tecken.
Det var bra – nej, det var fantastiskt! Det var bra- nej, det var fantastiskt! Em-bindestrecket ersätts med två bindestreck.

Textnormalisering för engelska i USA

Textnormalisering är omvandlingen av ord till ett konsekvent format som används vid träning av en modell. Vissa normaliseringsregler tillämpas automatiskt på text, men vi rekommenderar att du använder dessa riktlinjer när du förbereder dina transkriptionsdata med mänsklig etikett:

  • Skriv ut förkortningar i ord.
  • Skriv ut icke-standard numeriska strängar i ord (till exempel redovisningsvillkor).
  • Icke-alfabetiska tecken eller blandade alfanumeriska tecken ska transkriberas som uttalade.
  • Förkortningar som uttalas som ord bör inte redigeras (till exempel "radar", "laser", "RAM" eller "NATO").
  • Skriv ut förkortningar som uttalas som separata bokstäver med varje bokstav avgränsad med ett blanksteg.
  • Om du använder ljud transkriberar du tal som ord som matchar ljudet (till exempel "101" kan uttalas som "en oh en" eller "ett hundra och ett").
  • Undvik att upprepa tecken, ord eller grupper med ord mer än tre gånger, till exempel "ja ja ja ja". Speech-tjänsten kan släppa rader med en sådan upprepning.

Här är några exempel på normalisering som du bör utföra på transkriptionen:

Ursprunglig text Text efter normalisering (människa)
Dr Bruce Banderoll Doctor Bruce Banderoll
James Bond, 007 James Bond, dubbel oh sju
Ke$ha Kesha
Hur lång är 2x4 Hur länge är de två med fyra
Mötet går från 13:00 till 15:00 Mötet går från ett till tre pm
Min blodtyp är O+ Min blodtyp är O-positiv
Vatten är H20 Vatten är H 2 O
Spela OU812 av Van Halen Spela O U 8 1 2 av Van Halen
UTF-8 med BOM U T F 8 med BOM
Det kostar $3.14 Det kostar tre fjorton

Följande normaliseringsregler tillämpas automatiskt på transkriptioner:

  • Använd gemener.
  • Ta bort alla skiljetecken utom apostrofer i ord.
  • Expandera tal till ord/talat formulär, till exempel dollarbelopp.

Här följer några exempel på normalisering som utförs automatiskt på transkriptionen:

Ursprunglig text Text efter normalisering (automatisk)
»Helig ko!» sade Batman. heliga ko sade batman
»Vad?» sade Batmans sidekick, Robin. vad sa Batmans sidekick robin
Gå och hämta dem! gå och hämta dem
Jag är dubbelledad Jag är dubbelledad
104 Elm Street en oh fyra Elm street
Justera till 102,7 justera till en oh två punkt sju
Pi är cirka 3,14 pi är ungefär tre punkt ett fyra

de-DE

Transkriptioner som är märkta med mänskliga etiketter för tyskt ljud måste vara UTF-8-kodade med en byteordningsmarkör.

Textnormalisering för tyska

Textnormalisering är omvandlingen av ord till ett konsekvent format som används vid träning av en modell. Vissa normaliseringsregler tillämpas automatiskt på text, men vi rekommenderar att du använder dessa riktlinjer när du förbereder dina transkriptionsdata med mänsklig etikett:

  • Skriv decimaltecken som "" och inte ".".
  • Skriv tidsavgränsare som ":" och inte ".". (till exempel: 12:00 Uhr).
  • Förkortningar som "ca" ersätts inte. Vi rekommenderar att du använder det fullständiga talade formuläret.
  • De fyra huvudsakliga matematiska operatorerna (+, -, *och /) tas bort. Vi rekommenderar att du ersätter dem med det skriftliga formuläret: "plus", "minus", "mal" och "geteilt".
  • Jämförelseoperatorer tas bort (=, <och >). Vi rekommenderar att du ersätter dem med "gleich", "kleiner als" och "grösser als".
  • Skriv bråktal, till exempel 3/4, i skriftlig form (till exempel "drei viertel" i stället för 3/4).
  • Ersätt symbolen "€" med dess skriftliga form "Euro".

Här är några exempel på normalisering som du bör utföra på transkriptionen:

Ursprunglig text Text efter användarnormalisering Text efter systemnormalisering
Es ist 12.23 Uhr Es ist 12:23 Uhr es ist zwölf uhr drei und zwanzig uhr
{12.45} {12,45} zwölf komma vier fünf
2 + 3 - 4 2 plus 3 minus 4 zwei plus drei minus vier

Följande normaliseringsregler tillämpas automatiskt på transkriptioner:

  • Använd gemener för all text.
  • Ta bort alla skiljetecken, inklusive olika typer av citattecken ("test", "test", "test" och «test» är OK).
  • Ta bort rader med specialtecken från den här uppsättningen: ¢ ¤ ¥ ¢ § © ª ¬ ® ° ± ² μ × ÿ ج¬.
  • Utöka tal till talad form, inklusive dollar- eller eurobelopp.
  • Acceptera umlauts endast för en, o, och du. Andra ersätts med "th" eller ignoreras.

Här följer några exempel på normalisering som utförs automatiskt på transkriptionen:

Ursprunglig text Text efter normalisering
Frankfurter Ring frankfurter ring
¡Eine Frage! eine frage
Wir, haben wir haben

ja-JP

På japanska (ja-JP) finns det en maximal längd på 90 tecken för varje mening. Rader med längre meningar ignoreras. Om du vill lägga till längre text infogar du en punkt däremellan.

zh-CN

Transkriptioner som är märkta med mänskliga etiketter för kinesiskt mandarinljud måste vara UTF-8 kodade med en byteordningsmarkör. Undvik att använda interpunktionstecken med halv bredd. Dessa tecken kan inkluderas oavsiktligt när du förbereder data i ett ordbehandlingsprogram eller skrapar data från webbsidor. Om dessa tecken finns ser du till att uppdatera dem med lämplig ersättning med full bredd.

Några exempel:

Tecken att undvika Ersättning Kommentar
"你好" "你好" De inledande och avslutande citattecknen ersätts med lämpliga tecken.
需要什么帮助? 需要什么帮助? Frågetecknet ersätts med lämpligt tecken.

Textnormalisering för mandarin kinesiska

Textnormalisering är omvandlingen av ord till ett konsekvent format som används vid träning av en modell. Vissa normaliseringsregler tillämpas automatiskt på text, men vi rekommenderar att du använder dessa riktlinjer när du förbereder dina transkriptionsdata med mänsklig etikett:

  • Skriv ut förkortningar i ord.
  • Skriv ut numeriska strängar i talat format.

Här är några exempel på normalisering som du bör utföra på transkriptionen:

Ursprunglig text Text efter normalisering
我今年 21 我今年二十一
3 号楼 504 三号 楼 五 零 四

Följande normaliseringsregler tillämpas automatiskt på transkriptioner:

  • Ta bort alla skiljetecken.
  • Expandera tal till talat formulär.
  • Konvertera bokstäver med full bredd till bokstäver med halv bredd.
  • Använda versaler för alla engelska ord.

Här följer några exempel på automatisk transkriptionsnormalisering:

Ursprunglig text Text efter normalisering
3.1415 三 点 一 四 一 五
¥ 3,5 三 元 五 角
w f y z W F Y Z
1992 年 8 月 8 日 一 九 九 二 年 八 月 八 日
你吃饭了吗? 你 吃饭 了 吗
下午 5:00 的航班 下午 五点 的 航班
我今年 21 岁 我 今年 二十 一 岁

Nästa steg