Come creare trascrizioni con etichetta umana

Le trascrizioni con etichetta umana sono trascrizioni di parole per parola di un file audio. Si usano trascrizioni con etichetta umana per migliorare l'accuratezza del riconoscimento, soprattutto quando le parole vengono eliminate o sostituite in modo non corretto. Questa guida consente di creare trascrizioni di alta qualità.

Per migliorare il riconoscimento, è necessario un grande campione di dati di trascrizione. È consigliabile fornire tra 1 e 20 ore di dati audio. Il servizio Voce usa fino a 20 ore di audio per il training. Questa guida include sezioni per le impostazioni locali inglese, cinese mandarino e tedesco degli Stati Uniti.

Le trascrizioni per tutti i file WAV sono contenute in un singolo file di testo normale (.txt o tsv). Ogni riga del file di trascrizione contiene il nome di uno dei file audio, seguito dalla trascrizione corrispondente. Il nome e la trascrizione del file sono separati da una scheda (\t).

Ad esempio:

speech01.wav	speech recognition is awesome
speech02.wav	the quick brown fox jumped all over the place
speech03.wav	the lazy dog was not amused

Le trascrizioni sono normalizzate dal testo in modo che il sistema possa elaborarle. Tuttavia, è necessario eseguire alcune importanti normalizzazione prima di caricare il set di dati.

Le trascrizioni con etichetta umana per lingue diverse dall'inglese e dal cinese mandarino devono essere codificate con un indicatore di ordine byte. Per altri requisiti di trascrizione delle impostazioni locali, vedere le sezioni seguenti.

en-US

Le trascrizioni con etichetta umana per l'audio in inglese devono essere fornite come testo normale, usando solo caratteri ASCII. Evitare l'uso di caratteri di punteggiatura Latin-1 o Unicode. Questi caratteri vengono spesso aggiunti inavvertitamente durante la copia di testo da un'applicazione di elaborazione delle parole o la raschiatura di dati dalle pagine Web. Se questi caratteri sono presenti, assicurarsi di aggiornarli con la sostituzione ASCII appropriata.

Ecco alcuni esempi:

Caratteri da evitare Sostituzione Note
"Hello world" "Hello world" Le virgolette di apertura e chiusura vengono sostituite con i caratteri ASCII appropriati.
John's day John's day L'apostrofo viene sostituito con il carattere ASCII appropriato.
Era buono- no, era fantastico! it was good--no, it was great! Il trattino em viene sostituito con due trattini.

Normalizzazione del testo per l'inglese degli Stati Uniti

La normalizzazione del testo è la trasformazione delle parole in un formato coerente usato per il training di un modello. Alcune regole di normalizzazione vengono applicate automaticamente al testo, tuttavia, è consigliabile usare queste linee guida durante la preparazione dei dati di trascrizione con etichetta umana:

  • Scrivere abbreviazioni in parole.
  • Scrivere stringhe numeriche non standard in parole (ad esempio, termini contabili).
  • I caratteri non alfabetici o caratteri alfanumerici misti devono essere trascritti come pronunciati.
  • Le abbreviazioni pronunciate come parole non devono essere modificate (ad esempio "radar", "laser", "RAM" o "NATO").
  • Scrivi abbreviazioni pronunciate come lettere separate con ogni lettera separata da uno spazio.
  • Se usi audio, trascrivi numeri come parole che corrispondono all'audio (ad esempio, "101" potrebbe essere pronunciato come "uno oh uno" o "cento e uno").
  • Evitare di ripetere caratteri, parole o gruppi di parole più di tre volte, ad esempio "sì sì sì sì sì". Il servizio Voce potrebbe eliminare righe con tale ripetizione.

Ecco alcuni esempi di normalizzazione da eseguire nella trascrizione:

Original text Testo dopo la normalizzazione (umano)
Dr. Bruce Banner Doctor Bruce Banner
James Bond, 007 James Bond, double oh seven
Ke$ha Ke$ha
How long is the 2x4 How long is the two by four
The meeting goes from 1-3pm The meeting goes from one to three pm
Il mio tipo di sangue è O+ My blood type is O positive
L'acqua è H20 Acqua è H 2 O
Play OU812 di Van Halen Play O U 8 1 2 by Van Halen
UTF-8 con BOM U T F 8 with BOM
It costs $3.14 Costa tre quattordici anni

Le regole di normalizzazione seguenti vengono applicate automaticamente alle trascrizioni:

  • Usare lettere minuscole.
  • Rimuovere tutti i segni di punteggiatura tranne gli apostrofi all'interno delle parole.
  • Espandere i numeri in forma di parole/parlato, ad esempio importi in dollari.

Ecco alcuni esempi di normalizzazione eseguita automaticamente nella trascrizione:

Original text Testo dopo la normalizzazione (automatico)
"Mucca santa!" disse Batman. holy cow said batman
"Che cosa?", ha detto il compagno di Batman, Robin. what said batman's sidekick robin
Go get -em! go get em
I'm double-jointed I'm double jointed
104 Elm Street one oh four Elm street
Tune to 102.7 tune to one oh two point seven
Pi is about 3.14 pi is about three point one four

de-DE

Le trascrizioni con etichetta umana per l'audio tedesco devono essere codificate con UTF-8 con un marcatore di ordine di byte.

Normalizzazione del testo per il tedesco

La normalizzazione del testo è la trasformazione delle parole in un formato coerente usato per il training di un modello. Alcune regole di normalizzazione vengono applicate automaticamente al testo, tuttavia, è consigliabile usare queste linee guida durante la preparazione dei dati di trascrizione con etichetta umana:

  • Scrivere i punti decimali come "," e non ".".
  • Scrivere separatori di tempo come ":" e non "." (ad esempio: 12:00 Uhr).
  • Le abbreviazioni, ad esempio "ca". non vengono sostituite. È consigliabile usare la forma parlata completa.
  • I quattro principali operatori matematici (+, -, *e /) vengono rimossi. È consigliabile sostituirli con il formato scritto: "plus", "minus", "mal" e "geteilt".
  • Gli operatori di confronto vengono rimossi (=, <e >). È consigliabile sostituirli con "gleich", "kleiner als" e "grösser als".
  • Scrivere frazioni, ad esempio 3/4, in formato scritto (ad esempio: "drei viertel" anziché 3/4).
  • Sostituire il simbolo "€" con la forma scritta "Euro".

Ecco alcuni esempi di normalizzazione da eseguire nella trascrizione:

Original text Testo dopo la normalizzazione dell'utente Testo dopo la normalizzazione del sistema
Es ist 12.23 Uhr Es ist 12:23 Uhr es ist zwölf uhr drei und zwanzig uhr
{12.45} {12,45} zwölf komma vier fünf
2 + 3 - 4 2 plus 3 minus 4 zwei plus drei minus vier

Le regole di normalizzazione seguenti vengono applicate automaticamente alle trascrizioni:

  • Usare lettere minuscole per tutto il testo.
  • Rimuovere tutti i segni di punteggiatura, inclusi i vari tipi di virgolette ("test", "test", "test" e «test» sono OK).
  • Rimuovere le righe con qualsiasi carattere speciale da questo set: © ® ° ± ² μ × ø Ø**.
  • Espandi i numeri in forma parlata, inclusi gli importi del dollaro o dell'euro.
  • Accettare umlauts solo per un, o e te. Altri vengono sostituiti da "th" o scartati.

Ecco alcuni esempi di normalizzazione eseguita automaticamente nella trascrizione:

Original text Testo dopo la normalizzazione
Frankfurter Ring frankfurter ring
¡Eine Frage! eine frage
Wir, haben wir haben

ja-JP

In giapponese (ja-JP) è prevista una lunghezza massima di 90 caratteri per ogni frase. Le righe con frasi più lunghe vengono eliminate. Per aggiungere testo più lungo, inserire un punto compreso tra.

zh-CN

Le trascrizioni con etichetta umana per l'audio cinese mandarino devono essere codificate con UTF-8 con un marcatore di ordine di byte. Evitare l'uso di caratteri di punteggiatura a mezza larghezza. Questi caratteri possono essere inclusi inavvertitamente quando si preparano i dati in un programma di elaborazione delle parole o si eliminano dati da pagine Web. Se questi caratteri sono presenti, assicurarsi di aggiornarli con la sostituzione appropriata a larghezza intera.

Ecco alcuni esempi:

Caratteri da evitare Sostituzione Note
"你好" "你好" Le virgolette di apertura e chiusura vengono sostituite con i caratteri appropriati.
需要什么帮助? 需要什么帮助? Il punto interrogativo viene sostituito con il carattere appropriato.

Normalizzazione del testo per il cinese mandarino

La normalizzazione del testo è la trasformazione delle parole in un formato coerente usato per il training di un modello. Alcune regole di normalizzazione vengono applicate automaticamente al testo, tuttavia, è consigliabile usare queste linee guida durante la preparazione dei dati di trascrizione con etichetta umana:

  • Scrivere abbreviazioni in parole.
  • Scrivere stringhe numeriche in forma parlata.

Ecco alcuni esempi di normalizzazione da eseguire nella trascrizione:

Original text Testo dopo la normalizzazione
我今年 21 我今年二十一
3 号楼 504 三号 楼 五 零 四

Le regole di normalizzazione seguenti vengono applicate automaticamente alle trascrizioni:

  • Rimuovere tutti i segni di punteggiatura.
  • Espandere i numeri in forma parlata.
  • Conversione di lettere a tutta larghezza in lettere a mezza larghezza
  • Uso di lettere maiuscole per tutte le parole in inglese.

Ecco alcuni esempi di normalizzazione automatica della trascrizione:

Original text Testo dopo la normalizzazione
3.1415 三 点 一 四 一 五
• 3,5 三 元 五 角
w f y z w f y z
1992 年 8 月 8 日 一 九 九 二 年 八 月 八 日
你吃饭了吗? 你 吃饭 了 吗
下午 5:00 的航班 下午 五点 的 航班
我今年 21 岁 我 今年 二十 一 岁

Passaggi successivi