Come creare trascrizioni con etichetta umana

Articolo
01/22/2024

Le trascrizioni con etichetta umana sono trascrizioni di parole per parola di un file audio. Si usano trascrizioni con etichetta umana per migliorare l'accuratezza del riconoscimento, soprattutto quando le parole vengono eliminate o sostituite in modo non corretto. Questa guida consente di creare trascrizioni di alta qualità.

Per migliorare il riconoscimento, è necessario un grande campione di dati di trascrizione. È consigliabile fornire tra 1 e 20 ore di dati audio. Il servizio Voce usa fino a 20 ore di audio per il training. Questa guida include sezioni per le impostazioni locali inglese, cinese mandarino e tedesco degli Stati Uniti.

Le trascrizioni per tutti i file WAV sono contenute in un singolo file di testo normale (.txt o tsv). Ogni riga del file di trascrizione contiene il nome di uno dei file audio, seguito dalla trascrizione corrispondente. Il nome e la trascrizione del file sono separati da una scheda (\t).

Ad esempio:

speech01.wav	speech recognition is awesome
speech02.wav	the quick brown fox jumped all over the place
speech03.wav	the lazy dog was not amused

Le trascrizioni sono normalizzate dal testo in modo che il sistema possa elaborarle. Tuttavia, è necessario eseguire alcune importanti normalizzazione prima di caricare il set di dati.

Le trascrizioni con etichetta umana per lingue diverse dall'inglese e dal cinese mandarino devono essere codificate con un indicatore di ordine byte. Per altri requisiti di trascrizione delle impostazioni locali, vedere le sezioni seguenti.

en-US

Le trascrizioni con etichetta umana per l'audio in inglese devono essere fornite come testo normale, usando solo caratteri ASCII. Evitare l'uso di caratteri di punteggiatura Latin-1 o Unicode. Questi caratteri vengono spesso aggiunti inavvertitamente durante la copia di testo da un'applicazione di elaborazione delle parole o la raschiatura di dati dalle pagine Web. Se questi caratteri sono presenti, assicurarsi di aggiornarli con la sostituzione ASCII appropriata.

Ecco alcuni esempi:

Caratteri da evitare	Sostituzione	Note
"Hello world"	"Hello world"	Le virgolette di apertura e chiusura vengono sostituite con i caratteri ASCII appropriati.
John's day	John's day	L'apostrofo viene sostituito con il carattere ASCII appropriato.
Era buono- no, era fantastico!	it was good--no, it was great!	Il trattino em viene sostituito con due trattini.

Normalizzazione del testo per l'inglese degli Stati Uniti

La normalizzazione del testo è la trasformazione delle parole in un formato coerente usato per il training di un modello. Alcune regole di normalizzazione vengono applicate automaticamente al testo, tuttavia, è consigliabile usare queste linee guida durante la preparazione dei dati di trascrizione con etichetta umana:

Scrivere abbreviazioni in parole.
Scrivere stringhe numeriche non standard in parole (ad esempio, termini contabili).
I caratteri non alfabetici o caratteri alfanumerici misti devono essere trascritti come pronunciati.
Le abbreviazioni pronunciate come parole non devono essere modificate (ad esempio "radar", "laser", "RAM" o "NATO").
Scrivi abbreviazioni pronunciate come lettere separate con ogni lettera separata da uno spazio.
Se usi audio, trascrivi numeri come parole che corrispondono all'audio (ad esempio, "101" potrebbe essere pronunciato come "uno oh uno" o "cento e uno").
Evitare di ripetere caratteri, parole o gruppi di parole più di tre volte, ad esempio "sì sì sì sì sì". Il servizio Voce potrebbe eliminare righe con tale ripetizione.

Ecco alcuni esempi di normalizzazione da eseguire nella trascrizione:

Original text	Testo dopo la normalizzazione (umano)
Dr. Bruce Banner	Doctor Bruce Banner
James Bond, 007	James Bond, double oh seven
Ke$ha	Ke$ha
How long is the 2x4	How long is the two by four
The meeting goes from 1-3pm	The meeting goes from one to three pm
Il mio tipo di sangue è O+	My blood type is O positive
L'acqua è H20	Acqua è H 2 O
Play OU812 di Van Halen	Play O U 8 1 2 by Van Halen
UTF-8 con BOM	U T F 8 with BOM
It costs $3.14	Costa tre quattordici anni

Le regole di normalizzazione seguenti vengono applicate automaticamente alle trascrizioni:

Usare lettere minuscole.
Rimuovere tutti i segni di punteggiatura tranne gli apostrofi all'interno delle parole.
Espandere i numeri in forma di parole/parlato, ad esempio importi in dollari.

Ecco alcuni esempi di normalizzazione eseguita automaticamente nella trascrizione:

Original text	Testo dopo la normalizzazione (automatico)
"Mucca santa!" disse Batman.	holy cow said batman
"Che cosa?", ha detto il compagno di Batman, Robin.	what said batman's sidekick robin
Go get -em!	go get em
I'm double-jointed	I'm double jointed
104 Elm Street	one oh four Elm street
Tune to 102.7	tune to one oh two point seven
Pi is about 3.14	pi is about three point one four

de-DE

Le trascrizioni con etichetta umana per l'audio tedesco devono essere codificate con UTF-8 con un marcatore di ordine di byte.

Normalizzazione del testo per il tedesco

Scrivere i punti decimali come "," e non ".".
Scrivere separatori di tempo come ":" e non "." (ad esempio: 12:00 Uhr).
Le abbreviazioni, ad esempio "ca". non vengono sostituite. È consigliabile usare la forma parlata completa.
I quattro principali operatori matematici (+, -, *e /) vengono rimossi. È consigliabile sostituirli con il formato scritto: "plus", "minus", "mal" e "geteilt".
Gli operatori di confronto vengono rimossi (=, <e >). È consigliabile sostituirli con "gleich", "kleiner als" e "grösser als".
Scrivere frazioni, ad esempio 3/4, in formato scritto (ad esempio: "drei viertel" anziché 3/4).
Sostituire il simbolo "€" con la forma scritta "Euro".

Ecco alcuni esempi di normalizzazione da eseguire nella trascrizione:

Original text	Testo dopo la normalizzazione dell'utente	Testo dopo la normalizzazione del sistema
Es ist 12.23 Uhr	Es ist 12:23 Uhr	es ist zwölf uhr drei und zwanzig uhr
{12.45}	{12,45}	zwölf komma vier fünf
2 + 3 - 4	2 plus 3 minus 4	zwei plus drei minus vier

Le regole di normalizzazione seguenti vengono applicate automaticamente alle trascrizioni:

Usare lettere minuscole per tutto il testo.
Rimuovere tutti i segni di punteggiatura, inclusi i vari tipi di virgolette ("test", "test", "test" e «test» sono OK).
Rimuovere le righe con qualsiasi carattere speciale da questo set: © ® ° ± ² μ × ø Ø**.
Espandi i numeri in forma parlata, inclusi gli importi del dollaro o dell'euro.
Accettare umlauts solo per un, o e te. Altri vengono sostituiti da "th" o scartati.

Ecco alcuni esempi di normalizzazione eseguita automaticamente nella trascrizione:

Original text	Testo dopo la normalizzazione
Frankfurter Ring	frankfurter ring
¡Eine Frage!	eine frage
Wir, haben	wir haben

ja-JP

In giapponese (ja-JP) è prevista una lunghezza massima di 90 caratteri per ogni frase. Le righe con frasi più lunghe vengono eliminate. Per aggiungere testo più lungo, inserire un punto compreso tra.

zh-CN

Le trascrizioni con etichetta umana per l'audio cinese mandarino devono essere codificate con UTF-8 con un marcatore di ordine di byte. Evitare l'uso di caratteri di punteggiatura a mezza larghezza. Questi caratteri possono essere inclusi inavvertitamente quando si preparano i dati in un programma di elaborazione delle parole o si eliminano dati da pagine Web. Se questi caratteri sono presenti, assicurarsi di aggiornarli con la sostituzione appropriata a larghezza intera.

Ecco alcuni esempi:

Caratteri da evitare	Sostituzione	Note
"你好"	"你好"	Le virgolette di apertura e chiusura vengono sostituite con i caratteri appropriati.
需要什么帮助?	需要什么帮助？	Il punto interrogativo viene sostituito con il carattere appropriato.

Normalizzazione del testo per il cinese mandarino

Scrivere abbreviazioni in parole.
Scrivere stringhe numeriche in forma parlata.

Ecco alcuni esempi di normalizzazione da eseguire nella trascrizione:

Original text	Testo dopo la normalizzazione
我今年 21	我今年二十一
3 号楼 504	三号楼五零四

Le regole di normalizzazione seguenti vengono applicate automaticamente alle trascrizioni:

Rimuovere tutti i segni di punteggiatura.
Espandere i numeri in forma parlata.
Conversione di lettere a tutta larghezza in lettere a mezza larghezza
Uso di lettere maiuscole per tutte le parole in inglese.

Ecco alcuni esempi di normalizzazione automatica della trascrizione:

Original text	Testo dopo la normalizzazione
3.1415	三点一四一五
• 3,5	三元五角
w f y z	w f y z
1992 年 8 月 8 日	一九九二年八月八日
你吃饭了吗?	你吃饭了吗
下午 5:00 的航班	下午五点的航班
我今年 21 岁	我今年二十一岁

Come creare trascrizioni con etichetta umana

en-US

Normalizzazione del testo per l'inglese degli Stati Uniti

de-DE

Normalizzazione del testo per il tedesco

ja-JP

zh-CN

Normalizzazione del testo per il cinese mandarino

Passaggi successivi

Risorse aggiuntive