Come creare trascrizioni con etichetta umana
Le trascrizioni con etichetta umana sono trascrizioni di parole per parola di un file audio. Si usano trascrizioni con etichetta umana per migliorare l'accuratezza del riconoscimento, soprattutto quando le parole vengono eliminate o sostituite in modo non corretto. Questa guida consente di creare trascrizioni di alta qualità.
Per migliorare il riconoscimento, è necessario un grande campione di dati di trascrizione. È consigliabile fornire tra 1 e 20 ore di dati audio. Il servizio Voce usa fino a 20 ore di audio per il training. Questa guida include sezioni per le impostazioni locali inglese, cinese mandarino e tedesco degli Stati Uniti.
Le trascrizioni per tutti i file WAV sono contenute in un singolo file di testo normale (.txt o tsv). Ogni riga del file di trascrizione contiene il nome di uno dei file audio, seguito dalla trascrizione corrispondente. Il nome e la trascrizione del file sono separati da una scheda (\t
).
Ad esempio:
speech01.wav speech recognition is awesome
speech02.wav the quick brown fox jumped all over the place
speech03.wav the lazy dog was not amused
Le trascrizioni sono normalizzate dal testo in modo che il sistema possa elaborarle. Tuttavia, è necessario eseguire alcune importanti normalizzazione prima di caricare il set di dati.
Le trascrizioni con etichetta umana per lingue diverse dall'inglese e dal cinese mandarino devono essere codificate con un indicatore di ordine byte. Per altri requisiti di trascrizione delle impostazioni locali, vedere le sezioni seguenti.
en-US
Le trascrizioni con etichetta umana per l'audio in inglese devono essere fornite come testo normale, usando solo caratteri ASCII. Evitare l'uso di caratteri di punteggiatura Latin-1 o Unicode. Questi caratteri vengono spesso aggiunti inavvertitamente durante la copia di testo da un'applicazione di elaborazione delle parole o la raschiatura di dati dalle pagine Web. Se questi caratteri sono presenti, assicurarsi di aggiornarli con la sostituzione ASCII appropriata.
Ecco alcuni esempi:
Caratteri da evitare | Sostituzione | Note |
---|---|---|
"Hello world" | "Hello world" | Le virgolette di apertura e chiusura vengono sostituite con i caratteri ASCII appropriati. |
John's day | John's day | L'apostrofo viene sostituito con il carattere ASCII appropriato. |
Era buono- no, era fantastico! | it was good--no, it was great! | Il trattino em viene sostituito con due trattini. |
Normalizzazione del testo per l'inglese degli Stati Uniti
La normalizzazione del testo è la trasformazione delle parole in un formato coerente usato per il training di un modello. Alcune regole di normalizzazione vengono applicate automaticamente al testo, tuttavia, è consigliabile usare queste linee guida durante la preparazione dei dati di trascrizione con etichetta umana:
- Scrivere abbreviazioni in parole.
- Scrivere stringhe numeriche non standard in parole (ad esempio, termini contabili).
- I caratteri non alfabetici o caratteri alfanumerici misti devono essere trascritti come pronunciati.
- Le abbreviazioni pronunciate come parole non devono essere modificate (ad esempio "radar", "laser", "RAM" o "NATO").
- Scrivi abbreviazioni pronunciate come lettere separate con ogni lettera separata da uno spazio.
- Se usi audio, trascrivi numeri come parole che corrispondono all'audio (ad esempio, "101" potrebbe essere pronunciato come "uno oh uno" o "cento e uno").
- Evitare di ripetere caratteri, parole o gruppi di parole più di tre volte, ad esempio "sì sì sì sì sì". Il servizio Voce potrebbe eliminare righe con tale ripetizione.
Ecco alcuni esempi di normalizzazione da eseguire nella trascrizione:
Original text | Testo dopo la normalizzazione (umano) |
---|---|
Dr. Bruce Banner | Doctor Bruce Banner |
James Bond, 007 | James Bond, double oh seven |
Ke$ha | Ke$ha |
How long is the 2x4 | How long is the two by four |
The meeting goes from 1-3pm | The meeting goes from one to three pm |
Il mio tipo di sangue è O+ | My blood type is O positive |
L'acqua è H20 | Acqua è H 2 O |
Play OU812 di Van Halen | Play O U 8 1 2 by Van Halen |
UTF-8 con BOM | U T F 8 with BOM |
It costs $3.14 | Costa tre quattordici anni |
Le regole di normalizzazione seguenti vengono applicate automaticamente alle trascrizioni:
- Usare lettere minuscole.
- Rimuovere tutti i segni di punteggiatura tranne gli apostrofi all'interno delle parole.
- Espandere i numeri in forma di parole/parlato, ad esempio importi in dollari.
Ecco alcuni esempi di normalizzazione eseguita automaticamente nella trascrizione:
Original text | Testo dopo la normalizzazione (automatico) |
---|---|
"Mucca santa!" disse Batman. | holy cow said batman |
"Che cosa?", ha detto il compagno di Batman, Robin. | what said batman's sidekick robin |
Go get -em! | go get em |
I'm double-jointed | I'm double jointed |
104 Elm Street | one oh four Elm street |
Tune to 102.7 | tune to one oh two point seven |
Pi is about 3.14 | pi is about three point one four |
de-DE
Le trascrizioni con etichetta umana per l'audio tedesco devono essere codificate con UTF-8 con un marcatore di ordine di byte.
Normalizzazione del testo per il tedesco
La normalizzazione del testo è la trasformazione delle parole in un formato coerente usato per il training di un modello. Alcune regole di normalizzazione vengono applicate automaticamente al testo, tuttavia, è consigliabile usare queste linee guida durante la preparazione dei dati di trascrizione con etichetta umana:
- Scrivere i punti decimali come "," e non ".".
- Scrivere separatori di tempo come ":" e non "." (ad esempio: 12:00 Uhr).
- Le abbreviazioni, ad esempio "ca". non vengono sostituite. È consigliabile usare la forma parlata completa.
- I quattro principali operatori matematici (+, -, *e /) vengono rimossi. È consigliabile sostituirli con il formato scritto: "plus", "minus", "mal" e "geteilt".
- Gli operatori di confronto vengono rimossi (=, <e >). È consigliabile sostituirli con "gleich", "kleiner als" e "grösser als".
- Scrivere frazioni, ad esempio 3/4, in formato scritto (ad esempio: "drei viertel" anziché 3/4).
- Sostituire il simbolo "€" con la forma scritta "Euro".
Ecco alcuni esempi di normalizzazione da eseguire nella trascrizione:
Original text | Testo dopo la normalizzazione dell'utente | Testo dopo la normalizzazione del sistema |
---|---|---|
Es ist 12.23 Uhr | Es ist 12:23 Uhr | es ist zwölf uhr drei und zwanzig uhr |
{12.45} | {12,45} | zwölf komma vier fünf |
2 + 3 - 4 | 2 plus 3 minus 4 | zwei plus drei minus vier |
Le regole di normalizzazione seguenti vengono applicate automaticamente alle trascrizioni:
- Usare lettere minuscole per tutto il testo.
- Rimuovere tutti i segni di punteggiatura, inclusi i vari tipi di virgolette ("test", "test", "test" e «test» sono OK).
- Rimuovere le righe con qualsiasi carattere speciale da questo set: © ® ° ± ² μ × ø Ø**.
- Espandi i numeri in forma parlata, inclusi gli importi del dollaro o dell'euro.
- Accettare umlauts solo per un, o e te. Altri vengono sostituiti da "th" o scartati.
Ecco alcuni esempi di normalizzazione eseguita automaticamente nella trascrizione:
Original text | Testo dopo la normalizzazione |
---|---|
Frankfurter Ring | frankfurter ring |
¡Eine Frage! | eine frage |
Wir, haben | wir haben |
ja-JP
In giapponese (ja-JP) è prevista una lunghezza massima di 90 caratteri per ogni frase. Le righe con frasi più lunghe vengono eliminate. Per aggiungere testo più lungo, inserire un punto compreso tra.
zh-CN
Le trascrizioni con etichetta umana per l'audio cinese mandarino devono essere codificate con UTF-8 con un marcatore di ordine di byte. Evitare l'uso di caratteri di punteggiatura a mezza larghezza. Questi caratteri possono essere inclusi inavvertitamente quando si preparano i dati in un programma di elaborazione delle parole o si eliminano dati da pagine Web. Se questi caratteri sono presenti, assicurarsi di aggiornarli con la sostituzione appropriata a larghezza intera.
Ecco alcuni esempi:
Caratteri da evitare | Sostituzione | Note |
---|---|---|
"你好" | "你好" | Le virgolette di apertura e chiusura vengono sostituite con i caratteri appropriati. |
需要什么帮助? | 需要什么帮助? | Il punto interrogativo viene sostituito con il carattere appropriato. |
Normalizzazione del testo per il cinese mandarino
La normalizzazione del testo è la trasformazione delle parole in un formato coerente usato per il training di un modello. Alcune regole di normalizzazione vengono applicate automaticamente al testo, tuttavia, è consigliabile usare queste linee guida durante la preparazione dei dati di trascrizione con etichetta umana:
- Scrivere abbreviazioni in parole.
- Scrivere stringhe numeriche in forma parlata.
Ecco alcuni esempi di normalizzazione da eseguire nella trascrizione:
Original text | Testo dopo la normalizzazione |
---|---|
我今年 21 | 我今年二十一 |
3 号楼 504 | 三号 楼 五 零 四 |
Le regole di normalizzazione seguenti vengono applicate automaticamente alle trascrizioni:
- Rimuovere tutti i segni di punteggiatura.
- Espandere i numeri in forma parlata.
- Conversione di lettere a tutta larghezza in lettere a mezza larghezza
- Uso di lettere maiuscole per tutte le parole in inglese.
Ecco alcuni esempi di normalizzazione automatica della trascrizione:
Original text | Testo dopo la normalizzazione |
---|---|
3.1415 | 三 点 一 四 一 五 |
• 3,5 | 三 元 五 角 |
w f y z | w f y z |
1992 年 8 月 8 日 | 一 九 九 二 年 八 月 八 日 |
你吃饭了吗? | 你 吃饭 了 吗 |
下午 5:00 的航班 | 下午 五点 的 航班 |
我今年 21 岁 | 我 今年 二十 一 岁 |