Cara membuat transkripsi berlabel manusia
Transkripsi berlabel manusia adalah transkripsi kata demi kata dari file audio. Anda menggunakan transkripsi berlabel manusia untuk meningkatkan akurasi pengenalan, terutama ketika kata-kata dihapus atau salah diganti. Panduan ini dapat membantu Anda membuat transkripsi berkualitas tinggi.
Sampel besar data transkripsi diperlukan untuk meningkatkan pengenalan. Kami menyarankan untuk menyediakan antara 1 dan 20 jam data audio. Layanan Ucapan menggunakan audio hingga 20 jam untuk pelatihan. Panduan ini memiliki bagian untuk lokal Inggris AS, Mandarin Cina, dan Jerman.
Transkripsi untuk semua file WAV terkandung dalam satu file teks biasa (.txt atau .tsv). Setiap baris file transkripsi harus berisi nama dari salah satu file audio tersebut, yang diikuti dengan transkripsi yang sesuai. Transkripsi dan nama file dipisahkan oleh tab (\t
).
Contohnya:
speech01.wav speech recognition is awesome
speech02.wav the quick brown fox jumped all over the place
speech03.wav the lazy dog was not amused
Transkripsi dinormalisasi teks sehingga sistem dapat memprosesnya. Namun, Anda harus melakukan beberapa normalisasi penting sebelum mengunggah data ke himpunan data.
Transkripsi berlabel manusia untuk bahasa selain bahasa Inggris dan Tionghoa, harus dikodekan UTF-8 dengan penanda urutan byte. Untuk persyaratan transkripsi lokal lainnya, lihat bagian berikut ini.
id-ID
Transkripsi berlabel manusia untuk audio bahasa Inggris harus disediakan sebagai teks biasa, hanya menggunakan karakter ASCII. Hindari penggunaan karakter tanda baca Latin-1 atau Unicode. Karakter ini sering ditambahkan secara tidak sengaja saat menyalin teks dari aplikasi pengolah kata atau mengekstrak data dari halaman web. Jika karakter ini ada, pastikan memperbaruinya dengan substitusi ASCII yang sesuai.
Berikut beberapa contohnya:
Karakter yang harus dihindari | Substitusi | Catatan |
---|---|---|
“Halo dunia” | "Halo Dunia" | Tanda kutip pembuka dan penutupan diganti dengan karakter ASCII yang sesuai. |
John’s day | John’s day | Apostrof diganti dengan karakter ASCII yang sesuai. |
Itu bagus — tidak, itu hebat! | itu bagus — tidak, itu hebat! | Tanda hubung diganti dengan dua tanda hubung. |
Normalisasi teks untuk bahasa Inggris AS
Normalisasi teks adalah transformasi kata menjadi format konsisten yang digunakan saat melatih model. Beberapa aturan normalisasi diterapkan ke teks secara otomatis, namun, kami sarankan menggunakan panduan ini saat Anda menyiapkan data transkripsi berlabel manusia:
- Tuliskan singkatan dengan kata-kata.
- Tulis string numerik nonstandard dengan kata-kata (seperti istilah akuntansi).
- Karakter non-alfabet atau karakter alfanumerik campuran harus ditranskripsikan seperti yang diucapkan.
- Singkatan yang diucapkan sebagai kata-kata tidak boleh diedit (seperti "radar", "laser", "RAM", atau "NATO").
- Tulis singkatan yang diucapkan sebagai huruf terpisah dengan setiap huruf yang dipisahkan oleh spasi.
- Jika Anda menggunakan audio, transkrip nomor sebagai kata yang cocok dengan audio (misalnya, "101" dapat diucapkan sebagai "satu oh satu" atau "seratus satu").
- Hindari pengulangan karakter, kata, atau grup kata lebih dari tiga kali, seperti “ya ya ya ya”. Layanan Ucapan mungkin menghilangkan baris dengan pengulangan tersebut.
Berikut adalah beberapa contoh normalisasi yang harus Anda lakukan pada transkripsi:
Teks asli | Teks setelah normalisasi (manusia) |
---|---|
Dr. Bruce Banner | Dokter Bruce Banner |
James Bond, 007 | James Bond, ganda oh tujuh |
Ke$ha | Kesha |
Berapa lama 2x4 | Berapa lama dua dikali empat |
Pertemuan berlangsung dari pukul 1-3 sore | Pertemuan berlangsung dari pukul satu hingga tiga sore |
Golongan darah saya adalah O+ | Golongan darah saya adalah O positif |
Air adalah H20 | Air adalah H 2 O |
Putar OU812 oleh Van Halen | Putar O U 8 1 2 oleh Van Halen |
UTF-8 dengan BOM | UTF-8 dengan BOM |
Nilainya $3,14 | Nilainya tiga belas |
Aturan normalisasi berikut ini secara otomatis diterapkan pada transkripsi:
- Gunakan huruf kecil saja.
- Hapus semua tanda baca kecuali apostrof dalam kata-kata.
- Perluas angka ke dalam bentuk kata/lisan, seperti jumlah dolar.
Berikut adalah beberapa contoh normalisasi yang dilakukan secara otomatis pada transkripsi:
Teks asli | Teks setelah normalisasi (otomatis) |
---|---|
"Astaga!" kata Batman. | sapi suci kata batman |
"Apa?" kata rekan Batman, Robin. | apa kata teman karib batman, Robin. |
segera dapatkan! | segera dapatkan |
Saya bersendi ganda | Saya bersendi ganda |
104 Elm Street | satu oh empat jalan Elm |
Hingga 102,7 | tune ke satu oh dua titik tujuh |
Pi adalah sekitar 3.14 | pi adalah sekitar tiga titik satu empat |
de-DE
Transkripsi berlabel manusia untuk audio bahasa Jerman harus dikodekan UTF-8 dengan penanda urutan byte.
Normalisasi teks untuk bahasa Jerman
Normalisasi teks adalah transformasi kata menjadi format konsisten yang digunakan saat melatih model. Beberapa aturan normalisasi diterapkan ke teks secara otomatis, namun, kami sarankan menggunakan panduan ini saat Anda menyiapkan data transkripsi berlabel manusia:
- Tulis koma desimal sebagai "," dan bukan ".".
- Tulis pemisah waktu sebagai ":" dan bukan "." (misalnya: 12:00 Uhr).
- Singkatan seperti "ca." tidak diganti. Kami menyarankan agar Anda menggunakan formulir yang diucapkan secara lengkap.
- Empat operator matematika utama (+, -, *, and /) dihapus. Kami sarankan menggantinya dengan bentuk tertulis: "plus," "minus," "mal," dan "geteilt."
- Operator perbandingan dihapus (=, <, dan >). Kami merekomendasikan menggantinya dengan "gleich," "kleiner als," dan "grösser als."
- Tulis pecahan, seperti 3/4, dalam bentuk tertulis (misalnya: "drei viertel" alih-alih 3/4).
- Ganti simbol "€" dengan bentuk tertulisnya "Euro."
Berikut adalah beberapa contoh normalisasi yang harus Anda lakukan pada transkripsi:
Teks asli | Teks setelah normalisasi pengguna | Teks setelah normalisasi sistem |
---|---|---|
Es ist 12.23 Uhr | Es ist 12:23 Uhr | es ist zwölf uhr drei und zwanzig uhr |
{12.45} | {12,45} | zwölf komma vier fünf |
2 + 3 - 4 | 2 ditambah 3 minus 4 | zwei plus drei minus vier |
Aturan normalisasi berikut ini secara otomatis diterapkan pada transkripsi:
- Gunakan huruf kecil untuk semua teks.
- Hapus semua tanda baca, termasuk berbagai jenis tanda kutip ("uji", 'uji', "uji", dan «uji» itu bagus).
- Buang baris dengan karakter khusus apa pun dari set ini: ¢ @ ¥ ¦ © ª ¬ ® ± ± ² μ × ÿ ج¬¬.
- Perluas angka ke formulir lisan, termasuk jumlah dolar atau Euro.
- Terima umlauts hanya untuk, o, dan u. Yang lain digantikan oleh "th" atau dibuang.
Berikut adalah beberapa contoh normalisasi yang dilakukan secara otomatis pada transkripsi:
Teks asli | Teks setelah normalisasi |
---|---|
Cincin Frankfurter | Cincin frankfurter |
Eine Frage! | eine frage |
Wir, haben | wir, haben |
ja-JP
Dalam bahasa Jepang (ja-JP), panjang maksimum untuk setiap kalimat adalah 90 karakter. Baris dengan kalimat yang lebih panjang dibuang. Untuk menambahkan teks yang lebih panjang, sisipkan titik di antaranya.
zh-CN
Transkripsi berlabel manusia untuk audio Tionghoa harus dikodekan UTF-8 dengan penanda urutan byte. Hindari penggunaan karakter tanda baca setengah lebar. Karakter-karakter ini dapat disertakan secara tidak sengaja saat Anda menyiapkan data dalam program pemrosesan kata atau mengekstrak data dari halaman web. Jika karakter ini ada, pastikan memperbaruinya dengan substitusi ASCII yang sesuai.
Berikut beberapa contohnya:
Karakter yang harus dihindari | Substitusi | Catatan |
---|---|---|
"你好" | "你好" | Tanda kutip pembuka dan penutupan diganti dengan karakter yang sesuai. |
需要什么帮助? | 需要什么帮助? | Tanda tanya diganti dengan karakter yang sesuai. |
Normalisasi teks untuk Bahasa Tionghoa
Normalisasi teks adalah transformasi kata menjadi format konsisten yang digunakan saat melatih model. Beberapa aturan normalisasi diterapkan ke teks secara otomatis, namun, kami sarankan menggunakan panduan ini saat Anda menyiapkan data transkripsi berlabel manusia:
- Tuliskan singkatan dengan kata-kata.
- Tulis string numerik dalam bentuk lisan.
Berikut adalah beberapa contoh normalisasi yang harus Anda lakukan pada transkripsi:
Teks asli | Teks setelah normalisasi |
---|---|
我今年 21 | 我今年二十一 |
3 号楼 504 | 三号 楼 五 零 四 |
Aturan normalisasi berikut ini secara otomatis diterapkan pada transkripsi:
- Hapus semua tanda baca.
- Perluas angka ke formulir lisan.
- Mengonversi huruf lebar penuh menjadi huruf lebar setengah.
- Menggunakan huruf besar untuk semua kata bahasa Inggris.
Berikut adalah beberapa contoh normalisasi transkripsi otomatis:
Teks asli | Teks setelah normalisasi |
---|---|
3.1415 | 三 点 一 四 一 五 |
¥ 3.5 | 三 元 五 角 |
w f y z | W F Y Z |
1992 年 8 月 8 日 | 一 九 九 二 年 八 月 八 日 |
你吃饭了吗? | 你 吃饭 了 吗 |
下午 5:00 的航班 | 下午 五点 的 航班 |
我今年 21 岁 | 我 今年 二十 一 岁 |