Cara membuat transkripsi berlabel manusia

Artikel
01/19/2024

Transkripsi berlabel manusia adalah transkripsi kata demi kata dari file audio. Anda menggunakan transkripsi berlabel manusia untuk meningkatkan akurasi pengenalan, terutama ketika kata-kata dihapus atau salah diganti. Panduan ini dapat membantu Anda membuat transkripsi berkualitas tinggi.

Sampel besar data transkripsi diperlukan untuk meningkatkan pengenalan. Kami menyarankan untuk menyediakan antara 1 dan 20 jam data audio. Layanan Ucapan menggunakan audio hingga 20 jam untuk pelatihan. Panduan ini memiliki bagian untuk lokal Inggris AS, Mandarin Cina, dan Jerman.

Transkripsi untuk semua file WAV terkandung dalam satu file teks biasa (.txt atau .tsv). Setiap baris file transkripsi harus berisi nama dari salah satu file audio tersebut, yang diikuti dengan transkripsi yang sesuai. Transkripsi dan nama file dipisahkan oleh tab (\t).

Contohnya:

speech01.wav	speech recognition is awesome
speech02.wav	the quick brown fox jumped all over the place
speech03.wav	the lazy dog was not amused

Transkripsi dinormalisasi teks sehingga sistem dapat memprosesnya. Namun, Anda harus melakukan beberapa normalisasi penting sebelum mengunggah data ke himpunan data.

Transkripsi berlabel manusia untuk bahasa selain bahasa Inggris dan Tionghoa, harus dikodekan UTF-8 dengan penanda urutan byte. Untuk persyaratan transkripsi lokal lainnya, lihat bagian berikut ini.

id-ID

Transkripsi berlabel manusia untuk audio bahasa Inggris harus disediakan sebagai teks biasa, hanya menggunakan karakter ASCII. Hindari penggunaan karakter tanda baca Latin-1 atau Unicode. Karakter ini sering ditambahkan secara tidak sengaja saat menyalin teks dari aplikasi pengolah kata atau mengekstrak data dari halaman web. Jika karakter ini ada, pastikan memperbaruinya dengan substitusi ASCII yang sesuai.

Berikut beberapa contohnya:

Karakter yang harus dihindari	Substitusi	Catatan
“Halo dunia”	"Halo Dunia"	Tanda kutip pembuka dan penutupan diganti dengan karakter ASCII yang sesuai.
John’s day	John’s day	Apostrof diganti dengan karakter ASCII yang sesuai.
Itu bagus — tidak, itu hebat!	itu bagus — tidak, itu hebat!	Tanda hubung diganti dengan dua tanda hubung.

Normalisasi teks untuk bahasa Inggris AS

Normalisasi teks adalah transformasi kata menjadi format konsisten yang digunakan saat melatih model. Beberapa aturan normalisasi diterapkan ke teks secara otomatis, namun, kami sarankan menggunakan panduan ini saat Anda menyiapkan data transkripsi berlabel manusia:

Tuliskan singkatan dengan kata-kata.
Tulis string numerik nonstandard dengan kata-kata (seperti istilah akuntansi).
Karakter non-alfabet atau karakter alfanumerik campuran harus ditranskripsikan seperti yang diucapkan.
Singkatan yang diucapkan sebagai kata-kata tidak boleh diedit (seperti "radar", "laser", "RAM", atau "NATO").
Tulis singkatan yang diucapkan sebagai huruf terpisah dengan setiap huruf yang dipisahkan oleh spasi.
Jika Anda menggunakan audio, transkrip nomor sebagai kata yang cocok dengan audio (misalnya, "101" dapat diucapkan sebagai "satu oh satu" atau "seratus satu").
Hindari pengulangan karakter, kata, atau grup kata lebih dari tiga kali, seperti “ya ya ya ya”. Layanan Ucapan mungkin menghilangkan baris dengan pengulangan tersebut.

Berikut adalah beberapa contoh normalisasi yang harus Anda lakukan pada transkripsi:

Teks asli	Teks setelah normalisasi (manusia)
Dr. Bruce Banner	Dokter Bruce Banner
James Bond, 007	James Bond, ganda oh tujuh
Ke$ha	Kesha
Berapa lama 2x4	Berapa lama dua dikali empat
Pertemuan berlangsung dari pukul 1-3 sore	Pertemuan berlangsung dari pukul satu hingga tiga sore
Golongan darah saya adalah O+	Golongan darah saya adalah O positif
Air adalah H20	Air adalah H 2 O
Putar OU812 oleh Van Halen	Putar O U 8 1 2 oleh Van Halen
UTF-8 dengan BOM	UTF-8 dengan BOM
Nilainya $3,14	Nilainya tiga belas

Aturan normalisasi berikut ini secara otomatis diterapkan pada transkripsi:

Gunakan huruf kecil saja.
Hapus semua tanda baca kecuali apostrof dalam kata-kata.
Perluas angka ke dalam bentuk kata/lisan, seperti jumlah dolar.

Berikut adalah beberapa contoh normalisasi yang dilakukan secara otomatis pada transkripsi:

Teks asli	Teks setelah normalisasi (otomatis)
"Astaga!" kata Batman.	sapi suci kata batman
"Apa?" kata rekan Batman, Robin.	apa kata teman karib batman, Robin.
segera dapatkan!	segera dapatkan
Saya bersendi ganda	Saya bersendi ganda
104 Elm Street	satu oh empat jalan Elm
Hingga 102,7	tune ke satu oh dua titik tujuh
Pi adalah sekitar 3.14	pi adalah sekitar tiga titik satu empat

de-DE

Transkripsi berlabel manusia untuk audio bahasa Jerman harus dikodekan UTF-8 dengan penanda urutan byte.

Normalisasi teks untuk bahasa Jerman

Tulis koma desimal sebagai "," dan bukan ".".
Tulis pemisah waktu sebagai ":" dan bukan "." (misalnya: 12:00 Uhr).
Singkatan seperti "ca." tidak diganti. Kami menyarankan agar Anda menggunakan formulir yang diucapkan secara lengkap.
Empat operator matematika utama (+, -, *, and /) dihapus. Kami sarankan menggantinya dengan bentuk tertulis: "plus," "minus," "mal," dan "geteilt."
Operator perbandingan dihapus (=, <, dan >). Kami merekomendasikan menggantinya dengan "gleich," "kleiner als," dan "grösser als."
Tulis pecahan, seperti 3/4, dalam bentuk tertulis (misalnya: "drei viertel" alih-alih 3/4).
Ganti simbol "€" dengan bentuk tertulisnya "Euro."

Berikut adalah beberapa contoh normalisasi yang harus Anda lakukan pada transkripsi:

Teks asli	Teks setelah normalisasi pengguna	Teks setelah normalisasi sistem
Es ist 12.23 Uhr	Es ist 12:23 Uhr	es ist zwölf uhr drei und zwanzig uhr
{12.45}	{12,45}	zwölf komma vier fünf
2 + 3 - 4	2 ditambah 3 minus 4	zwei plus drei minus vier

Aturan normalisasi berikut ini secara otomatis diterapkan pada transkripsi:

Gunakan huruf kecil untuk semua teks.
Hapus semua tanda baca, termasuk berbagai jenis tanda kutip ("uji", 'uji', "uji", dan «uji» itu bagus).
Buang baris dengan karakter khusus apa pun dari set ini: ¢ @ ¥ ¦ © ª ¬ ® ± ± ² μ × ÿ Ø¬¬¬.
Perluas angka ke formulir lisan, termasuk jumlah dolar atau Euro.
Terima umlauts hanya untuk, o, dan u. Yang lain digantikan oleh "th" atau dibuang.

Berikut adalah beberapa contoh normalisasi yang dilakukan secara otomatis pada transkripsi:

Teks asli	Teks setelah normalisasi
Cincin Frankfurter	Cincin frankfurter
Eine Frage!	eine frage
Wir, haben	wir, haben

ja-JP

Dalam bahasa Jepang (ja-JP), panjang maksimum untuk setiap kalimat adalah 90 karakter. Baris dengan kalimat yang lebih panjang dibuang. Untuk menambahkan teks yang lebih panjang, sisipkan titik di antaranya.

zh-CN

Transkripsi berlabel manusia untuk audio Tionghoa harus dikodekan UTF-8 dengan penanda urutan byte. Hindari penggunaan karakter tanda baca setengah lebar. Karakter-karakter ini dapat disertakan secara tidak sengaja saat Anda menyiapkan data dalam program pemrosesan kata atau mengekstrak data dari halaman web. Jika karakter ini ada, pastikan memperbaruinya dengan substitusi ASCII yang sesuai.

Berikut beberapa contohnya:

Karakter yang harus dihindari	Substitusi	Catatan
"你好"	"你好"	Tanda kutip pembuka dan penutupan diganti dengan karakter yang sesuai.
需要什么帮助?	需要什么帮助？	Tanda tanya diganti dengan karakter yang sesuai.

Normalisasi teks untuk Bahasa Tionghoa

Tuliskan singkatan dengan kata-kata.
Tulis string numerik dalam bentuk lisan.

Berikut adalah beberapa contoh normalisasi yang harus Anda lakukan pada transkripsi:

Teks asli	Teks setelah normalisasi
我今年 21	我今年二十一
3 号楼 504	三号楼五零四

Aturan normalisasi berikut ini secara otomatis diterapkan pada transkripsi:

Hapus semua tanda baca.
Perluas angka ke formulir lisan.
Mengonversi huruf lebar penuh menjadi huruf lebar setengah.
Menggunakan huruf besar untuk semua kata bahasa Inggris.

Berikut adalah beberapa contoh normalisasi transkripsi otomatis:

Teks asli	Teks setelah normalisasi
3.1415	三点一四一五
￥ 3.5	三元五角
w f y z	W F Y Z
1992 年 8 月 8 日	一九九二年八月八日
你吃饭了吗?	你吃饭了吗
下午 5:00 的航班	下午五点的航班
我今年 21 岁	我今年二十一岁

Cara membuat transkripsi berlabel manusia

id-ID

Normalisasi teks untuk bahasa Inggris AS

de-DE

Normalisasi teks untuk bahasa Jerman

ja-JP

zh-CN

Normalisasi teks untuk Bahasa Tionghoa

Langkah berikutnya

Sumber Daya Tambahan: