Bagikan melalui


Apa itu pelatihan dan pemodelan?

Model adalah sistem, yang menyediakan terjemahan untuk pasangan bahasa tertentu. Hasil dari pelatihan yang sukses adalah model. Untuk melatih model, diperlukan tiga jenis dokumen yang saling eksklusif: pelatihan, pengaturan, dan pengujian. Jenis dokumen kamus juga dapat disediakan. Untuk informasi selengkapnya, lihatPerataan Kalimat.

Jika hanya data pelatihan yang diberikan saat mengantre pelatihan, Penerjemah Kustom akan secara otomatis merakit data penyetelan dan pengujian. Ini akan menggunakan subset kalimat acak dari dokumen pelatihan Anda, dan mengecualikan kalimat ini dari data pelatihan itu sendiri.

Jenis dokumen pelatihan untuk Penerjemah Kustom

Dokumen yang disertakan dalam kumpulan pelatihan digunakan oleh Penerjemah Kustom sebagai dasar untuk membangun model Anda. Selama eksekusi pelatihan, kalimat yang ada dalam dokumen-dokumen ini diselaraskan (atau dipasangkan). Anda dapat mengambil kebebasan dalam menyusun sekumpulan dokumen pelatihan Anda. Anda dapat menyertakan dokumen yang Anda yakini memiliki relevansi yang bersinggungan dalam satu model. Sekali lagi, kecualikan dokumen di lainnya untuk melihat dampak dalam skor BLEU (Bilingual Evaluation Understudy). Selama Anda menyimpan set penyetelan dan pengujian konstan, jangan ragu untuk bereksperimen dengan komposisi set pelatihan. Pendekatan ini adalah cara yang efektif untuk memodifikasi kualitas sistem terjemahan Anda.

Anda dapat menjalankan beberapa pelatihan dalam proyek dan membandingkan skor BLEU di semua pelatihan. Saat Anda menjalankan beberapa pelatihan untuk perbandingan, pastikan data pengaturan/pengujian yang sama ditentukan setiap waktu. Pastikan juga untuk memeriksa hasilnya secara manual di tab “Pengujian”.

Jenis dokumen penyetelan untuk Penerjemah Kustom

Dokumen paralel yang disertakan dalam set ini digunakan oleh Penerjemah Kustom untuk menyetel sistem terjemahan untuk hasil yang optimal.

Data penyetelan digunakan selama pelatihan untuk menyesuaikan semua parameter dan bobot sistem terjemahan dengan nilai optimal. Pilih data penyetelan Anda dengan hati-hati: data penyetelan harus mewakili konten dokumen yang ingin Anda terjemahkan di masa mendatang. Data penyetelan memiliki pengaruh besar pada kualitas terjemahan yang dihasilkan. Penyetelan memungkinkan sistem penerjemahan menyediakan terjemahan yang paling dekat dengan sampel yang Anda berikan dalam data penyetelan. Anda tidak memerlukan lebih dari 2500 kalimat dalam data pengaturan Anda. Untuk kualitas terjemahan yang optimal, disarankan untuk memilih set pengaturan secara manual dengan memilih pilihan kalimat yang paling representatif.

Saat membuat set penyetelan, pilih kalimat yang bermakna dan panjang representatif dari kalimat mendatang yang Anda harapkan untuk diterjemahkan. Pilih kalimat yang memiliki kata dan frasa yang ingin Anda terjemahkan dalam perkiraan distribusi yang Anda harapkan dalam terjemahan Anda di masa mendatang. Dalam praktiknya, panjang kalimat 7 hingga 10 kata akan menghasilkan hasil terbaik. Kalimat-kalimat ini mengandung konteks yang cukup untuk menunjukkan infleksi dan memberikan panjang frasa yang signifikan, tanpa terlalu kompleks.

Deskripsi yang baik tentang jenis kalimat yang akan digunakan dalam set penyetelan adalah prosa: kalimat fasih aktual. Bukan sel tabel, bukan puisi, bukan daftar sesuatu, bukan hanya tanda baca, atau angka dalam kalimat - bahasa biasa.

Jika Anda memilih data pengaturan secara manual, seharusnya tidak ada kalimat yang sama dengan data pelatihan dan pengujian Anda. Data penyetelan memiliki dampak signifikan pada kualitas terjemahan - pilih kalimat dengan hati-hati.

Jika Anda tidak yakin apa yang harus dipilih untuk data pengaturan, cukup pilih data pelatihan dan biarkan Penerjemah Kustom memilih data pengaturan untuk Anda. Ketika Anda membiarkan Penerjemah Kustom memilih data penyetelan secara otomatis, ini akan menggunakan subset kalimat acak dari dokumen pelatihan dwibahasa Anda dan mengecualikan kalimat ini dari materi pelatihan itu sendiri.

Menguji himpunan data untuk Penerjemah Kustom

Dokumen paralel yang disertakan dalam set pengujian digunakan untuk menghitung skor BLEU (Bilingual Evaluation Understudy). Skor ini menunjukkan kualitas sistem terjemahan Anda. Skor ini benar-benar memberi tahu Anda seberapa sesuai terjemahan yang dilakukan oleh sistem terjemahan yang dihasilkan dari pelatihan ini dengan kalimat referensi dalam himpunan data pengujian.

Skor BLEU adalah pengukuran delta antara terjemahan otomatis dan terjemahan referensi. Nilainya berkisar antara 0 hingga 100. Skor 0 menunjukkan bahwa tidak ada satu kata pun dari referensi yang muncul dalam terjemahan. Skor 100 menunjukkan bahwa terjemahan otomatis sama persis dengan referensi: kata yang sama berada di posisi yang sama persis. Skor yang Anda terima adalah rata-rata skor BLEU untuk semua kalimat data pengujian.

Data pengujian harus mencakup dokumen paralel di mana kalimat bahasa target adalah terjemahan yang paling diinginkan dari kalimat bahasa sumber yang sesuai dalam pasangan target sumber. Anda mungkin ingin menggunakan kriteria yang sama dengan yang Anda gunakan untuk menyusun data penyetelan. Namun, data pengujian tidak memiliki pengaruh atas kualitas sistem terjemahan. Ini digunakan secara eksklusif untuk menghasilkan skor BLEU untuk Anda.

Anda tidak memerlukan lebih dari 2.500 kalimat sebagai data pengujian. Ketika Anda membiarkan sistem memilih set penyetelan secara otomatis, ini akan menggunakan subset kalimat acak dari dokumen pelatihan dwibahasa Anda dan mengecualikan kalimat ini dari materi pelatihan itu sendiri.

Anda dapat melihat terjemahan kustom dari set pengujian, dan membandingkannya dengan terjemahan yang disediakan dalam set pengujian Anda, dengan menavigasi ke tab pengujian dalam model.

Langkah berikutnya