Eğitim ve modelleme nedir?
Model, belirli bir dil çifti için çeviri sağlayan sistemdir. Başarılı bir eğitimin sonucu bir modeldir. Modeli eğitmek için birbirini dışlayan üç belge türü gerekir: eğitim, ayarlama ve test. Sözlük belge türü de sağlanabilir. Daha fazla bilgi için bkz. Tümce hizalama.
Eğitim kuyruğa alınırken yalnızca eğitim verileri sağlanıyorsa, Özel Çeviri verileri otomatik olarak ayarlar ve test eder. Eğitim belgelerinizdeki cümlelerin rastgele bir alt kümesini kullanır ve bu cümleleri eğitim verilerinin dışında tutar.
Özel Çevirmen için eğitim belgesi türü
Eğitim kümesine dahil edilen belgeler, özel çevirici tarafından modelinizi oluşturmak için temel olarak kullanılır. Eğitim yürütme sırasında, bu belgelerde bulunan tümceler hizalanır (veya eşleştirilir). Eğitim belgelerinizi oluştururken özgürlükler elde edebilirsiniz. Tanjantel ilgi düzeyine sahip olduğunu inandığınız belgeleri tek bir modele ekleyebilirsiniz. BLEU (İki Dilli Değerlendirme Yedekli) puanındaki etkiyi görmek için bunları bir başkasında hariç tutun. Ayarlama kümesini ve test kümesini sabit tuttuğunuz sürece, eğitim kümesinin bileşimiyle denemeler yapmaktan çekinmeyin. Bu yaklaşım, çeviri sisteminizin kalitesini değiştirmenin etkili bir yoludur.
Bir proje içinde birden çok eğitim çalıştırabilir ve tüm eğitim çalıştırmalarında BLEU puanlarını karşılaştırabilirsiniz. Karşılaştırma için birden çok eğitim çalıştırırken her seferinde aynı ayarlama/test verilerinin belirtildiğine emin olun. Ayrıca sonuçları "Test" sekmesinde el ile de incelediğinden emin olun.
Özel Çeviri için belge türünü ayarlama
Bu kümeye dahil edilen paralel belgeler, en iyi sonuçlar için çeviri sistemini ayarlamak için Özel Çeviri Aracı tarafından kullanılır.
Ayarlama verileri, çeviri sisteminin tüm parametrelerini ve ağırlıklarını en uygun değerlere ayarlamak için eğitim sırasında kullanılır. Ayarlama verilerinizi dikkatle seçin: Ayarlama verileri, gelecekte çevirmeyi planladığınız belgelerin içeriğini temsil etmelidir. Ayarlama verileri, üretilen çevirilerin kalitesi üzerinde önemli bir etkiye sahiptir. Ayarlama, çeviri sisteminin ayarlama verilerinde sağladığınız örneklere en yakın çevirileri sağlamasına olanak tanır. Ayarlama verilerinizde 2.500'den fazla cümleye ihtiyacınız yoktur. En iyi çeviri kalitesi için en temsili cümle seçimini seçerek ayarlama kümesini el ile seçmenizi öneririz.
Ayarlama kümenizi oluştururken, çevirmeyi beklediğiniz gelecekteki cümlelerin anlamlı ve temsili uzunluktaki cümleleri seçin. Gelecekteki çevirilerinizde beklediğiniz yaklaşık dağıtımda çevirmek istediğiniz sözcükleri ve tümcecikleri içeren tümceleri seçin. Uygulamada, 7 ile 10 sözcük arasında bir cümle uzunluğu en iyi sonuçları verir. Bu cümleler, aşırı karmaşık olmadan, inflection göstermek ve önemli bir tümcecik uzunluğu sağlamak için yeterli bağlam içerir.
Ayarlama kümesinde kullanılacak cümle türlerinin iyi bir açıklaması düz yazıdır: gerçek akıcı cümleler. Tablo hücreleri, şiirler değil, bir şey listesi değil, yalnızca noktalama işaretleri veya bir cümledeki sayılar değil - normal dil.
Ayarlama verilerinizi el ile seçerseniz, eğitim ve test verilerinizle aynı tümcelerden herhangi birine sahip olmamalıdır. Ayarlama verilerinin çevirilerin kalitesi üzerinde önemli bir etkisi vardır. Cümleleri dikkatle seçin.
Ayarlama verileriniz için ne seçeceğinizden emin değilseniz, eğitim verilerini seçmeniz ve Özel Çeviri'nin sizin için ayarlama verilerini seçmesine izin verin. Özel Çeviri Aracı'nın ayarlama verilerini otomatik olarak seçmesine izin verdiğinizde, iki dilli eğitim belgelerinizdeki cümlelerin rastgele bir alt kümesini kullanır ve bu cümleleri eğitim malzemesinin kendisinden hariç tutar.
Özel Çeviri için test veri kümesi
Test kümesine dahil edilen paralel belgeler, BLEU (İki Dilli Değerlendirme Yedekli) puanını hesaplamak için kullanılır. Bu puan çeviri sisteminizin kalitesini gösterir. Bu puan aslında bu eğitimden kaynaklanan çeviri sistemi tarafından yapılan çevirilerin test veri kümesindeki başvuru cümleleriyle ne kadar yakın olduğunu gösterir.
BLEU puanı, otomatik çeviri ile başvuru çevirisi arasındaki deltanın ölçümüdür. Değeri 0 ile 100 arasında değişir. 0 puanı, çeviride başvurunun tek bir sözcüğünün görünmediğini gösterir. 100 puanı, otomatik çevirinin başvuruyla tam olarak eşleşdiğini gösterir: aynı sözcük tam olarak aynı konumdadır. Aldığınız puan, test verilerinin tüm cümleleri için BLEU puan ortalamasıdır.
Test verileri, hedef dil cümlelerinin kaynak hedef çiftinde karşılık gelen kaynak dil cümlelerinin en çok istenen çevirileri olduğu paralel belgeler içermelidir. Ayarlama verilerini oluşturmak için kullandığınız ölçütlerin aynısını kullanmak isteyebilirsiniz. Ancak, test verilerinin çeviri sisteminin kalitesi üzerinde hiçbir etkisi yoktur ve yalnızca sizin için BLEU puanını oluşturmak için kullanılır.
Test verileri olarak 2.500'den fazla cümleye ihtiyacınız yoktur. Sistemin test kümesini otomatik olarak seçmesine izin verdiğinizde, iki dilli eğitim belgelerinizdeki cümlelerin rastgele bir alt kümesini kullanır ve bu cümleleri eğitim malzemesinin kendisinden hariç tutar.
Bir model içindeki test sekmesine giderek test kümesinin özel çevirilerini görüntüleyebilir ve bunları test kümenizde sağlanan çevirilerle karşılaştırabilirsiniz.