Paralel belgelerde tümce eşleştirme ve hizalama
Belgeler karşıya yüklendikten sonra paralel belgelerde bulunan tümceler eşleştirilir veya hizalanır. Özel Çeviri, eşleştirebileceği tümcelerin sayısını veri kümelerinin her birinde Hizalanmış Tümceler olarak bildirir.
Eşleştirme ve hizalama işlemi
Özel Çeviri cümle çevirilerini tek tek öğrenir. Kaynak metinden bir tümce okur ve ardından bu cümlenin hedef metinden çevirisini okur. Ardından bu iki cümledeki sözcükleri ve tümcecikleri birbirine hizalar. Bu işlem, tek bir cümledeki sözcüklerin ve tümceciklerin, tümcenin çevirisindeki eşdeğer sözcükler ve tümceciklerle eşlemini oluşturmasını sağlar. Hizalama, sistemin birbirinin çevirisi olan cümleler üzerinde eğitildiğinden emin olmaya çalışır.
Önceden hizalanmış belgeler
Paralel belgeleriniz olduğunu biliyorsanız, önceden hizalanmış metin dosyaları sağlayarak cümle hizalamasını geçersiz kılabilirsiniz. Her iki belgenin tüm cümlelerini metin dosyasına ayıklayabilir, satır başına bir cümle düzenleyebilir ve uzantıyla .align
karşıya yükleyebilirsiniz. Uzantı, .align
Özel Çeviri tümce hizalamasını atlamasına işaret eder.
En iyi sonuçları elde etmek için dosyalarınızda satır başına bir cümle olduğundan emin olun. Tümce içinde yeni satır karakterleri yoktur; bu, kötü hizalamalara neden olur.
Önerilen en az cümle sayısı
Bir eğitimin başarılı olması için, aşağıdaki tabloda her belge türünde gereken en az cümle sayısı gösterilmektedir. Bu sınırlama, paralel cümlelerinizin çeviri modelini başarıyla eğitmek için yeterli benzersiz sözcük dağarcığı içermesini sağlayan bir güvenlik ağıdır. Genel kılavuz, insan çeviri kalitesinin daha yüksek kaliteli modeller üretmesi için etki alanı içi paralel cümlelere sahip olmaktır.
Document type | Önerilen en düşük cümle sayısı | En fazla cümle sayısı |
---|---|---|
Eğitim | Kategori 10,000 | Üst sınır yok |
Ayarlama | 500 | 2.500 |
Test Etme | 500 | 2.500 |
Sözlük | 0 | 250,000 |
Not
- Eğitim başlatılmaz ve Eğitim için en az 10.000 cümle sayısı karşılanmazsa başarısız olur.
- Ayarlama ve Test isteğe bağlıdır. Bunları sağlamazsanız, sistem doğrulama ve test için kullanmak üzere Eğitim'den uygun bir yüzdeyi kaldırır.
- Modeli yalnızca sözlük verilerini kullanarak eğitebilirsiniz. Lütfen Sözlük nedir? konusuna bakın.
- Sözlüğünüz 250.000'den fazla cümle içeriyorsa, Belge Çevirisi özelliğimiz daha iyi bir seçimdir. Lütfen Belge Çevirisi'ne bakın.
- Ücretsiz (F0) abonelik eğitiminin en fazla 2.000.000 karakter sınırı vardır.