Share via


Paralel belgelerde tümce eşleştirme ve hizalama

Belgeler karşıya yüklendikten sonra paralel belgelerde bulunan tümceler eşleştirilir veya hizalanır. Özel Çeviri, eşleştirebileceği tümcelerin sayısını veri kümelerinin her birinde Hizalanmış Tümceler olarak bildirir.

Eşleştirme ve hizalama işlemi

Özel Çeviri cümle çevirilerini tek tek öğrenir. Kaynak metinden bir tümce okur ve ardından bu cümlenin hedef metinden çevirisini okur. Ardından bu iki cümledeki sözcükleri ve tümcecikleri birbirine hizalar. Bu işlem, tek bir cümledeki sözcüklerin ve tümceciklerin, tümcenin çevirisindeki eşdeğer sözcükler ve tümceciklerle eşlemini oluşturmasını sağlar. Hizalama, sistemin birbirinin çevirisi olan cümleler üzerinde eğitildiğinden emin olmaya çalışır.

Önceden hizalanmış belgeler

Paralel belgeleriniz olduğunu biliyorsanız, önceden hizalanmış metin dosyaları sağlayarak cümle hizalamasını geçersiz kılabilirsiniz. Her iki belgenin tüm cümlelerini metin dosyasına ayıklayabilir, satır başına bir cümle düzenleyebilir ve uzantıyla .align karşıya yükleyebilirsiniz. Uzantı, .align Özel Çeviri tümce hizalamasını atlamasına işaret eder.

En iyi sonuçları elde etmek için dosyalarınızda satır başına bir cümle olduğundan emin olun. Tümce içinde yeni satır karakterleri yoktur; bu, kötü hizalamalara neden olur.

Önerilen en az cümle sayısı

Bir eğitimin başarılı olması için, aşağıdaki tabloda her belge türünde gereken en az cümle sayısı gösterilmektedir. Bu sınırlama, paralel cümlelerinizin çeviri modelini başarıyla eğitmek için yeterli benzersiz sözcük dağarcığı içermesini sağlayan bir güvenlik ağıdır. Genel kılavuz, insan çeviri kalitesinin daha yüksek kaliteli modeller üretmesi için etki alanı içi paralel cümlelere sahip olmaktır.

Document type Önerilen en düşük cümle sayısı En fazla cümle sayısı
Eğitim Kategori 10,000 Üst sınır yok
Ayarlama 500 2.500
Test Etme 500 2.500
Sözlük 0 250,000

Not

  • Eğitim başlatılmaz ve Eğitim için en az 10.000 cümle sayısı karşılanmazsa başarısız olur.
  • Ayarlama ve Test isteğe bağlıdır. Bunları sağlamazsanız, sistem doğrulama ve test için kullanmak üzere Eğitim'den uygun bir yüzdeyi kaldırır.
  • Modeli yalnızca sözlük verilerini kullanarak eğitebilirsiniz. Lütfen Sözlük nedir? konusuna bakın.
  • Sözlüğünüz 250.000'den fazla cümle içeriyorsa, Belge Çevirisi özelliğimiz daha iyi bir seçimdir. Lütfen Belge Çevirisi'ne bakın.
  • Ücretsiz (F0) abonelik eğitiminin en fazla 2.000.000 karakter sınırı vardır.

Sonraki adımlar