Aracılığıyla paylaş


Azure AI Foundry özel çeviri için cümle çiftleme ve hizalama

Belgeler karşıya yüklendikten sonra paralel belgelerde bulunan tümceler eşleştirilir veya hizalanır. Özel çeviri, veri kümelerinin her birinde Hizalanmış Cümleler olarak eşleştirebileceği cümle sayısını bildirir.

Eşleştirme ve hizalama işlemi

Özel çeviri sistemi, cümlelerin çevirilerini her seferinde bir cümle olarak öğrenir. Kaynak metinden bir tümce okur ve ardından bu cümlenin hedef metinden çevirisini okur. Ardından bu iki cümledeki sözcükleri ve tümcecikleri birbirine hizalar. Bu işlem, tek bir cümledeki sözcüklerin ve tümceciklerin, tümcenin çevirisindeki eşdeğer sözcükler ve tümceciklerle eşlemini oluşturmasını sağlar. Hizalama, sistemin birbirinin çevirisi olan cümleler üzerinde eğitildiğinden emin olmaya çalışır.

Önceden hizalanmış belgeler

Paralel belgeleriniz olduğunu biliyorsanız, önceden hizalanmış metin dosyaları sağlayarak cümle hizalamasını geçersiz kılabilirsiniz. Her iki belgenin tüm cümlelerini metin dosyasına ayıklayabilir, satır başına bir cümle düzenleyebilir ve uzantıyla .align karşıya yükleyebilirsiniz. Uzantı, .align Özel Çeviri'ye cümle hizalamasını atlaması gerektiğini belirtir.

En iyi sonuçları elde etmek için dosyalarınızda satır başına bir cümle olduğundan emin olun. Tümce içinde yeni satır karakterleri yoktur; bu, kötü hizalamalara neden olur.

Önerilen en az cümle sayısı

Bir eğitimin başarılı olması için, aşağıdaki tabloda her belge türünde gereken en az cümle sayısı gösterilmektedir. Bu sınırlama, paralel cümlelerinizin çeviri modelini başarıyla eğitmek için yeterli benzersiz sözcük dağarcığı içermesini sağlayan bir güvenlik ağıdır. Genel kılavuz, insan çeviri kalitesinin daha yüksek kaliteli modeller üretmesi için etki alanı içi paralel cümlelere sahip olmaktır.

Belge türü Önerilen en düşük cümle sayısı En fazla cümle sayısı
Eğitim 10.000 Üst sınır yok
Ayarlama beş yüz 2.500
Test aşaması beş yüz 2.500
Sözlük 0 250,000

Uyarı

  • Eğitim için en az 10.000 cümle sayısı karşılanmazsa eğitim başlatılmaz ve başarısız olur.
  • Ayarlama ve test isteğe bağlıdır. Bunları sağlamazsanız, sistem doğrulama ve test için kullanılacak uygun bir yüzdeyi eğitimden kaldırır.
  • Modeli yalnızca sözlük verilerini kullanarak eğitebilirsiniz. Daha fazla bilgi için bkz. Sözlük nedir?
  • Belge Çevirisi özelliği, 250.000'den fazla cümle içeren sözlüklerle eğitim için önerilir. Daha fazla bilgi için bkz. Belge Çevirisi.
  • Ücretsiz (F0) abonelik eğitiminin en fazla 2.000.000 karakter sınırı vardır.

Sonraki Adımlar