Megosztás a következőn keresztül:


Mondatpárosítás és -igazítás párhuzamos dokumentumokban

A dokumentumok feltöltése után a párhuzamos dokumentumokban található mondatok párosítva vagy igazítva lesznek. A Custom Translator jelenti, hogy hány mondatot tudott igazított mondatként párosítani az egyes adathalmazokban.

Párosítási és igazítási folyamat

A Custom Translator egyszerre egy mondatban tanulja meg a mondatok fordítását. Felolvas egy mondatot a forrásszövegből, majd a mondat fordítását a célszövegből. Ezután a két mondatban lévő szavakat és kifejezéseket egymáshoz igazítja. Ez a folyamat lehetővé teszi, hogy egy mondatban a szavak és kifejezések térképét hozza létre a mondat fordításában lévő egyenértékű szavakkal és kifejezésekkel. Az igazítás megpróbálja biztosítani, hogy a rendszer egymás fordítását tartalmazó mondatokra edzhessen.

Előre elaltatott dokumentumok

Ha tudja, hogy párhuzamos dokumentumokkal rendelkezik, felülbírálhatja a mondatigazítást előre meghatározott szövegfájlok megadásával. Mindkét dokumentumból kinyerheti az összes mondatot szövegfájlba, soronként egy mondatot rendszerezhet, és bővítményekkel .align feltöltheti őket. A .align bővítmény jelzi a Custom Translatornek, hogy kihagyja a mondatok igazítását.

A legjobb eredmény érdekében győződjön meg arról, hogy soronként egy mondat szerepel a fájlokban. Nincs új vonal karaktere egy mondaton belül – ez rossz igazítást okoz.

Mondatok javasolt minimális száma

A sikeres betanításhoz az alábbi táblázat az egyes dokumentumtípusokhoz szükséges mondatok minimális számát mutatja. Ez a korlátozás egy biztonsági háló, amely biztosítja, hogy a párhuzamos mondatok elegendő egyedi szókészletet tartalmazzanak a fordítási modell sikeres betanításához. Az általános útmutató több, az emberi fordítás minőségére vonatkozó párhuzamos mondatokkal rendelkezik, amelyek jobb minőségű modelleket eredményeznek.

Dokumentum típusa Javasolt minimális mondatszám Mondatok maximális száma
Oktatás 10,000. Nincs felső korlát
Finomhangolás 500 2500
Tesztelés 500 2500
Szótár 0 250 000

Feljegyzés

  • A betanítás nem indul el, és sikertelen lesz, ha a Betanítás 10 000 minimális mondatszáma nem teljesül.
  • A hangolás és a tesztelés nem kötelező. Ha nem adja meg őket, a rendszer eltávolítja a megfelelő százalékot a betanításból az ellenőrzéshez és teszteléshez.
  • A modelleket csak szótáradatokkal taníthatja be. Tekintse meg a Mi a szótár című témakört.
  • Ha a szótár több mint 250 000 mondatot tartalmaz, a Dokumentumfordítás funkció jobb választás. Tekintse meg a dokumentumfordítást.
  • Az ingyenes (F0) előfizetések betanítása legfeljebb 2 000 000 karakter hosszúságú lehet.

Következő lépések