Mondatpárosítás és -igazítás párhuzamos dokumentumokban
A dokumentumok feltöltése után a párhuzamos dokumentumokban található mondatok párosítva vagy igazítva lesznek. A Custom Translator jelenti, hogy hány mondatot tudott igazított mondatként párosítani az egyes adathalmazokban.
Párosítási és igazítási folyamat
A Custom Translator egyszerre egy mondatban tanulja meg a mondatok fordítását. Felolvas egy mondatot a forrásszövegből, majd a mondat fordítását a célszövegből. Ezután a két mondatban lévő szavakat és kifejezéseket egymáshoz igazítja. Ez a folyamat lehetővé teszi, hogy egy mondatban a szavak és kifejezések térképét hozza létre a mondat fordításában lévő egyenértékű szavakkal és kifejezésekkel. Az igazítás megpróbálja biztosítani, hogy a rendszer egymás fordítását tartalmazó mondatokra edzhessen.
Előre elaltatott dokumentumok
Ha tudja, hogy párhuzamos dokumentumokkal rendelkezik, felülbírálhatja a mondatigazítást előre meghatározott szövegfájlok megadásával. Mindkét dokumentumból kinyerheti az összes mondatot szövegfájlba, soronként egy mondatot rendszerezhet, és bővítményekkel .align
feltöltheti őket. A .align
bővítmény jelzi a Custom Translatornek, hogy kihagyja a mondatok igazítását.
A legjobb eredmény érdekében győződjön meg arról, hogy soronként egy mondat szerepel a fájlokban. Nincs új vonal karaktere egy mondaton belül – ez rossz igazítást okoz.
Mondatok javasolt minimális száma
A sikeres betanításhoz az alábbi táblázat az egyes dokumentumtípusokhoz szükséges mondatok minimális számát mutatja. Ez a korlátozás egy biztonsági háló, amely biztosítja, hogy a párhuzamos mondatok elegendő egyedi szókészletet tartalmazzanak a fordítási modell sikeres betanításához. Az általános útmutató több, az emberi fordítás minőségére vonatkozó párhuzamos mondatokkal rendelkezik, amelyek jobb minőségű modelleket eredményeznek.
Dokumentum típusa | Javasolt minimális mondatszám | Mondatok maximális száma |
---|---|---|
Oktatás | 10,000. | Nincs felső korlát |
Finomhangolás | 500 | 2500 |
Tesztelés | 500 | 2500 |
Szótár | 0 | 250 000 |
Feljegyzés
- A betanítás nem indul el, és sikertelen lesz, ha a Betanítás 10 000 minimális mondatszáma nem teljesül.
- A hangolás és a tesztelés nem kötelező. Ha nem adja meg őket, a rendszer eltávolítja a megfelelő százalékot a betanításból az ellenőrzéshez és teszteléshez.
- A modelleket csak szótáradatokkal taníthatja be. Tekintse meg a Mi a szótár című témakört.
- Ha a szótár több mint 250 000 mondatot tartalmaz, a Dokumentumfordítás funkció jobb választás. Tekintse meg a dokumentumfordítást.
- Az ingyenes (F0) előfizetések betanítása legfeljebb 2 000 000 karakter hosszúságú lehet.