Mi az a betanítás és modellezés?
A modell a rendszer, amely egy adott nyelvi pár fordítását biztosítja. A sikeres betanítás eredménye egy modell. A modellek betanításához három kölcsönösen kizáró dokumentumtípus szükséges: betanítás, hangolás és tesztelés. A szótár dokumentumtípusa is megadható. További információ: Mondatigazítás.
Ha csak betanítási adatok állnak rendelkezésre a betanítások sorba helyezésekor, a Custom Translator automatikusan összeállítja a hangolási és tesztelési adatokat. A betanítási dokumentumokból származó mondatok véletlenszerű részhalmazát használja, és kizárja ezeket a mondatokat magából a betanítási adatokból.
Egyéni fordító betanítási dokumentumtípusa
A betanítási készletben szereplő dokumentumokat a Custom Translator használja a modell létrehozásához. A betanítás végrehajtása során az ezekben a dokumentumokban található mondatok egymáshoz vannak igazítva (vagy párosítva). A betanítási dokumentumok írása során szabadságjogokat is vállalhat. Egy modellben olyan dokumentumokat is felvehet, amelyekről úgy gondolja, hogy tangenciális jelentőséggel bírnak. Ismét zárja ki őket egy másik, hogy a hatás BLEU (Kétnyelvű értékelés Alástudy) pontszám. Mindaddig, amíg a hangolási készlet és a tesztkészlet állandó marad, nyugodtan kísérletezzen a betanítási készlet összetételével. Ez a megközelítés hatékony módszer a fordítási rendszer minőségének módosítására.
Egy projekten belül több képzést is futtathat, és összehasonlíthatja a BLEU pontszámait az összes betanítási futtatás során. Ha több betanítást futtat összehasonlítás céljából, győződjön meg arról, hogy minden alkalommal ugyanazok a hangolási/ tesztelési adatok vannak megadva. Győződjön meg arról is, hogy manuálisan is megvizsgálja az eredményeket a "Tesztelés" lapon.
Egyéni fordító dokumentumtípusának finomhangolása
Az ebben a készletben található párhuzamos dokumentumokat a Custom Translator használja a fordítási rendszer optimális eredményhez való finomhangolásához.
A betanítás során a finomhangolási adatok a fordítási rendszer összes paraméterét és súlyát az optimális értékekhez igazítják. Gondosan válassza ki a finomhangolási adatokat: a hangolási adatoknak reprezentatívnak kell lenniük a jövőben lefordítani kívánt dokumentumok tartalmára. A hangolási adatok jelentős hatással vannak a fordítások minőségére. A hangolás lehetővé teszi a fordítási rendszer számára, hogy a hangolási adatokban megadott mintákhoz legközelebb eső fordításokat biztosítson. Nincs szükség 2500-nál több mondatra a hangolási adatokban. Az optimális fordítási minőség érdekében javasoljuk, hogy a mondatok legreprezentálóbb kiválasztásával manuálisan válassza ki a hangolási csoportot.
A hangolási készlet létrehozásakor olyan mondatokat válasszon, amelyek a lefordítandó jövőbeli mondatok értelmes és reprezentatív hosszát jelentik. Válassza ki azokat a mondatokat, amelyekben szavak és kifejezések vannak, amelyeket a jövőbeli fordításokban elvárt közelítő eloszlásban szeretne lefordítani. A gyakorlatban a 7–10 szóból álló mondathossz hozza a legjobb eredményt. Ezek a mondatok elegendő kontextust tartalmaznak az inflexiós megjelenítéshez, és olyan kifejezéshosszt biztosítanak, amely jelentős, anélkül, hogy túlságosan összetettek.
A hangolási csoportban használandó mondatok típusának jó leírása a próza: a tényleges fluent mondatok. Nem táblázatcellák, nem versek, nem dolgok listája, nem csak írásjelek vagy számok egy mondatban - normál nyelv.
Ha manuálisan választja ki a finomhangolási adatokat, azoknak nem szabad ugyanazokkal a mondatokkal rendelkezniük, mint a betanítási és tesztelési adatok. A hangolási adatok jelentős hatással vannak a fordítások minőségére – gondosan válassza ki a mondatokat.
Ha nem biztos benne, hogy mit válasszon a hangolási adatokhoz, csak válassza ki a betanítási adatokat, és hagyja, hogy a Custom Translator válassza ki a finomhangolási adatokat. Ha lehetővé teszi, hogy a Custom Translator automatikusan válassza ki a hangolási adatokat, az a kétnyelvű betanítási dokumentumokból származó mondatok véletlenszerű részhalmazát használja, és kizárja ezeket a mondatokat magából a betanítási anyagból.
Egyéni fordító adatkészletének tesztelése
A tesztkészletben található párhuzamos dokumentumok a BLEU (kétnyelvű értékelés alsó szakosító) pontszámának kiszámítására szolgálnak. Ez a pontszám a fordítási rendszer minőségét jelzi. Ez a pontszám valójában azt mutatja meg, hogy a fordítási rendszer által a betanításból származó fordítások mennyire felelnek meg a tesztadatkészletben található referenciamondatoknak.
A BLEU-pontszám az automatikus fordítás és a referenciafordítás közötti különbség mérése. Értéke 0 és 100 között mozog. A 0-s pontszám azt jelzi, hogy a hivatkozás egyetlen szava sem jelenik meg a fordításban. A 100-es pontszám azt jelzi, hogy az automatikus fordítás pontosan megfelel a hivatkozásnak: ugyanaz a szó pontosan ugyanabban a helyzetben van. A kapott pontszám a BLEU-pontszám átlaga a tesztelési adatok összes mondatára vonatkozóan.
A tesztadatoknak olyan párhuzamos dokumentumokat kell tartalmazniuk, amelyekben a célnyelvi mondatok a forrás-cél pár megfelelő forrásnyelvi mondatainak legkívánatosabb fordításai. Előfordulhat, hogy ugyanazokat a feltételeket szeretné használni, mint a hangolási adatok megírásához. A tesztelési adatok azonban nem befolyásolják a fordítási rendszer minőségét, és kizárólag a BLEU pontszám létrehozására szolgálnak.
Tesztelési adatokként nincs szükség 2500-nál több mondatra. Ha hagyja, hogy a rendszer automatikusan válassza ki a tesztkészletet, a kétnyelvű betanítási dokumentumokból származó mondatok véletlenszerű részhalmazát használja, és kizárja ezeket a mondatokat magából a betanítási anyagból.
Megtekintheti a tesztkészlet egyéni fordításait, és összehasonlíthatja őket a tesztelési csoportban megadott fordításokkal, ha a modell tesztfülére lép.