Share via


Mik azok a betanítások és modellezések?

A modell a rendszer, amely fordítást biztosít egy adott nyelvpárhoz. A sikeres betanítás eredménye egy modell. A modellek betanításához három egymást kölcsönösen kizáró dokumentumtípus szükséges: betanítás, finomhangolás és tesztelés. A szótár dokumentumtípusa is megadható. További információ :Mondatok igazítása.

Ha csak betanítási adatokat ad meg a betanítások várólistára helyezésekor, a Custom Translator automatikusan összeállítja a hangolási és tesztelési adatokat. A betanítási dokumentumokban lévő mondatok véletlenszerű részhalmazát fogja használni, és kizárja ezeket a mondatokat magából a betanítási adatokból.

A Custom Translator betanítási dokumentumtípusa

A betanítási készletben található dokumentumokat a Custom Translator használja a modell létrehozásának alapjaként. A betanítás végrehajtása során az ezekben a dokumentumokban található mondatok egymáshoz vannak igazítva (vagy párosítva). A betanítási dokumentumok megírásához szabadságjogokat is igénybe vehet. Egy modellben olyan dokumentumokat is felvehet, amelyekről úgy gondolja, hogy tangenciális jelentőséggel bírnak. Ismét zárja ki őket egy másik, hogy a hatás BLEU (kétnyelvű értékelés Understudy) pontszám. Amíg a hangolási készlet és a tesztkészlet állandó marad, nyugodtan kísérletezzen a betanítási készlet összetételével. Ezzel a módszerrel hatékonyan módosíthatja a fordítási rendszer minőségét.

Egy projekten belül több képzést is futtathat, és összehasonlíthatja a BLEU-pontszámokat az összes betanítási futtatás során. Ha több betanítást futtat összehasonlítás céljából, győződjön meg arról, hogy minden alkalommal ugyanazok a hangolási/tesztelési adatok vannak megadva. Győződjön meg arról is, hogy az eredményeket manuálisan is megvizsgálja a "Tesztelés" lapon.

A Custom Translator dokumentumtípusának finomhangolása

Az ebben a készletben található párhuzamos dokumentumokat a Custom Translator használja a fordítási rendszer optimális eredményhez való finomhangolásához.

A betanítás során a hangolási adatok a fordítási rendszer összes paraméterét és súlyát az optimális értékekhez igazítják. Gondosan válassza ki a hangolási adatokat: a hangolási adatoknak reprezentatívnak kell lenniük a jövőben lefordítani kívánt dokumentumok tartalmára. A hangolási adatok jelentős hatással vannak a fordítások minőségére. A hangolás lehetővé teszi, hogy a fordítási rendszer olyan fordításokat biztosítson, amelyek a legközelebb állnak a hangolási adatokban megadott mintákhoz. A hangolási adatokban nincs szükség 2500-nál több mondatra. Az optimális fordítási minőség érdekében javasoljuk, hogy manuálisan válassza ki a hangolási csoportot a mondatok legreprezentációsabb kiválasztásával.

A hangolási készlet létrehozásakor olyan mondatokat válasszon, amelyek a lefordítandó jövőbeli mondatok kifejező és reprezentatív hosszát jelentik. Válassza ki azokat a mondatokat, amelyekben szavakat és kifejezéseket szeretne lefordítani a jövőbeli fordításokban elvárt közelítő eloszlásban. A gyakorlatban a 7–10 szóból álló mondathossz a legjobb eredmény. Ezek a mondatok elegendő kontextust tartalmaznak az inflexiós megjelenítéshez, és olyan kifejezéshosszt biztosítanak, amely jelentős, anélkül, hogy túl összetettek.

A hangolási készletben használandó mondatok típusának jó leírása a próza: tényleges fluent mondatok. Nem táblázatcellák, nem versek, nem dolgok listája, nem csak írásjelek vagy számok egy mondatban - normál nyelven.

Ha manuálisan választja ki a hangolási adatokat, azoknak nem szabad ugyanazokkal a mondatokkal rendelkezniük, mint a betanítási és tesztelési adatoknak. A hangolási adatok jelentős hatással vannak a fordítások minőségére – gondosan válassza ki a mondatokat.

Ha nem tudja biztosan, hogy mit válasszon a hangolási adatokhoz, csak válassza ki a betanítási adatokat, és hagyja, hogy a Custom Translator válassza ki a finomhangolási adatokat. Ha engedélyezi a Custom Translatornek a hangolási adatok automatikus kiválasztását, az a kétnyelvű betanítási dokumentumokban szereplő mondatok véletlenszerű részhalmazát fogja használni, és kizárja ezeket a mondatokat magából a képzési anyagból.

Adatkészlet tesztelése a Custom Translatorhez

A tesztelési készletben található párhuzamos dokumentumok a BLEU -pontszám (kétnyelvű értékelési alapszintű) kiszámítására szolgálnak. Ez a pontszám a fordítási rendszer minőségét jelzi. Ez a pontszám valójában azt jelzi, hogy a fordítási rendszer által a betanításból származó fordítások mennyire felelnek meg a tesztadatkészletben található referenciamondatoknak.

A BLEU-pontszám az automatikus fordítás és a referenciafordítás közötti különbség mérése. Értéke 0 és 100 között mozog. A 0 pontszám azt jelzi, hogy a hivatkozás egyetlen szava sem jelenik meg a fordításban. A 100-es pontszám azt jelzi, hogy az automatikus fordítás pontosan egyezik a hivatkozással: ugyanaz a szó pontosan ugyanabban a helyzetben van. A kapott pontszám a BLEU-pontszám átlaga a tesztelési adatok összes mondatára vonatkozóan.

A tesztadatoknak olyan párhuzamos dokumentumokat kell tartalmazniuk, amelyekben a célnyelvi mondatok a célnyelvi mondatok megfelelő forrásnyelvi mondatainak legkívánatosabb fordításai a forrás-cél párban. Előfordulhat, hogy ugyanazokat a feltételeket szeretné használni, mint a hangolási adatok írásához. A tesztelési adatok azonban nem befolyásolják a fordítási rendszer minőségét. Kizárólag a BLEU-pontszám létrehozására szolgál.

A tesztelési adatokhoz nincs szükség 2500-nál több mondatra. Ha hagyja, hogy a rendszer automatikusan kiválassza a tesztelési készletet, a kétnyelvű betanítási dokumentumokban szereplő mondatok véletlenszerű részhalmazát fogja használni, és kizárja ezeket a mondatokat magából a tananyagból.

Megtekintheti a tesztelési csoport egyéni fordításait, és összehasonlíthatja őket a tesztelési készletben megadott fordításokkal, ha a modell tesztlapjára lép.

Következő lépések