Mi az a betanítás és modellezés?

Cikk
09/01/2024

A modell a rendszer, amely egy adott nyelvi pár fordítását biztosítja. A sikeres betanítás eredménye egy modell. A modellek betanításához három kölcsönösen kizáró dokumentumtípus szükséges: betanítás, hangolás és tesztelés. A szótár dokumentumtípusa is megadható. További információ: Mondatigazítás.

Ha csak betanítási adatok állnak rendelkezésre a betanítások sorba helyezésekor, a Custom Translator automatikusan összeállítja a hangolási és tesztelési adatokat. A betanítási dokumentumokból származó mondatok véletlenszerű részhalmazát használja, és kizárja ezeket a mondatokat magából a betanítási adatokból.

Egyéni fordító betanítási dokumentumtípusa

A betanítási készletben szereplő dokumentumokat a Custom Translator használja a modell létrehozásához. A betanítás végrehajtása során az ezekben a dokumentumokban található mondatok egymáshoz vannak igazítva (vagy párosítva). A betanítási dokumentumok írása során szabadságjogokat is vállalhat. Egy modellben olyan dokumentumokat is felvehet, amelyekről úgy gondolja, hogy tangenciális jelentőséggel bírnak. Ismét zárja ki őket egy másik, hogy a hatás BLEU (Kétnyelvű értékelés Alástudy) pontszám. Mindaddig, amíg a hangolási készlet és a tesztkészlet állandó marad, nyugodtan kísérletezzen a betanítási készlet összetételével. Ez a megközelítés hatékony módszer a fordítási rendszer minőségének módosítására.

Egy projekten belül több képzést is futtathat, és összehasonlíthatja a BLEU pontszámait az összes betanítási futtatás során. Ha több betanítást futtat összehasonlítás céljából, győződjön meg arról, hogy minden alkalommal ugyanazok a hangolási/ tesztelési adatok vannak megadva. Győződjön meg arról is, hogy manuálisan is megvizsgálja az eredményeket a "Tesztelés" lapon.

Egyéni fordító dokumentumtípusának finomhangolása

Az ebben a készletben található párhuzamos dokumentumokat a Custom Translator használja a fordítási rendszer optimális eredményhez való finomhangolásához.

A betanítás során a finomhangolási adatok a fordítási rendszer összes paraméterét és súlyát az optimális értékekhez igazítják. Gondosan válassza ki a finomhangolási adatokat: a hangolási adatoknak reprezentatívnak kell lenniük a jövőben lefordítani kívánt dokumentumok tartalmára. A hangolási adatok jelentős hatással vannak a fordítások minőségére. A hangolás lehetővé teszi a fordítási rendszer számára, hogy a hangolási adatokban megadott mintákhoz legközelebb eső fordításokat biztosítson. Nincs szükség 2500-nál több mondatra a hangolási adatokban. Az optimális fordítási minőség érdekében javasoljuk, hogy a mondatok legreprezentálóbb kiválasztásával manuálisan válassza ki a hangolási csoportot.

A hangolási készlet létrehozásakor olyan mondatokat válasszon, amelyek a lefordítandó jövőbeli mondatok értelmes és reprezentatív hosszát jelentik. Válassza ki azokat a mondatokat, amelyekben szavak és kifejezések vannak, amelyeket a jövőbeli fordításokban elvárt közelítő eloszlásban szeretne lefordítani. A gyakorlatban a 7–10 szóból álló mondathossz hozza a legjobb eredményt. Ezek a mondatok elegendő kontextust tartalmaznak az inflexiós megjelenítéshez, és olyan kifejezéshosszt biztosítanak, amely jelentős, anélkül, hogy túlságosan összetettek.

A hangolási csoportban használandó mondatok típusának jó leírása a próza: a tényleges fluent mondatok. Nem táblázatcellák, nem versek, nem dolgok listája, nem csak írásjelek vagy számok egy mondatban - normál nyelv.

Ha manuálisan választja ki a finomhangolási adatokat, azoknak nem szabad ugyanazokkal a mondatokkal rendelkezniük, mint a betanítási és tesztelési adatok. A hangolási adatok jelentős hatással vannak a fordítások minőségére – gondosan válassza ki a mondatokat.

Ha nem biztos benne, hogy mit válasszon a hangolási adatokhoz, csak válassza ki a betanítási adatokat, és hagyja, hogy a Custom Translator válassza ki a finomhangolási adatokat. Ha lehetővé teszi, hogy a Custom Translator automatikusan válassza ki a hangolási adatokat, az a kétnyelvű betanítási dokumentumokból származó mondatok véletlenszerű részhalmazát használja, és kizárja ezeket a mondatokat magából a betanítási anyagból.

Egyéni fordító adatkészletének tesztelése

A tesztkészletben található párhuzamos dokumentumok a BLEU (kétnyelvű értékelés alsó szakosító) pontszámának kiszámítására szolgálnak. Ez a pontszám a fordítási rendszer minőségét jelzi. Ez a pontszám valójában azt mutatja meg, hogy a fordítási rendszer által a betanításból származó fordítások mennyire felelnek meg a tesztadatkészletben található referenciamondatoknak.

A BLEU-pontszám az automatikus fordítás és a referenciafordítás közötti különbség mérése. Értéke 0 és 100 között mozog. A 0-s pontszám azt jelzi, hogy a hivatkozás egyetlen szava sem jelenik meg a fordításban. A 100-es pontszám azt jelzi, hogy az automatikus fordítás pontosan megfelel a hivatkozásnak: ugyanaz a szó pontosan ugyanabban a helyzetben van. A kapott pontszám a BLEU-pontszám átlaga a tesztelési adatok összes mondatára vonatkozóan.

A tesztadatoknak olyan párhuzamos dokumentumokat kell tartalmazniuk, amelyekben a célnyelvi mondatok a forrás-cél pár megfelelő forrásnyelvi mondatainak legkívánatosabb fordításai. Előfordulhat, hogy ugyanazokat a feltételeket szeretné használni, mint a hangolási adatok megírásához. A tesztelési adatok azonban nem befolyásolják a fordítási rendszer minőségét, és kizárólag a BLEU pontszám létrehozására szolgálnak.

Tesztelési adatokként nincs szükség 2500-nál több mondatra. Ha hagyja, hogy a rendszer automatikusan válassza ki a tesztkészletet, a kétnyelvű betanítási dokumentumokból származó mondatok véletlenszerű részhalmazát használja, és kizárja ezeket a mondatokat magából a betanítási anyagból.

Megtekintheti a tesztkészlet egyéni fordításait, és összehasonlíthatja őket a tesztelési csoportban megadott fordításokkal, ha a modell tesztfülére lép.

Következő lépések

A modell tesztelése és kiértékelése

Megosztás a következőn keresztül:

Mi az a betanítás és modellezés?

Egyéni fordító betanítási dokumentumtípusa

Egyéni fordító dokumentumtípusának finomhangolása

Egyéni fordító adatkészletének tesztelése

Következő lépések

Visszajelzés

További források