Adatok előkészítése és séma definiálása egyéni NER-hez

Cikk
10/16/2024

Egyéni NER-modell létrehozásához minőségi adatokra lesz szüksége a betanítása érdekében. Ez a cikk bemutatja, hogyan kell kiválasztani és előkészíteni az adatokat, valamint egy sémát definiálni. A séma meghatározása a projektfejlesztési életciklus első lépése, és meghatározza azokat az entitástípusokat/kategóriákat, amelyeket a modellnek ki kell nyernie a szövegből futásidőben.

Sématerv

A séma meghatározza azokat az entitástípusokat/kategóriákat, amelyeket a modellnek ki kell nyernie a szövegből futásidőben.

Tekintse át az adathalmaz dokumentumait, hogy megismerje azok formátumát és szerkezetét.
Azonosítsa az adatokból kinyerni kívánt entitásokat .

Ha például entitásokat nyer ki támogatási e-mailekből, előfordulhat, hogy ki kell nyernie az "Ügyfél nevét", a "Termék nevét", a "Kérelem dátumát" és a "Kapcsolattartási adatokat".
Kerülje az entitástípusok kétértelműségét.

Kétértelműség akkor fordul elő, ha a kiválasztott entitástípusok hasonlóak egymáshoz. Minél nem egyértelműbb a séma, annál több címkézett adatra lesz szüksége a különböző entitástípusok megkülönböztetéséhez.

Ha például jogi szerződésből nyer ki adatokat, az "Első fél neve" és a "Második fél neve" kinyeréséhez további példákat kell hozzáadnia a kétértelműség leküzdéséhez, mivel mindkét fél neve hasonló. Kerülje a kétértelműséget, mivel időt, energiát takarít meg, és jobb eredményeket ad.
Kerülje az összetett entitásokat. Az összetett entitásokat nehéz lehet pontosan kiválasztani a szövegből, érdemes lehet több entitásra bontani.

A "Cím" kinyerése például kihívást jelent, ha nem kisebb entitásokra van bontva. A címek megjelenésének annyi variációja van, hogy sok címkézett entitásra lenne szükség ahhoz, hogy megtanítsa a modellt egy cím egészének kinyerésére anélkül, hogy lebontaná azt. Ha azonban a "Cím" helyett az "Utcanév", a "PO Box", a "Város", az "Állapot" és a "Zip" kifejezés szerepel, a modellnek entitásonként kevesebb címkére lesz szüksége.

Adatkijelölés

A modell betanítása során betanított adatok minősége nagyban befolyásolja a modell teljesítményét.

Valós adatokat használjon, amelyek tükrözik a tartomány problématerét a modell hatékony betanítása érdekében. Szintetikus adatokkal felgyorsíthatja a modell kezdeti betanítási folyamatát, de valószínűleg eltér a valós adatoktól, és kevésbé hatékonyan használja a modellt.
Az adateloszlást a lehető legnagyobb mértékben kiegyensúlyozza anélkül, hogy a valós terjesztéstől távolra térnél. Ha például betanítja a modellt arra, hogy entitásokat nyerjen ki olyan jogi dokumentumokból, amelyek számos különböző formátumban és nyelven érkezhetnek, olyan példákat kell megadnia, amelyek a valóságban elvárható sokszínűséget szemléltetik.
A modell túlillesztésének elkerülése érdekében lehetőség szerint használjon változatos adatokat. A betanítási adatok kisebb változatossága a modell tanulási célravezető korrelációihoz vezethet, amelyek nem feltétlenül léteznek valós adatokban.
Kerülje a duplikált dokumentumokat az adatokban. Az ismétlődő adatok negatív hatással vannak a betanítási folyamatra, a modellmetrikákra és a modell teljesítményére.
Gondolja át, honnan származnak az adatok. Ha egy személytől, részlegtől vagy a forgatókönyv egy részétől gyűjt adatokat, valószínűleg hiányzik a sokféleség, amely fontos lehet a modell számára a megismeréshez.

Feljegyzés

Ha a dokumentumok több nyelven vannak, válassza a többnyelvű nyelv engedélyezése lehetőséget a projekt létrehozásakor, és állítsa a nyelvi beállítást a dokumentumok többségének nyelvére.

Adatok előkészítése

A projekt létrehozásának előfeltételeként a betanítási adatokat fel kell tölteni egy blobtárolóba a tárfiókban. A betanítási dokumentumokat közvetlenül az Azure-ból vagy az Azure Storage Explorer eszközzel hozhatja létre és töltheti fel. Az Azure Storage Explorer eszközzel gyorsabban tölthet fel további adatokat.

Csak dokumentumok használhatók .txt . Ha az adatok más formátumban vannak, a CLUtils parse paranccsal módosíthatja a dokumentum formátumát.

Feltölthet egy jegyzetekkel ellátott adatkészletet, vagy feltölthet egy névtelent, és címkézheti az adatokat a Language Studióban.

Tesztkészlet

A tesztelési csoport meghatározásakor ügyeljen arra, hogy olyan példadokumentumokat is tartalmazzon, amelyek nem szerepelnek a betanítási csoportban. A tesztelési csoport meghatározása fontos lépés a modell teljesítményének kiszámításához. Győződjön meg arról is, hogy a tesztelési csoport olyan dokumentumokat tartalmaz, amelyek a projektben használt összes entitást képviselik.

Következő lépések

Ha még nem tette meg, hozzon létre egy egyéni NER-projektet. Ha első alkalommal használja az egyéni NER-t, érdemes követnie a rövid útmutatót egy példaprojekt létrehozásához. A projekt létrehozásához szükséges további részletekért tekintse meg a útmutatót ismertető cikket .

Megosztás a következőn keresztül: