Adatok előkészítése és séma definiálása custom Text Analytics for health

Cikk
12/19/2023

Egyéni TA4H-modell létrehozásához minőségi adatokra lesz szüksége a betanítása érdekében. Ez a cikk bemutatja, hogyan kell kiválasztani és előkészíteni az adatokat, valamint definiálni egy sémát. A séma meghatározása a projektfejlesztési életciklus első lépése, és magában foglalja az entitástípusok vagy -kategóriák meghatározását, amelyekre a modellnek szüksége van ahhoz, hogy a futásidőben kinyerje a szöveget.

Sématerv

Az állapotra vonatkozó egyéni Text Analytics lehetővé teszi az állapot entitástérképének Text Analytics kiterjesztését és testreszabását. A folyamat első lépése a séma létrehozása, amely lehetővé teszi, hogy meghatározza azokat az új entitástípusokat vagy -kategóriákat, amelyekre a modellnek szüksége van a szövegből való kinyeréshez a futásidőben meglévő entitások állapotának Text Analytics kívül.

Tekintse át az adathalmaz dokumentumait, hogy megismerkedjen azok formátumával és szerkezetével.
Azonosítsa az adatokból kinyerni kívánt entitásokat.

Ha például entitásokat von ki támogatási e-mailekből, előfordulhat, hogy ki kell nyernie az "Ügyfél neve", a "Termék neve", a "Kérelem dátuma" és a "Kapcsolattartási adatok" kifejezést.
Kerülje az entitástípusok kétértelműségét.

Kétértelműség akkor fordul elő, ha a kiválasztott entitástípusok hasonlóak egymáshoz. Minél nem egyértelműbb a sémája, annál több címkézett adatra lesz szüksége a különböző entitástípusok megkülönböztetéséhez.

Ha például jogi szerződésből nyer ki adatokat, a "Belső fél neve" és a "Második fél neve" kinyeréséhez további példákat kell hozzáadnia a kétértelműség leküzdéséhez, mivel mindkét fél neve hasonló. Kerülje a kétértelműséget, mivel időt, energiát takarít meg, és jobb eredményeket ad.
Kerülje az összetett entitásokat. Az összetett entitásokat nehéz lehet pontosan kiválogatni a szövegből, érdemes lehet több entitásra lebontani.

A "Cím" kinyerése például kihívást jelent, ha az nem kisebb entitásokra oszlik. A címek megjelenésének annyi változata van, hogy sok címkézett entitásra lenne szükség ahhoz, hogy megtanítsa a modellt egy cím egészének kinyerésére anélkül, hogy lebontaná azt. Ha azonban a "Cím" kifejezést az "Utcanév", a "PO Box", a "Város", az "Állapot" és a "Zip" kifejezésre cseréli, a modellnek entitásonként kevesebb címkére lesz szüksége.

Entitások hozzáadása

Entitások hozzáadása a projekthez:

Ugrás az Entitások kimutatásra a lap tetején.
Text Analytics állapotentitások automatikusan betöltődnek a projektbe. További entitáskategóriák hozzáadásához válassza a felső menü Hozzáadás elemét. Az entitás létrehozása előtt a rendszer kérni fogja, hogy írjon be egy nevet.
Az entitás létrehozása után a rendszer átirányítja az entitás részleteinek lapjára, ahol megadhatja az entitás kompozíciós beállításait.
Az entitásokat entitásösszetevők határozzák meg: tanultak, listázhatók vagy előre összeállítottak. Text Analytics állapotentitások alapértelmezés szerint az előre összeállított összetevővel vannak feltöltve, és nem rendelkezhettek tanult összetevőkkel. Az újonnan definiált entitások feltölthetők a tanult összetevővel, ha címkéket ad hozzá az adatokhoz, de nem tölthetők fel az előre összeállított összetevővel.
Bármelyik entitáshoz hozzáadhat listaösszetevőt.

Listaösszetevő hozzáadása

Listaösszetevő hozzáadásához válassza az Új lista hozzáadása lehetőséget. Minden entitáshoz több listát is hozzáadhat.

Új lista létrehozásához az Enter value (Érték megadása ) szövegmezőbe írja be, hogy ez az a normalizált érték, amelyet a rendszer a szinonimák bármelyik értékének kinyerésekor ad vissza.
Többnyelvű projektek esetén a nyelvi legördülő menüből válassza ki a szinonimák listájának nyelvét, és kezdje el beírni a szinonimákat, és mindegyik után nyomja le az Enter billentyűt. Javasoljuk, hogy több nyelven is használjon szinonimákat.

Entitásbeállítások definiálása

Váltson az Entitásbeállítások kimutatásra az entitás részletei lapon. Ha egy entitáshoz több összetevő van definiálva, az előrejelzéseik átfedésben lehetnek. Átfedés esetén az egyes entitások végső előrejelzése az ebben a lépésben kiválasztott entitásbeállítás alapján lesz meghatározva. Válassza ki azt, amelyiket alkalmazni szeretné erre az entitásra, majd kattintson a felül található Mentés gombra.

Miután létrehozta az entitásokat, visszatérhet és szerkesztheti őket. Az entitásösszetevők szerkesztéséhez vagy törléséhez válassza ezt a lehetőséget a felső menüből.

Adatok kijelölése

A modell betanítása során betanított adatok minősége nagyban befolyásolja a modell teljesítményét.

Valós adatokat használjon, amelyek tükrözik a tartomány problématerét a modell hatékony betanítása érdekében. Szintetikus adatokkal felgyorsíthatja a modell kezdeti betanítási folyamatát, de ezek valószínűleg eltérnek a valós adatoktól, és kevésbé hatékonyan használják a modellt.
Az adateloszlást a lehető legnagyobb mértékben egyensúlyba kell hozni anélkül, hogy a valós életbeli eloszlástól távolra térnél el. Ha például betanítja a modellt, hogy entitásokat nyerjen ki a jogi dokumentumokból, amelyek számos különböző formátumban és nyelven érkezhetnek, olyan példákat kell megadnia, amelyek a valóságban elvárt sokszínűséget példáznák.
A modell túlillesztésének elkerülése érdekében lehetőség szerint használjon változatos adatokat. A betanítási adatok kisebb sokfélesége a modelltanulás olyan hamis korrelációihoz vezethet, amelyek nem feltétlenül léteznek a valós adatokban.
Kerülje a duplikált dokumentumokat az adatokban. Az ismétlődő adatok negatív hatással vannak a betanítási folyamatra, a modellmetrikákra és a modell teljesítményére.
Gondolja át, honnan származnak az adatok. Ha egy személytől, részlegtől vagy a forgatókönyv egy részétől gyűjt adatokat, valószínűleg hiányzik a különbözőség, amely fontos lehet a modell számára a megismeréshez.

Megjegyzés

Ha a dokumentumok több nyelven vannak, válassza a többnyelvűség engedélyezése lehetőséget a projekt létrehozásakor , és állítsa a nyelvi beállítást a dokumentumok többségének nyelvére.

Adatok előkészítése

A projekt létrehozásának előfeltételeként a betanítási adatokat fel kell tölteni egy blobtárolóba a tárfiókban. A betanítási dokumentumokat közvetlenül az Azure-ból vagy a Azure Storage Explorer eszközzel hozhatja létre és töltheti fel. A Azure Storage Explorer eszközzel gyorsabban tölthet fel további adatokat.

Csak dokumentumokat használhat .txt . Ha az adatok más formátumban vannak, a CLUtils parse paranccsal módosíthatja a dokumentum formátumát.

Feltölthet egy jegyzetekkel ellátott adatkészletet, vagy feltölthet egy névtelen adatkészletet, és felcímkézheti az adatokat a Language Studióban.

Tesztkészlet

A tesztelési csoport meghatározásakor mindenképpen mellékeljen olyan példadokumentumokat, amelyek nem szerepelnek a betanítási készletben. A tesztelési csoport meghatározása fontos lépés a modell teljesítményének kiszámításához. Győződjön meg arról is, hogy a tesztelési csoport olyan dokumentumokat tartalmaz, amelyek a projektben használt összes entitást képviselik.

Következő lépések

Ha még nem tette meg, hozzon létre egy custom Text Analytics for health projektet. Ha első alkalommal használja a custom Text Analytics for health, érdemes lehet követnie a rövid útmutatót egy példaprojekt létrehozásához. A projekt létrehozásához szükséges további részletekért tekintse meg az útmutatót ismertető cikket .

Megosztás a következőn keresztül: