Adatok előkészítése és szövegbesorolási séma definiálása

Cikk
12/19/2023

Egyéni szövegbesorolási modell létrehozásához minőségi adatokra lesz szüksége a betanítása érdekében. Ez a cikk bemutatja, hogyan kell kiválasztani és előkészíteni az adatokat, valamint egy sémát definiálni. A séma meghatározása a projektfejlesztési életciklus első lépése, és meghatározza azokat az osztályokat, amelyekbe a modellnek szüksége van a szöveg futásidőben történő besorolásához.

Sématerv

A séma határozza meg azokat az osztályokat, amelyekre a modellnek szüksége van a szöveg futásidőben történő besorolásához.

Áttekintés és azonosítás: Tekintse át az adathalmaz dokumentumait, hogy megismerkedjen azok szerkezetével és tartalmával, majd azonosítsa, hogyan szeretné besorolni az adatokat.

Ha például támogatási jegyeket osztályoz, a következő osztályokra lehet szüksége: bejelentkezési probléma, hardverhiba, csatlakozási probléma és új berendezéskérés.
Kerülje a kétértelműséget az osztályokban: Kétértelműség akkor merül fel, ha a megadott osztályok hasonló jelentéssel bírnak egymással. Minél egyértelműbb a séma, annál több címkézett adatra lehet szükség a különböző osztályok megkülönböztetéséhez.

Ha például élelmiszerrecepteket osztályoz, azok egy bizonyos mértékig hasonlóak lehetnek. A desszert recept és a főétel receptje közötti különbségtételhez előfordulhat, hogy további példákat kell címkéznie, hogy segítsen a modellnek megkülönböztetni a két osztályt. A kétértelműség elkerülése időt takarít meg, és jobb eredményeket ad.
Hatókörön kívüli adatok: Ha a modellt éles környezetben használja, fontolja meg egy hatókörön kívüli osztály hozzáadását a sémához, ha olyan dokumentumokat vár, amelyek nem tartoznak egyik osztályhoz sem. Ezután adjon hozzá néhány dokumentumot az adathalmazhoz, hogy hatókörön kívüliként legyen megjelölve. A modell megtanulhatja felismerni az irreleváns dokumentumokat, és ennek megfelelően előrejelezni a címkéket.

Adatok kijelölése

A modell betanítása során betanított adatok minősége nagyban befolyásolja a modell teljesítményét.

Valós adatokat használjon, amelyek tükrözik a tartomány problématerét a modell hatékony betanítása érdekében. A szintetikus adatokkal felgyorsíthatja a modell kezdeti betanítási folyamatát, de ezek valószínűleg eltérnek a valós adatoktól, és kevésbé lesznek hatékonyak használat esetén.
A lehető legnagyobb mértékben egyensúlyozza ki az adateloszlást anélkül, hogy a valós életbeli eloszlástól távolra térnél el.
A modell túlillesztésének elkerülése érdekében lehetőség szerint használjon változatos adatokat. A betanítási adatok kisebb változatossága a modell tanulási olyan hamis korrelációihoz vezethet, amelyek nem feltétlenül léteznek a valós adatokban.
Kerülje a duplikált dokumentumokat az adatokban. Az ismétlődő adatok negatív hatással vannak a betanítási folyamatra, a modellmetrikákra és a modell teljesítményére.
Gondolja át, honnan származnak az adatok. Ha egy személytől, részlegtől vagy a forgatókönyv egy részétől gyűjt adatokat, valószínűleg hiányzik a sokszínűség, amely fontos lehet a modell számára a tanuláshoz.

Megjegyzés

Ha a dokumentumok több nyelven vannak, válassza a több nyelv lehetőséget a projekt létrehozásakor , és állítsa a nyelvi beállítást a dokumentumok többségének nyelvére.

Adatok előkészítése

Az egyéni szövegbesorolási projekt létrehozásának előfeltételeként a betanítási adatokat fel kell tölteni a tárfiók egy blobtárolójába. A betanítási dokumentumokat közvetlenül az Azure-ból vagy az Azure Storage Explorer eszközzel hozhatja létre és töltheti fel. A Azure Storage Explorer eszközzel gyorsabban tölthet fel további adatokat.

Csak a parancsot használhatja .txt. dokumentumok egyéni szöveghez. Ha az adatok más formátumban vannak, a CLUtils parse paranccsal módosíthatja a fájlformátumot.

Feltölthet egy jegyzetekkel ellátott adatkészletet, vagy feltölthet egy névtelen adatkészletet, és címkézheti az adatokat a Language Studióban.

Tesztkészlet

A tesztelési készlet meghatározásakor mindenképpen mellékeljen olyan példadokumentumokat, amelyek nem szerepelnek a betanítási készletben. A tesztelési készlet meghatározása fontos lépés a modell teljesítményének kiszámításához. Győződjön meg arról is, hogy a tesztelési csoport olyan dokumentumokat tartalmaz, amelyek a projektben használt összes osztályt képviselik.

Következő lépések

Ha még nem tette meg, hozzon létre egy egyéni szövegbesorolási projektet. Ha ez az első alkalom, hogy egyéni szövegbesorolást használ, a rövid útmutatót követve hozzon létre egy példaprojektet. A projekt követelményeit is megtekintheti, ha többet szeretne megtudni arról, hogy mire van szüksége a projekt létrehozásához.

Megosztás a következőn keresztül: