Szöveges adatok címkézése a modell betanításához
A modell betanítása előtt meg kell címkéznie a dokumentumokat azokkal az osztályokkal, amelyekre kategorizálni szeretné őket. Az adatcímkézés kulcsfontosságú lépés a fejlesztési életciklusban; Ebben a lépésben létrehozhatja azokat az osztályokat, amelyeket kategorizálni szeretne az adatokba, és címkézheti a dokumentumokat ezekkel az osztályokkal. Ezeket az adatokat a következő lépésben fogja használni a modell betanításakor, hogy a modell tanuljon a címkézett adatokból. Ha már rendelkezik címkézett adatokkal, közvetlenül importálhatja őket a projektbe, de meg kell győződnie arról, hogy az adatok az elfogadott adatformátumot követik.
Egyéni szövegbesorolási modell létrehozása előtt először címkézett adatokat kell használnia. Ha az adatok még nincsenek címkézve, a Language Studióban is megjelölheti azokat. A címkézett adatok tájékoztatják a modellt a szöveg értelmezéséről, és betanításra és értékelésre használják.
Előfeltételek
Az adatok címkézéséhez a következőkre van szükség:
- Sikeresen létrehozott projekt egy konfigurált Azure Blob Storage-fiókkal,
- A tárfiókba feltöltött szöveges adatokat tartalmazó dokumentumok.
További információkért tekintse meg a projektfejlesztési életciklust .
Adatcímkézési irányelvek
Az adatok előkészítése, a séma megtervezése és a projekt létrehozása után fel kell címkéznie az adatokat. Az adatok címkézése fontos, hogy a modell tudja, mely dokumentumok lesznek társítva a szükséges osztályokhoz. Ha az adatokat a Language Studióban címkézi (vagy címkézett adatokat importál), ezek a címkék a projekthez csatlakoztatott tároló JSON-fájljában lesznek tárolva.
Az adatok címkézése során vegye figyelembe a következőket:
Általánosságban elmondható, hogy a címkézett adatok jobb eredményekhez vezetnek, feltéve, hogy az adatok pontosan felcímkézettek.
Nincs rögzített számú címke, amely garantálja, hogy a modell a legjobban teljesít. Modellteljesítmény a séma lehetséges kétértelműségéről és a címkézett adatok minőségéről. Ennek ellenére osztályonként 50 címkézett dokumentumot ajánlunk.
Adatok címkézése
Az adatok címkézéséhez kövesse az alábbi lépéseket:
A bal oldali menüben válassza az Adatok címkézése lehetőséget. A tárolóban található összes dokumentum listáját megtalálhatja. Lásd az alábbi képet.
Tipp.
A felső menü szűrőivel megtekintheti a címkézetlen fájlokat, hogy elkezdhesse őket címkézni. A szűrőkkel megtekintheti az adott osztályhoz címkézett dokumentumokat is.
Váltson egyetlen fájlnézetre a felső menü bal oldalán, vagy válasszon ki egy adott fájlt a címkézés megkezdéséhez. A projektekben elérhető összes
.txt
fájl listája balra található. A lap alján található Vissza és Tovább gombbal navigálhat a dokumentumok között.Feljegyzés
Ha több nyelvet is engedélyezett a projekthez, a felső menüben egy Nyelv legördülő menü jelenik meg, amely lehetővé teszi az egyes dokumentumok nyelvének kiválasztását.
A jobb oldali panelen adja hozzá az osztályt a projekthez, hogy megkezdhesse az adatok címkézését velük.
Kezdje el címkézni a fájlokat.
Többcímke-besorolás: a fájl több osztálysal is címkézhető. Ehhez jelölje be a dokumentum címkézni kívánt osztályai melletti összes megfelelő jelölőnégyzetet.
Az automatikus címkézési funkcióval is biztosíthatja a teljes címkézést.
A Jobb oldali ablaktáblán a Címkék kimutatás alatt megtalálhatja a projekt összes osztályát, valamint a címkézett példányok darabszámát.
A jobb oldali panel alsó szakaszában hozzáadhatja az aktuálisan megtekintett fájlt a betanítási csoporthoz vagy a tesztelési csoporthoz. Alapértelmezés szerint az összes dokumentum hozzá lesz adva a betanítási csoporthoz. További információ a betanítási és tesztelési készletekről, valamint a modell betanítására és kiértékelésére való használatukról.
Tipp.
Ha automatikus adatfelosztást tervez, használja az összes dokumentum betanítási készletbe való hozzárendelésének alapértelmezett beállítását.
A Terjesztési kimutatás alatt megtekintheti a betanítási és tesztelési csoportok közötti eloszlást. A megtekintéshez két lehetőség közül választhat:
- Összes példány, ahol megtekintheti egy adott osztály összes címkézett példányának számát.
- legalább egy címkével rendelkező dokumentumok, ahol az egyes dokumentumok meg vannak számlálva, ha az osztály legalább egy címkével ellátott példányát tartalmazza.
A címkézés során a módosítások rendszeresen szinkronizálódnak, ha még nem mentette őket, a lap tetején figyelmeztetés jelenik meg. Ha manuálisan szeretne menteni, válassza a Címkék mentése gombot a lap alján.
Címkék eltávolítása
Ha el szeretne távolítani egy címkét, törölje a jelet az osztály melletti gombból.
Törlés vagy osztályok
Egy osztály törléséhez válassza az eltávolítani kívánt osztály melletti törlés ikont. Az osztály törlése eltávolítja az összes címkézett példányt az adathalmazból.
Következő lépések
Az adatok címkézése után megkezdheti egy olyan modell betanítását, amely az adatok alapján fog tanulni.