Szöveges adatok címkézése a modell betanításához
A modell betanítása előtt meg kell címkéznie a dokumentumokat azokkal az osztályokkal, amelyeket kategorizálni szeretne. Az adatcímkézés kulcsfontosságú lépés a fejlesztési életciklusban; Ebben a lépésben létrehozhatja az adatokat kategorizálni kívánt osztályokat, és címkézheti fel a dokumentumokat ezekkel az osztályokkal. Ezeket az adatokat a következő lépésben fogjuk használni a modell betanításakor, hogy a modell tanuljon a címkézett adatokból. Ha már rendelkezik címkézett adatokkal, közvetlenül importálhatja őket a projektbe, de meg kell győződnie arról, hogy az adatok megfelelnek az elfogadott adatformátumnak.
Egyéni szövegbesorolási modell létrehozása előtt először címkézett adatokat kell használnia. Ha az adatok még nincsenek címkézve, a Language Studióban címkézheti. A címkézett adatok tájékoztatják a modellt a szöveg értelmezéséről, és a betanításhoz és a kiértékeléshez használatosak.
Előfeltételek
Az adatok címkézéséhez a következőkre van szükség:
- Egy sikeresen létrehozott projekt egy konfigurált Azure Blob Storage-fiókkal,
- A tárfiókba feltöltött szöveges adatokat tartalmazó dokumentumok.
További információért tekintse meg a projektfejlesztési életciklust .
Adatcímkézési irányelvek
Az adatok előkészítése, a séma megtervezése és a projekt létrehozása után fel kell címkéznie az adatokat. Az adatok címkézése fontos, hogy a modell tudja, mely dokumentumok lesznek társítva a szükséges osztályokkal. Ha az adatokat a Language Studióban címkézi (vagy címkézett adatokat importál), ezek a címkék a projekthez csatlakoztatott tároló JSON-fájljában lesznek tárolva.
Az adatok címkézése során tartsa szem előtt az alábbiakat:
Általánosságban elmondható, hogy a több címkézett adat jobb eredményeket eredményez, feltéve, hogy az adatok címkéje pontosan van megadva.
Nincs olyan rögzített számú címke, amely garantálhatja, hogy a modell a legjobb teljesítményt nyújtja. Modellteljesítmény a séma lehetséges kétértelműsége és a címkézett adatok minősége alapján. Ennek ellenére osztályonként 50 címkézett dokumentumot ajánlunk.
Adatok címkézése
Az adatok címkézéséhez kövesse az alábbi lépéseket:
Nyissa meg a projekt lapját a Language Studióban.
A bal oldali menüben válassza az Adatok címkézése lehetőséget. A tárolóban található összes dokumentum listája megtalálható. Tekintse meg az alábbi képet.
Tipp
A felső menü szűrőivel megtekintheti a címkézetlen fájlokat, így elkezdheti a címkézésüket. A szűrőkkel megtekintheti az adott osztályhoz címkézett dokumentumokat is.
Váltson egyetlen fájlnézetre a felső menü bal oldaláról, vagy válasszon ki egy adott fájlt a címkézés megkezdéséhez. A projektekben elérhető fájlok
.txt
listája balra található. A lap alján található Vissza és Tovább gombbal navigálhat a dokumentumok között.Megjegyzés
Ha több nyelvet is engedélyezett a projektjéhez, a felső menü nyelv legördülő menüjében kiválaszthatja az egyes dokumentumok nyelvét.
A jobb oldali panelen adja hozzá az osztályt a projekthez, hogy elkezdhesse velük címkézni az adatokat.
Kezdje el címkézni a fájlokat.
Többcímkés besorolás: a fájl több osztálysal is címkézhető. Ehhez jelölje be a dokumentumot címkézni kívánt osztályok melletti összes megfelelő jelölőnégyzetet.
Az automatikus címkézési funkcióval is biztosíthatja a teljes címkézést.
A Jobb oldali ablaktáblán a Címkék kimutatás alatt megtalálhatja a projekt összes osztályát, valamint az egyes címkékkel ellátott példányok számát.
A jobb oldali panel alsó szakaszában hozzáadhatja az aktuálisan megtekintett fájlt a betanítási készlethez vagy a tesztelési csoporthoz. Alapértelmezés szerint az összes dokumentum hozzá lesz adva a betanítási csoporthoz. További információ a betanítási és tesztelési készletekről , valamint a modellek betanításához és értékeléséhez való használatukról.
Tipp
Ha az automatikus adatmegosztás használatát tervezi, használja az összes dokumentum betanítási készletbe való hozzárendelésének alapértelmezett beállítását.
A Terjesztési kimutatás alatt megtekintheti a betanítási és tesztelési csoportok közötti eloszlást. Két lehetősége van a megtekintésre:
- Összes példány, ahol megtekintheti egy adott osztály összes címkézett példányának számát.
- legalább egy címkével rendelkező dokumentumok, ahol az egyes dokumentumok meg vannak számlálva, ha az osztály legalább egy címkézett példányát tartalmazza.
A címkézés során a módosítások rendszeres időközönként szinkronizálódnak, ha még nem mentette őket, figyelmeztetés jelenik meg a lap tetején. Ha manuálisan szeretne menteni, válassza a Címkék mentése gombot a lap alján.
Címkék eltávolítása
Ha el szeretne távolítani egy címkét, törölje a jelet az osztály melletti gombból.
Törlés vagy osztályok
Osztály törléséhez válassza az eltávolítani kívánt osztály melletti törlés ikont. Ha töröl egy osztályt, az az összes címkézett példányt eltávolítja az adathalmazból.
Következő lépések
Az adatok címkézése után megkezdheti egy olyan modell betanítását , amely az adatok alapján tanul.
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: