Megosztás a következőn keresztül:


Szöveges adatok címkézése a modell betanításához

A modell betanítása előtt meg kell címkéznie a dokumentumokat azokkal az osztályokkal, amelyeket kategorizálni szeretne. Az adatcímkézés kulcsfontosságú lépés a fejlesztési életciklusban; Ebben a lépésben létrehozhatja az adatokat kategorizálni kívánt osztályokat, és címkézheti fel a dokumentumokat ezekkel az osztályokkal. Ezeket az adatokat a következő lépésben fogjuk használni a modell betanításakor, hogy a modell tanuljon a címkézett adatokból. Ha már rendelkezik címkézett adatokkal, közvetlenül importálhatja őket a projektbe, de meg kell győződnie arról, hogy az adatok megfelelnek az elfogadott adatformátumnak.

Egyéni szövegbesorolási modell létrehozása előtt először címkézett adatokat kell használnia. Ha az adatok még nincsenek címkézve, a Language Studióban címkézheti. A címkézett adatok tájékoztatják a modellt a szöveg értelmezéséről, és a betanításhoz és a kiértékeléshez használatosak.

Előfeltételek

Az adatok címkézéséhez a következőkre van szükség:

További információért tekintse meg a projektfejlesztési életciklust .

Adatcímkézési irányelvek

Az adatok előkészítése, a séma megtervezése és a projekt létrehozása után fel kell címkéznie az adatokat. Az adatok címkézése fontos, hogy a modell tudja, mely dokumentumok lesznek társítva a szükséges osztályokkal. Ha az adatokat a Language Studióban címkézi (vagy címkézett adatokat importál), ezek a címkék a projekthez csatlakoztatott tároló JSON-fájljában lesznek tárolva.

Az adatok címkézése során tartsa szem előtt az alábbiakat:

  • Általánosságban elmondható, hogy a több címkézett adat jobb eredményeket eredményez, feltéve, hogy az adatok címkéje pontosan van megadva.

  • Nincs olyan rögzített számú címke, amely garantálhatja, hogy a modell a legjobb teljesítményt nyújtja. Modellteljesítmény a séma lehetséges kétértelműsége és a címkézett adatok minősége alapján. Ennek ellenére osztályonként 50 címkézett dokumentumot ajánlunk.

Adatok címkézése

Az adatok címkézéséhez kövesse az alábbi lépéseket:

  1. Nyissa meg a projekt lapját a Language Studióban.

  2. A bal oldali menüben válassza az Adatok címkézése lehetőséget. A tárolóban található összes dokumentum listája megtalálható. Tekintse meg az alábbi képet.

    Tipp

    A felső menü szűrőivel megtekintheti a címkézetlen fájlokat, így elkezdheti a címkézésüket. A szűrőkkel megtekintheti az adott osztályhoz címkézett dokumentumokat is.

  3. Váltson egyetlen fájlnézetre a felső menü bal oldaláról, vagy válasszon ki egy adott fájlt a címkézés megkezdéséhez. A projektekben elérhető fájlok .txt listája balra található. A lap alján található Vissza és Tovább gombbal navigálhat a dokumentumok között.

    Megjegyzés

    Ha több nyelvet is engedélyezett a projektjéhez, a felső menü nyelv legördülő menüjében kiválaszthatja az egyes dokumentumok nyelvét.

  4. A jobb oldali panelen adja hozzá az osztályt a projekthez, hogy elkezdhesse velük címkézni az adatokat.

  5. Kezdje el címkézni a fájlokat.

    Többcímkés besorolás: a fájl több osztálysal is címkézhető. Ehhez jelölje be a dokumentumot címkézni kívánt osztályok melletti összes megfelelő jelölőnégyzetet.

    Képernyőkép a többcímke-besorolási címke oldalról.

    Az automatikus címkézési funkcióval is biztosíthatja a teljes címkézést.

  6. A Jobb oldali ablaktáblán a Címkék kimutatás alatt megtalálhatja a projekt összes osztályát, valamint az egyes címkékkel ellátott példányok számát.

  7. A jobb oldali panel alsó szakaszában hozzáadhatja az aktuálisan megtekintett fájlt a betanítási készlethez vagy a tesztelési csoporthoz. Alapértelmezés szerint az összes dokumentum hozzá lesz adva a betanítási csoporthoz. További információ a betanítási és tesztelési készletekről , valamint a modellek betanításához és értékeléséhez való használatukról.

    Tipp

    Ha az automatikus adatmegosztás használatát tervezi, használja az összes dokumentum betanítási készletbe való hozzárendelésének alapértelmezett beállítását.

  8. A Terjesztési kimutatás alatt megtekintheti a betanítási és tesztelési csoportok közötti eloszlást. Két lehetősége van a megtekintésre:

    • Összes példány, ahol megtekintheti egy adott osztály összes címkézett példányának számát.
    • legalább egy címkével rendelkező dokumentumok, ahol az egyes dokumentumok meg vannak számlálva, ha az osztály legalább egy címkézett példányát tartalmazza.
  9. A címkézés során a módosítások rendszeres időközönként szinkronizálódnak, ha még nem mentette őket, figyelmeztetés jelenik meg a lap tetején. Ha manuálisan szeretne menteni, válassza a Címkék mentése gombot a lap alján.

Címkék eltávolítása

Ha el szeretne távolítani egy címkét, törölje a jelet az osztály melletti gombból.

Törlés vagy osztályok

Osztály törléséhez válassza az eltávolítani kívánt osztály melletti törlés ikont. Ha töröl egy osztályt, az az összes címkézett példányt eltávolítja az adathalmazból.

Következő lépések

Az adatok címkézése után megkezdheti egy olyan modell betanítását , amely az adatok alapján tanul.