Szövegfeliratozási projekt beállítása és címkék exportálása

Az Azure Machine Tanulás megtudhatja, hogyan hozhat létre és futtathat adatcímkéző projekteket szöveges adatok címkézéséhez. Adjon meg egy vagy több címkét az egyes szövegelemekre alkalmazva.

Az Azure Machine Tanulás adatcímkéző eszközével képfeliratozási projektet is létrehozhat.

Szövegfeliratozási képességek

Az Azure Machine Tanulás adatcímkézés egy olyan eszköz, amellyel adatcímkézési projekteket hozhat létre, kezelhet és figyelhet. A következőkre lehet használni:

  • Koordinálja az adatokat, a címkéket és a csapattagokat a címkézési feladatok hatékony kezelése érdekében.
  • Nyomon követheti az előrehaladást, és fenntartja a hiányos címkézési tevékenységek várólistáját.
  • Indítsa el és állítsa le a projektet, és szabályozza a címkézési folyamatot.
  • Tekintse át és exportálja a címkézett adatokat Azure Machine-Tanulás adatkészletként.

Fontos

Az Azure Machine Tanulás adatcímkéző eszközben használható szöveges adatoknak elérhetőnek kell lenniük egy Azure Blob Storage-adattárban. Ha nem rendelkezik meglévő adattárkal, a projekt létrehozásakor feltöltheti az adatfájlokat egy új adattárba.

Ezek az adatformátumok a szöveges adatokhoz érhetők el:

  • .txt: Minden fájl egy címkézendő elemet jelöl.
  • .csv vagy .tsv: Minden sor egy elemet jelöl, amelyet a címkéző mutat be. Ön dönti el, hogy a címkéző mely oszlopokat láthatja a sor címkézésekor.

Előfeltételek

Az alábbi elemek használatával állíthat be szövegfeliratokat az Azure Machine Tanulás:

  • A címkézni kívánt adatok helyi fájlokban vagy az Azure Blob Storage-ban.
  • Az alkalmazni kívánt címkék készlete.
  • A címkézésre vonatkozó utasítások.
  • Azure-előfizetés. Ha még nincs Azure-előfizetése, kezdés előtt hozzon létre egy ingyenes fiókot.
  • Egy Azure Machine Learning-munkaterület. Lásd: Azure Machine Tanulás-munkaterület létrehozása.

Szövegfeliratozási projekt létrehozása

A címkézési projektek felügyeletét az Azure Machine Tanulás végzi. A projektek kezeléséhez használja a Machine Tanulás Adatcímkézés lapját.

Ha az adatok már az Azure Blob Storage-ban találhatók, a címkézési projekt létrehozása előtt győződjön meg arról, hogy azok elérhetők adattárként.

  1. Projekt létrehozásához válassza a Projekt hozzáadása lehetőséget.

  2. A Projekt neve mezőben adja meg a projekt nevét.

    A projekt nevét nem használhatja újra, még akkor sem, ha törli a projektet.

  3. Szövegfeliratozási projekt létrehozásához a Média típushoz válassza a Szöveg lehetőséget.

  4. A címkézési feladattípushoz válasszon egy lehetőséget a forgatókönyvhöz:

    • Ha csak egyetlen címkét szeretne alkalmazni egy feliratkészlet minden egyes szövegére, válassza a Többosztályos szövegbesorolás lehetőséget.
    • Ha egy vagy több címkét szeretne alkalmazni az egyes szövegrészekre egy címkekészletből, válassza a Több címkés szövegbesorolás lehetőséget.
    • Ha címkéket szeretne alkalmazni az egyes szövegszavakra vagy az egyes bejegyzésekben lévő több szöveges szóra, válassza az Elnevezett entitásfelismerés lehetőséget.

    Screenshot that shows creating a labeling project for text labeling.

  5. A folytatáshoz válassza a Tovább gombra.

Munkaerő hozzáadása (nem kötelező)

Válassza a Szállítói címkézési vállalat használata az Azure Marketplace-ről csak akkor, ha adatcímkéző vállalatot vett fel az Azure Marketplace-ről. Ezután válassza ki a szállítót. Ha a szállító nem jelenik meg a listában, törölje ezt a beállítást.

Győződjön meg arról, hogy először kapcsolatba lép a szállítóval, és aláír egy szerződést. További információ: Adatcímkéző szállító cég használata (előzetes verzió).

A folytatáshoz válassza a Tovább gombra.

Adathalmaz kiválasztása vagy létrehozása

Ha már létrehozott egy adathalmazt, amely tartalmazza az adatokat, jelölje ki azt a Meglévő adathalmaz kiválasztása legördülő listában. Választhatja az Adathalmaz létrehozása lehetőséget is, ha meglévő Azure-adattárat szeretne használni, vagy helyi fájlokat szeretne feltölteni.

Feljegyzés

Egy projekt legfeljebb 500 000 fájlt tartalmazhat. Ha az adathalmaz meghaladja ezt a fájlszámot, csak az első 500 000 fájl töltődik be.

Adatkészlet létrehozása Azure-adattárból

Sok esetben feltölthet helyi fájlokat. Az Azure Storage Explorer azonban gyorsabb és robusztusabb módot kínál a nagy mennyiségű adat átvitelére. A fájlok áthelyezésének alapértelmezett módjaként a Storage Explorert javasoljuk.

Adatkészlet létrehozása a Blob Storage-ban már tárolt adatokból:

  1. Válassza a Létrehozás lehetőséget.
  2. A Név mezőbe írja be az adathalmaz nevét. Ha szeretné, adjon meg egy leírást.
  3. Válassza ki az adathalmaz típusát:
    • Ha .csv vagy .tsv fájlt használ, és minden sor választ tartalmaz, válassza a Táblázat lehetőséget.
    • Ha külön .txt fájlokat használ az egyes válaszokhoz, válassza a Fájl lehetőséget.
  4. Válassza a Tovább lehetőséget.
  5. Válassza az Azure Storage-ból, majd a Tovább lehetőséget.
  6. Jelölje ki az adattárat, majd kattintson a Tovább gombra.
  7. Ha az adatok a Blob Storage egyik almappájában találhatók, válassza a Tallózás lehetőséget az elérési út kiválasztásához.
    • Ha a kijelölt elérési út almappáiba szeretné felvenni az összes fájlt, fűzze hozzá /** az elérési utat.
    • Ha az aktuális tárolóban és annak almappáiban lévő összes adatot fel szeretné venni, fűzze hozzá **/*.* az elérési úthoz.
  8. Válassza a Létrehozás lehetőséget.
  9. Válassza ki a létrehozott adategységet.

Adatkészlet létrehozása feltöltött adatokból

Adatok közvetlen feltöltése:

  1. Válassza a Létrehozás lehetőséget.
  2. A Név mezőbe írja be az adathalmaz nevét. Ha szeretné, adjon meg egy leírást.
  3. Válassza ki az adathalmaz típusát:
    • Ha .csv vagy .tsv fájlt használ, és minden sor választ tartalmaz, válassza a Táblázat lehetőséget.
    • Ha külön .txt fájlokat használ az egyes válaszokhoz, válassza a Fájl lehetőséget.
  4. Válassza a Tovább lehetőséget.
  5. Válassza a Helyi fájlok lehetőséget, majd válassza a Tovább gombot.
  6. (Nem kötelező) Válasszon egy adattárat. Az alapértelmezett feltöltés a Gép Tanulás munkaterület alapértelmezett blobtárolójába (workspaceblobstore) lesz feltöltve.
  7. Válassza a Tovább lehetőséget.
  8. Válassza a Fájlok feltöltése>vagy a Feltöltés mappa feltöltése>lehetőséget a feltöltendő helyi fájlok vagy mappák kiválasztásához.
  9. Keresse meg a fájlokat vagy mappákat a böngészőablakban, majd válassza a Megnyitás lehetőséget.
  10. Folytassa a Feltöltés lehetőséget, amíg meg nem adja az összes fájlt és mappát.
  11. Ha már létezik, jelölje be a Felülírás jelölőnégyzetet. Ellenőrizze a fájlok és mappák listáját.
  12. Válassza a Tovább lehetőséget.
  13. Erősítse meg a részleteket. Válassza a Vissza lehetőséget a beállítások módosításához, vagy válassza a Létrehozás lehetőséget az adathalmaz létrehozásához.
  14. Végül válassza ki a létrehozott adategységet.

Növekményes frissítés konfigurálása

Ha új adatfájlokat szeretne hozzáadni az adathalmazhoz, növekményes frissítés használatával vegye fel a fájlokat a projektbe.

Ha rendszeres időközönként engedélyezi a növekményes frissítést, az adatkészlet rendszeres időközönként ellenőrzi, hogy új fájlok legyenek hozzáadva egy projekthez a címkézési befejezési arány alapján. Az új adatok ellenőrzése leáll, ha a projekt legfeljebb 500 000 fájlt tartalmaz.

Válassza a Növekményes frissítés engedélyezése rendszeres időközönként , ha azt szeretné, hogy a projekt folyamatosan figyelje az adattárban lévő új adatokat.

Törölje a kijelölést, ha nem szeretné, hogy az adattárban lévő új fájlok automatikusan bekerüljenek a projektbe.

Fontos

Ne hozzon létre új verziót a frissíteni kívánt adatkészlethez. Ha így tesz, a frissítések nem lesznek láthatók, mert az adatfeliratozási projekt a kezdeti verzióra van rögzítve. Ehelyett az Azure Storage Explorerrel módosítsa az adatokat a Blob Storage megfelelő mappájában.

Emellett ne távolítsa el az adatokat. Ha eltávolítja az adatokat abból az adathalmazból, amelyet a projektje használ, azzal hibát okoz a projektben.

A projekt létrehozása után a Részletek lapon módosíthatja a növekményes frissítést, megtekintheti az utolsó frissítés időbélyegét, és kérheti az adatok azonnali frissítését.

Feljegyzés

A táblázatos (.csv vagy .tsv) adathalmaz-bemenetet használó projektek növekményes frissítést használhatnak. A növekményes frissítés azonban csak új táblázatos fájlokat ad hozzá. A frissítés nem ismeri fel a meglévő táblázatos fájlok módosításait.

Címkekategóriák megadása

A Címkekategóriák lapon adjon meg egy osztálykészletet az adatok kategorizálásához.

A címkézők pontosságát és sebességét befolyásolja, hogy képesek választani az osztályok között. Például a növények vagy állatok teljes nemének és fajainak helyesírása helyett használjon egy mezőkódot vagy a nem rövidítését.

Használhat egy egyszerű listát, vagy létrehozhat címkék csoportjait.

  • Ha lapos listát szeretne létrehozni, válassza a Címkekategória hozzáadása lehetőséget az egyes címkék létrehozásához.

    Screenshot that shows how to add a flat structure of labels.

  • Ha különböző csoportokban szeretne címkéket létrehozni, válassza a Címkekategória hozzáadása lehetőséget a felső szintű címkék létrehozásához. Ezután jelölje ki a pluszjelet (+) az egyes felső szintek alatt a következő címkeszint létrehozásához az adott kategóriához. Bármilyen csoportosításhoz legfeljebb hat szintet hozhat létre.

    Screenshot that shows how to add groups of labels.

A címkézési folyamat során bármilyen szinten kijelölhet címkéket. Például a címkék Animal, Animal/Cat, Animal/Dog, Color, Color/Black, , , Color/Whiteés Color/Silver az összes rendelkezésre álló választási lehetőségek egy címke. Egy többcímkés projektben nincs szükség az egyes kategóriák egyikének kiválasztására. Ha ez a szándéka, mindenképpen adja meg ezeket az információkat az utasításokban.

A szövegfeliratozási feladat leírása

Fontos egyértelműen elmagyarázni a címkézési feladatot. A Címkézési utasítások lapon hozzáadhat egy hivatkozást egy olyan külső webhelyhez, amely címkézési utasításokat tartalmaz, vagy utasításokat adhat meg a lap szerkesztési mezőjében. Tartsa az utasításokat feladatorientáltan és a közönségnek megfelelő módon. Fontolja meg az alábbi kérdéseket:

  • Mit fognak látni a címkék címkézői, és hogyan választanak közülük? Van hivatkozási szövegre hivatkozni?
  • Mit tegyenek, ha nem tűnik megfelelőnek a címke?
  • Mit tegyenek, ha több címke megfelelőnek tűnik?
  • Milyen megbízhatósági küszöbértéket kell alkalmazniuk egy címkére? Azt szeretné, hogy a címkéző a legjobb tipp, ha nem biztos benne?
  • Mit tegyenek részben elzárt vagy átfedésben lévő érdekes objektumokkal?
  • Mit tegyenek, ha a kép széle levág egy érdekes objektumot?
  • Mit tegyenek, ha azt hiszik, hogy hibát követtek el a címke beküldése után?
  • Mit tegyenek, ha képminőségi problémákat észlelnek, beleértve a gyenge fényviszonyokat, a tükröződéseket, a fókusz elvesztését, a nem kívánt hátteret, a rendellenes kameraállásokat stb.
  • Mit tegyenek, ha több véleményezőnek eltérő véleménye van a címke alkalmazásáról?

Feljegyzés

A címkézők az első kilenc címkét az 1–9. számbillentyűkkel jelölhetik ki.

Minőség-ellenőrzés (előzetes verzió)

Ha pontosabb címkéket szeretne kapni, a Minőségellenőrzés lapon elküldheti az egyes elemeket több címkézőnek.

Fontos

A konszenzusos címkézés jelenleg nyilvános előzetes verzióban érhető el.

Az előzetes verzió szolgáltatásszint-szerződés nélkül érhető el, és éles számítási feladatokhoz nem ajánlott. Előfordulhat, hogy néhány funkció nem támogatott, vagy korlátozott képességekkel rendelkezik.

További információ: Kiegészítő használati feltételek a Microsoft Azure előzetes verziójú termékeihez.

Ha minden elemet több címkézőnek szeretne elküldeni, válassza a Konszenzusos címkézés engedélyezése (előzetes verzió) lehetőséget. Ezután állítsa be a minimális címkézők és a maximális címkézők értékeit, hogy megadják, hány címkézőt használjon. Győződjön meg arról, hogy a maximális számhoz annyi címkéző érhető el. A projekt elindítása után ezek a beállítások nem módosíthatók.

Ha a címkézők minimális száma alapján konszenzusra jut, az elem címkével van ellátva. Ha nem sikerül konszenzust elérni, a rendszer az elemet több címkézőnek küldi el. Ha nincs konszenzus, miután az elem a címkézők maximális számára kerül, az állapota felülvizsgálatra szorul, és a projekt tulajdonosa felelős az elem címkézéséért.

Ml-támogatással támogatott adatcímkék használata

A címkézési feladatok felgyorsítása érdekében az ML által támogatott címkézési oldal automatikus gépi tanulási modelleket indíthat el. A gépi tanulás (ML) által támogatott címkézés képes kezelni a fájl(.txt) és a táblázatos (.csv) szöveges adatbemeneteket is.

Ml-támogatású címkézés használata:

  1. Válassza az ML-támogatás címkézésének engedélyezése lehetőséget.
  2. Válassza ki a projekt adatkészletének nyelvét . Ez a lista a TextDNNLanguages osztály által támogatott összes nyelvet megjeleníti.
  3. Adja meg a használni kívánt számítási célt. Ha nincs számítási cél a munkaterületen, ez a lépés létrehoz egy számítási fürtöt, és hozzáadja a munkaterülethez. A fürt legalább nulla csomóponttal jön létre, és használaton nem kerül semmibe.

További információ az ML által támogatott címkézésről

A címkézési projekt elején a rendszer véletlenszerű sorrendbe rendezi az elemeket a lehetséges torzítás csökkentése érdekében. A betanított modell azonban az adathalmazban található torzításokat tükrözi. Ha például az elemek 80 százaléka egyetlen osztályból áll, akkor a modell betanítása során használt adatok körülbelül 80 százaléka az adott osztályba kerül.

Az ML által támogatott címkézés által használt szöveges DNN-modell betanításához a betanítási példában szereplő beviteli szöveg körülbelül a dokumentum első 128 szavara korlátozódik. Táblázatos bevitel esetén a korlát alkalmazása előtt az összes szövegoszlop összefűzve lesz. Ez a gyakorlati korlát lehetővé teszi, hogy a modell betanítása ésszerű időn belül befejeződjön. A dokumentum tényleges szövege (fájlbemenet esetén) vagy szövegoszlopok halmaza (táblázatos bevitel esetén) legfeljebb 128 szót tartalmazhat. A korlát csak arra vonatkozik, amit a modell belsőleg használ a betanítási folyamat során.

A támogatott címkézés megkezdéséhez szükséges címkézett elemek száma nem rögzített szám. Ez a szám jelentősen eltérhet az egyik címkézési projekttől a másikig. A variancia számos tényezőtől függ, beleértve a címkeosztályok számát és a címkeeloszlást.

Konszenzuscímkézés használata esetén a betanításhoz a konszenzus címkéjét használja a rendszer.

Mivel a végső címkék továbbra is a címkéző bemenetére támaszkodnak, ezt a technológiát néha emberi címkézésnek is nevezik.

Feljegyzés

Az ML által támogatott adatcímkézés nem támogatja a virtuális hálózat mögött védett alapértelmezett tárfiókokat. Az ML által támogatott adatok címkézéséhez nem alapértelmezett tárfiókot kell használnia. A nem alapértelmezett tárfiókot a virtuális hálózat mögött lehet biztosítani.

Előzetes címkézés

Miután elegendő címkét adott be a betanításhoz, a betanított modell a címkék előrejelzésére szolgál. A címkéző mostantól az egyes elemeken már meglévő előrejelzett címkéket megjelenítő oldalakat látja. A feladat ezután magában foglalja az előrejelzések áttekintését és a hibásan címkézett elemek kijavítását az oldalbeküldés előtt.

Miután betanított egy gépi tanulási modellt a manuálisan címkézett adatokra, a modell kiértékelése manuálisan címkézett elemekből álló tesztkészleten történik. Az értékelés segít meghatározni a modell pontosságát különböző megbízhatósági küszöbértékeken. A kiértékelési folyamat olyan megbízhatósági küszöbértéket állít be, amely felett a modell elég pontos az előcímkék megjelenítéséhez. Ezt követően a rendszer a modellt címkézetlen adatok alapján értékeli ki. Az előrecímkézéshez olyan elemeket használnak, amelyek a küszöbértéknél magabiztosabb előrejelzésekkel rendelkeznek.

A szövegfeliratozási projekt inicializálása

A címkézési projekt inicializálása után a projekt bizonyos aspektusai nem módosíthatók. A feladattípust vagy az adatkészletet nem módosíthatja. A feladat leírásához módosíthatja a címkéket és az URL-címet. A projekt létrehozása előtt gondosan tekintse át a beállításokat. A projekt elküldése után visszatér az Adatcímkézés áttekintő oldalára, amely inicializálásként jeleníti meg a projektet.

Feljegyzés

Előfordulhat, hogy ez a lap nem frissül automatikusan. A szüneteltetés után manuálisan frissítse a lapot, hogy a projekt állapota létrehozva legyen.

Hibaelhárítás

A projekt létrehozásával vagy az adatok elérésével kapcsolatos problémákért tekintse meg az adatcímkézés hibaelhárítását.

Következő lépések