Képfeliratozási projekt beállítása

Megtudhatja, hogyan hozhat létre és futtathat adatcímkéző projekteket képek címkézéséhez az Azure Machine Tanulás. A feladat elvégzéséhez gépi tanulással (ML) támogatott adatcímkézést vagy emberi használatú címkézést használhat.

Címkék beállítása besoroláshoz, objektumészleléshez (határolókeret), példányszegmentációhoz (sokszög) vagy szemantikai szegmentáláshoz (előzetes verzió).

Az Azure Machine Tanulás adatcímkéző eszközével szövegfeliratozási projektet is létrehozhat.

Fontos

A cikkben megjelölt (előzetes verziójú) elemek jelenleg nyilvános előzetes verzióban érhetők el. Az előzetes verzió szolgáltatásszint-szerződés nélkül érhető el, és éles számítási feladatokhoz nem ajánlott. Előfordulhat, hogy néhány funkció nem támogatott, vagy korlátozott képességekkel rendelkezik. További információ: Kiegészítő használati feltételek a Microsoft Azure előzetes verziójú termékeihez.

Képfeliratozási képességek

Az Azure Machine Tanulás adatcímkézés egy olyan eszköz, amellyel adatcímkézési projekteket hozhat létre, kezelhet és figyelhet. A következőkre lehet használni:

  • Koordinálja az adatokat, a címkéket és a csapattagokat a címkézési feladatok hatékony kezelése érdekében.
  • Nyomon követheti az előrehaladást, és fenntartja a hiányos címkézési tevékenységek várólistáját.
  • Indítsa el és állítsa le a projektet, és szabályozza a címkézési folyamatot.
  • Tekintse át és exportálja a címkézett adatokat Azure Machine-Tanulás adatkészletként.

Fontos

Az Azure Machine Tanulás adatcímkéző eszközben használandó adatlemezképnek elérhetőnek kell lennie egy Azure Blob Storage-adattárban. Ha nem rendelkezik meglévő adattárkal, a projekt létrehozásakor feltöltheti az adatfájlokat egy új adattárba.

A képadatok lehetnek olyan fájlok, amelyek az alábbi fájlkiterjesztések egyikével rendelkezik:

  • .jpg
  • .jpeg
  • .png
  • .jpe
  • .jfif
  • .Bmp
  • .Tif
  • .Tiff
  • .Dcm
  • .Dicom

Minden fájl egy címkézendő elem.

Egy MLTable adategységet is használhat képcímkéző projekt bemeneteként, feltéve, hogy a táblázatban lévő képek a fenti formátumok egyike. További információ: Az MLTable adategységek használata.

Előfeltételek

Az alábbi elemek használatával állíthatja be a képfeliratozást az Azure Machine Tanulás:

  • A címkézni kívánt adatok helyi fájlokban vagy az Azure Blob Storage-ban.
  • Az alkalmazni kívánt címkék készlete.
  • A címkézésre vonatkozó utasítások.
  • Azure-előfizetés. Ha még nincs Azure-előfizetése, kezdés előtt hozzon létre egy ingyenes fiókot.
  • Egy Azure Machine Learning-munkaterület. Lásd: Azure Machine Tanulás-munkaterület létrehozása.

Képcímkéző projekt létrehozása

A címkézési projektek felügyeletét az Azure Machine Tanulás végzi. A projektek kezeléséhez használja a Machine Tanulás Adatcímkézés lapját.

Ha az adatok már az Azure Blob Storage-ban találhatók, a címkézési projekt létrehozása előtt győződjön meg arról, hogy azok elérhetők adattárként.

  1. Projekt létrehozásához válassza a Projekt hozzáadása lehetőséget.

  2. A Projekt neve mezőben adja meg a projekt nevét.

    A projekt nevét nem használhatja újra, még akkor sem, ha törli a projektet.

  3. Képfeliratozási projekt létrehozásához a Média típushoz válassza a Kép lehetőséget.

  4. A címkézési feladattípushoz válasszon egy lehetőséget a forgatókönyvhöz:

    • Ha csak egyetlen címkét szeretne alkalmazni egy címkéből álló képre, válassza a Többosztályos képbesorolás lehetőséget.
    • Ha egy vagy több címkét szeretne alkalmazni egy képre egy címkekészletből, válassza a Többcímke képbesorolása lehetőséget. Előfordulhat például, hogy egy kutya fényképe kutyával és nappal is fel van címkézve.
    • Ha címkét szeretne hozzárendelni egy kép minden objektumához, és határolókereteket szeretne hozzáadni, válassza az Objektumazonosítás (Határolókeret) lehetőséget.
    • Ha címkét szeretne hozzárendelni egy kép minden objektumához, és sokszöget szeretne rajzolni az egyes objektumok köré, válassza a Példányszegmentálás (Sokszög) lehetőséget.
    • Ha maszkokat szeretne rajzolni egy képre, és egy címkeosztályt szeretne hozzárendelni a képpont szintjén, válassza a Szemantikai szegmentálás (előzetes verzió) lehetőséget.

    Screenshot that shows creating a labeling project to manage labeling.

  5. A folytatáshoz válassza a Tovább gombra.

Munkaerő hozzáadása (nem kötelező)

Válassza a Szállítói címkézési vállalat használata az Azure Marketplace-ről csak akkor, ha adatcímkéző vállalatot vett fel az Azure Marketplace-ről. Ezután válassza ki a szállítót. Ha a szállító nem jelenik meg a listában, törölje ezt a beállítást.

Győződjön meg arról, hogy először kapcsolatba lép a szállítóval, és aláír egy szerződést. További információ: Adatcímkéző szállító cég használata (előzetes verzió).

A folytatáshoz válassza a Tovább gombra.

Adja meg a címkézni kívánt adatokat

Ha már létrehozott egy olyan adathalmazt, amely tartalmazza az adatokat, válassza ki az adathalmazt a Meglévő adathalmaz kiválasztása legördülő listában.

Választhatja az Adathalmaz létrehozása lehetőséget is, ha meglévő Azure-adattárat szeretne használni, vagy helyi fájlokat szeretne feltölteni.

Feljegyzés

Egy projekt legfeljebb 500 000 fájlt tartalmazhat. Ha az adathalmaz meghaladja ezt a fájlszámot, csak az első 500 000 fájl töltődik be.

Adatoszlop-leképezés (előzetes verzió)

Ha kiválaszt egy MLTable adategységet, megjelenik egy további adatoszlop-leképezési lépés, amely megadja a kép URL-jeit tartalmazó oszlopot.

Meg kell adnia egy oszlopot, amely megfelel a Kép mezőnek. Az adatokban található egyéb oszlopokat is megfeleltetheti. Ha például az adatok egy Címke oszlopot tartalmaznak, hozzárendelheti a Kategória mezőhöz. Ha az adatok megbízhatósági oszlopot tartalmaznak, leképezheti azokat a Megbízhatóság mezőre.

Ha egy korábbi projektből importál címkéket, a címkéknek ugyanolyan formátumban kell lenniük, mint a létrehozott címkék. Ha például határolókeretcímkéket hoz létre, az importált címkéknek is határolókeretcímkéknek kell lenniük.

Importálási beállítások (előzetes verzió)

Ha egy Kategória oszlopot is belefoglal az Adatoszlop-leképezési lépésbe, az Importálási beállítások segítségével adhatja meg a címkézett adatok kezelését.

Meg kell adnia egy oszlopot, amely megfelel a Kép mezőnek. Az adatokban található egyéb oszlopokat is megfeleltetheti. Ha például az adatok egy Címke oszlopot tartalmaznak, hozzárendelheti a Kategória mezőhöz. Ha az adatok megbízhatósági oszlopot tartalmaznak, leképezheti azokat a Megbízhatóság mezőre.

Ha egy korábbi projektből importál címkéket, a címkéknek ugyanolyan formátumban kell lenniük, mint a létrehozott címkék. Ha például határolókeretcímkéket hoz létre, az importált címkéknek is határolókeretcímkéknek kell lenniük.

Adatkészlet létrehozása Azure-adattárból

Sok esetben feltölthet helyi fájlokat. Az Azure Storage Explorer azonban gyorsabb és robusztusabb módot kínál a nagy mennyiségű adat átvitelére. A fájlok áthelyezésének alapértelmezett módjaként a Storage Explorert javasoljuk.

Adatkészlet létrehozása a Blob Storage-ban már tárolt adatokból:

  1. Válassza a Létrehozás lehetőséget.
  2. A Név mezőbe írja be az adathalmaz nevét. Ha szeretné, adjon meg egy leírást.
  3. Győződjön meg arról, hogy az adathalmaz típusa Fájl értékre van állítva. Képek esetében csak fájladatkészlet-típusok támogatottak.
  4. Válassza a Tovább lehetőséget.
  5. Válassza az Azure Storage-ból, majd a Tovább lehetőséget.
  6. Jelölje ki az adattárat, majd kattintson a Tovább gombra.
  7. Ha az adatok a Blob Storage egyik almappájában találhatók, válassza a Tallózás lehetőséget az elérési út kiválasztásához.
    • Ha a kijelölt elérési út almappáiba szeretné felvenni az összes fájlt, fűzze hozzá /** az elérési utat.
    • Ha az aktuális tárolóban és annak almappáiban lévő összes adatot fel szeretné venni, fűzze hozzá **/*.* az elérési úthoz.
  8. Válassza a Létrehozás lehetőséget.
  9. Válassza ki a létrehozott adategységet.

Adatkészlet létrehozása feltöltött adatokból

Adatok közvetlen feltöltése:

  1. Válassza a Létrehozás lehetőséget.
  2. A Név mezőbe írja be az adathalmaz nevét. Ha szeretné, adjon meg egy leírást.
  3. Győződjön meg arról, hogy az adathalmaz típusa Fájl értékre van állítva. Képek esetében csak fájladatkészlet-típusok támogatottak.
  4. Válassza a Tovább lehetőséget.
  5. Válassza a Helyi fájlok lehetőséget, majd válassza a Tovább gombot.
  6. (Nem kötelező) Válasszon egy adattárat. Azt is megteheti, hogy a gép Tanulás munkaterület alapértelmezett blobtárolójába (workspaceblobstore) tölti fel az alapértelmezettet.
  7. Válassza a Tovább lehetőséget.
  8. Válassza a Fájlok feltöltése>vagy a Feltöltés mappa feltöltése>lehetőséget a feltöltendő helyi fájlok vagy mappák kiválasztásához.
  9. A böngészőablakban keresse meg a fájlokat vagy mappákat, majd válassza a Megnyitás lehetőséget.
  10. Folytassa a Feltöltés lehetőséget, amíg meg nem adja az összes fájlt és mappát.
  11. Ha már létezik, bejelölheti az Felülírás jelölőnégyzetet. Ellenőrizze a fájlok és mappák listáját.
  12. Válassza a Tovább lehetőséget.
  13. Erősítse meg a részleteket. Válassza a Vissza lehetőséget a beállítások módosításához, vagy válassza a Létrehozás lehetőséget az adathalmaz létrehozásához.
  14. Végül válassza ki a létrehozott adategységet.

Növekményes frissítés konfigurálása

Ha új adatfájlokat szeretne hozzáadni az adathalmazhoz, növekményes frissítés használatával vegye fel a fájlokat a projektbe.

Ha rendszeres időközönként engedélyezi a növekményes frissítést, az adatkészlet rendszeres időközönként ellenőrzi, hogy új fájlok legyenek hozzáadva egy projekthez a címkézési befejezési arány alapján. Az új adatok ellenőrzése leáll, ha a projekt legfeljebb 500 000 fájlt tartalmaz.

Válassza a Növekményes frissítés engedélyezése rendszeres időközönként , ha azt szeretné, hogy a projekt folyamatosan figyelje az adattárban lévő új adatokat.

Törölje a kijelölést, ha nem szeretné, hogy az adattárban lévő új fájlok automatikusan bekerüljenek a projektbe.

Fontos

Ne hozzon létre új verziót a frissíteni kívánt adatkészlethez. Ha így tesz, a frissítések nem lesznek láthatók, mert az adatfeliratozási projekt a kezdeti verzióra van rögzítve. Ehelyett az Azure Storage Explorerrel módosítsa az adatokat a Blob Storage megfelelő mappájában.

Emellett ne távolítsa el az adatokat. Ha eltávolítja az adatokat abból az adathalmazból, amelyet a projektje használ, azzal hibát okoz a projektben.

A projekt létrehozása után a Részletek lapon módosíthatja a növekményes frissítést, megtekintheti az utolsó frissítés időbélyegét, és kérheti az adatok azonnali frissítését.

Címkeosztályok megadása

A Címkekategóriák lapon adjon meg egy osztálykészletet az adatok kategorizálásához.

A címkézők pontosságát és sebességét befolyásolja, hogy képesek választani az osztályok között. Például a növények vagy állatok teljes nemének és fajainak helyesírása helyett használjon egy mezőkódot vagy a nem rövidítését.

Használhat egy egyszerű listát, vagy létrehozhat címkék csoportjait.

  • Ha lapos listát szeretne létrehozni, válassza a Címkekategória hozzáadása lehetőséget az egyes címkék létrehozásához.

    Screenshot that shows how to add a flat structure of labels.

  • Ha különböző csoportokban szeretne címkéket létrehozni, válassza a Címkekategória hozzáadása lehetőséget a felső szintű címkék létrehozásához. Ezután jelölje ki a pluszjelet (+) az egyes felső szintek alatt a következő címkeszint létrehozásához az adott kategóriához. Bármilyen csoportosításhoz legfeljebb hat szintet hozhat létre.

    Screenshot that shows how to add groups of labels.

A címkézési folyamat során bármilyen szinten kijelölhet címkéket. Például a címkék Animal, Animal/Cat, Animal/Dog, Color, Color/Black, , , Color/Whiteés Color/Silver az összes rendelkezésre álló választási lehetőségek egy címke. Egy többcímkés projektben nincs szükség az egyes kategóriák egyikének kiválasztására. Ha ez a szándéka, mindenképpen adja meg ezeket az információkat az utasításokban.

A képfeliratozási feladat leírása

Fontos egyértelműen elmagyarázni a címkézési feladatot. A Címkézési utasítások lapon hozzáadhat egy hivatkozást egy olyan külső webhelyhez, amely címkézési utasításokat tartalmaz, vagy utasításokat adhat meg a lap szerkesztési mezőjében. Tartsa az utasításokat feladatorientáltan és a közönségnek megfelelő módon. Fontolja meg az alábbi kérdéseket:

  • Mit fognak látni a címkék címkézői, és hogyan választanak közülük? Van hivatkozási szövegre hivatkozni?
  • Mit tegyenek, ha nem tűnik megfelelőnek a címke?
  • Mit tegyenek, ha több címke megfelelőnek tűnik?
  • Milyen megbízhatósági küszöbértéket kell alkalmazniuk egy címkére? Azt szeretné, hogy a címkéző a legjobb tipp, ha nem biztos benne?
  • Mit tegyenek részben elzárt vagy átfedésben lévő érdekes objektumokkal?
  • Mit tegyenek, ha a kép széle levág egy érdekes objektumot?
  • Mit tegyenek, ha azt hiszik, hogy hibát követtek el a címke beküldése után?
  • Mit tegyenek, ha képminőségi problémákat észlelnek, beleértve a gyenge fényviszonyokat, a tükröződéseket, a fókusz elvesztését, a nem kívánt hátteret, a rendellenes kameraállásokat stb.
  • Mit tegyenek, ha több véleményezőnek eltérő véleménye van a címke alkalmazásáról?

Határolókeretek esetén a fontos kérdések a következők:

  • Hogyan van definiálva a határolókeret ehhez a feladathoz? Teljesen a tárgy belső részén kell maradnia, vagy a külső részen kell lennie? A lehető legszorosabban kell levágni, vagy elfogadható-e valamilyen engedély?
  • Milyen szintű gondozást és konzisztenciát vár a címkézőktől a határolókeretek meghatározásakor?
  • Mi az egyes címkeosztályok vizuális definíciója? Meg tudja adni az egyes osztályok normál, él- és számlálóeseteinek listáját?
  • Mit tegyenek a címkézők, ha az objektum kicsi? Fel kell-e címkézni objektumként, vagy figyelmen kívül kell hagyni az objektumot háttérként?
  • Hogyan kezelnek a címkézők egy olyan objektumot, amely csak részben jelenik meg a képen?
  • Hogyan kezelhetik a címkézők egy másik objektum által részben lefedett objektumot?
  • Hogyan kezelhetik a címkézők egy olyan objektumot, amelynek nincs egyértelmű határa?
  • Hogyan kezelhetik a címkézők azokat az objektumokat, amelyek nem a releváns objektumosztályok, de vizualizációs hasonlóságuk van egy adott objektumtípushoz?

Feljegyzés

A címkézők az első kilenc címkét az 1–9. számbillentyűkkel jelölhetik ki.

Minőség-ellenőrzés (előzetes verzió)

Ha pontosabb címkéket szeretne kapni, a Minőségellenőrzés lapon elküldheti az egyes elemeket több címkézőnek.

Fontos

A konszenzusos címkézés jelenleg nyilvános előzetes verzióban érhető el.

Az előzetes verzió szolgáltatásszint-szerződés nélkül érhető el, és éles számítási feladatokhoz nem ajánlott. Előfordulhat, hogy néhány funkció nem támogatott, vagy korlátozott képességekkel rendelkezik.

További információ: Kiegészítő használati feltételek a Microsoft Azure előzetes verziójú termékeihez.

Ha minden elemet több címkézőnek szeretne elküldeni, válassza a Konszenzusos címkézés engedélyezése (előzetes verzió) lehetőséget. Ezután állítsa be a minimális címkézők és a maximális címkézők értékeit, hogy megadják, hány címkézőt használjon. Győződjön meg arról, hogy a maximális számhoz annyi címkéző érhető el. A projekt elindítása után ezek a beállítások nem módosíthatók.

Ha a címkézők minimális száma alapján konszenzusra jut, az elem címkével van ellátva. Ha nem sikerül konszenzust elérni, a rendszer az elemet több címkézőnek küldi el. Ha nincs konszenzus, miután az elem a címkézők maximális számára kerül, az állapota felülvizsgálatra szorul, és a projekt tulajdonosa felelős az elem címkézéséért.

Feljegyzés

A példányszegmentálási projektek nem használhatják a konszenzusos címkézést.

Ml-támogatással támogatott adatcímkék használata

A címkézési feladatok felgyorsítása érdekében az ML által támogatott címkézési lapon automatikus gépi tanulási modelleket indíthat el. Az orvosi képek (.dcm kiterjesztéssel rendelkező fájlok) nem szerepelnek a támogatott címkézésben. Ha a projekt típusa szemantikai szegmentálás (előzetes verzió), akkor az ML által támogatott címkézés nem érhető el.

A címkézési projekt elején a rendszer véletlenszerű sorrendbe rendezi az elemeket a lehetséges torzítás csökkentése érdekében. A betanított modell azonban az adathalmazban található torzításokat tükrözi. Ha például az elemek 80 százaléka egyetlen osztályból áll, akkor a modell betanítása során használt adatok körülbelül 80 százaléka az adott osztályba kerül.

A támogatott címkézés engedélyezéséhez válassza az ML támogatott címkézésének engedélyezése lehetőséget, és adjon meg egy GPU-t. Ha nem rendelkezik GPU-val a munkaterületen, létrejön egy GPU-fürt (erőforrás neve: DefLabelNC6v3, vmsize: Standard_NC6s_v3) az Ön számára, és hozzáadódik a munkaterülethez. A fürt legalább nulla csomóponttal jön létre, ami azt jelenti, hogy használaton nem kerül semmibe.

Az ML által támogatott címkézés két fázisból áll:

  • Fürtözés
  • Előzetes címkézés

A támogatott címkézés megkezdéséhez szükséges címkézett adatelemek száma nem rögzített szám. Ez a szám jelentősen eltérhet az egyik címkézési projekttől a másikig. Egyes projektek esetében előfordulhat, hogy 300 elem manuális címkézése után megjelennek az előcímkézési vagy fürttevékenységek. Az ML által támogatott címkézés a transzfertanulás nevű technikát használja. A transzfertanulás előre betanított modellel indítja el a betanítási folyamatot. Ha az adathalmaz osztályai az előre betanított modell osztályaihoz hasonlítanak, előfordulhat, hogy az előfeliratok csak néhány száz kézzel címkézett elem után válnak elérhetővé. Ha az adathalmaz jelentősen eltér a modell előzetes betanítása során használt adatoktól, a folyamat több időt vehet igénybe.

Konszenzuscímkézés használata esetén a betanításhoz a konszenzus címkéjét használja a rendszer.

Mivel a végső címkék továbbra is a címkéző bemenetére támaszkodnak, ezt a technológiát néha emberi címkézésnek is nevezik.

Feljegyzés

Az ML által támogatott adatcímkézés nem támogatja a virtuális hálózat mögött védett alapértelmezett tárfiókokat. Az ML által támogatott adatok címkézéséhez nem alapértelmezett tárfiókot kell használnia. A nem alapértelmezett tárfiókot a virtuális hálózat mögött lehet biztosítani.

Fürtözés

Néhány címke elküldése után a besorolási modell elkezdi csoportosítani a hasonló elemeket. Ezek a hasonló képek ugyanazon az oldalon jelennek meg a címkézőknek, hogy hatékonyabbá tegyék a manuális címkézést. A fürtözés különösen akkor hasznos, ha egy címkéző négy, hat vagy kilenc képből álló rácsot tekint meg.

Miután egy gépi tanulási modellt betanított a manuálisan címkézett adatokra, a rendszer csonkolja a modellt az utolsó teljesen csatlakoztatott rétegre. A nem címkézett képek ezután átkerülnek a csonkolt modellen egy beágyazás vagy featurizálás nevű folyamat során. Ez a folyamat beágyazza az egyes képeket a modellréteg által definiált nagy méretű térbe. A rendszer a rendszerképhez legközelebbi helyen lévő más képeket is a fürttevékenységekhez használja.

A fürtözési fázis nem jelenik meg objektumészlelési modellek vagy szövegbesorolás esetén.

Előzetes címkézés

Miután elegendő címkét adott meg a betanításhoz, a besorolási modell vagy címkéket jelez előre, vagy egy objektumészlelési modell előrejelzi a határolókereteket. A címkéző mostantól az egyes elemeken már előrejelzett címkéket tartalmazó oldalakat lát. Az objektumészleléshez az előrejelzett mezők is megjelennek. A feladat magában foglalja az előrejelzések áttekintését és a helytelenül címkézett képek kijavítását az oldal beküldése előtt.

Miután betanított egy gépi tanulási modellt a manuálisan címkézett adatokra, a rendszer a modellt manuálisan címkézett elemek tesztkészletén értékeli ki. Az értékelés segít meghatározni a modell pontosságát különböző megbízhatósági küszöbértékeken. A kiértékelési folyamat olyan megbízhatósági küszöbértéket állít be, amely felett a modell elég pontos az előcímkék megjelenítéséhez. Ezt követően a rendszer a modellt címkézetlen adatok alapján értékeli ki. A küszöbértéknél magabiztosabb előrejelzéseket tartalmazó elemeket használnak az előzetes címkézéshez.

A képfeliratozási projekt inicializálása

A címkézési projekt inicializálása után a projekt bizonyos aspektusai nem módosíthatók. A feladattípust vagy az adatkészletet nem módosíthatja. A feladat leírásához módosíthatja a címkéket és az URL-címet. A projekt létrehozása előtt gondosan tekintse át a beállításokat. A projekt elküldése után visszatér az Adatcímkézés áttekintő oldalára, amely inicializálásként jeleníti meg a projektet.

Feljegyzés

Előfordulhat, hogy ez a lap nem frissül automatikusan. A szüneteltetés után manuálisan frissítse a lapot, hogy a projekt állapota létrehozva legyen.

Hibaelhárítás

A projekt létrehozásával vagy az adatok elérésével kapcsolatos problémákért tekintse meg az adatcímkézés hibaelhárítását.

Következő lépések