A Custom Vision-modell fejlesztése

Cikk
02/21/2024

Ebben az útmutatóban megtudhatja, hogyan javíthatja a Custom Vision-modell minőségét. Az osztályozó vagy objektumérzékelő minősége függ a megadott címkézett adatok mennyiségétől, minőségétől és változatosságától, valamint a teljes adatkészlet kiegyensúlyozottságától. A jó modell rendelkezik egy kiegyensúlyozott betanítási adathalmazsal, amely a beküldött adatokra jellemző. Az ilyen modell létrehozásának folyamata iteratív; gyakori, hogy a várt eredmények elérése érdekében néhány betanítási kört kell elvégezni.

Az alábbiakban egy általános mintát mutatunk be, amely segít a pontosabb modell betanítása során:

Első fordulós képzés
További képek hozzáadása és az adatok kiegyensúlyozása; Átképzés
Különböző háttérrel, megvilágítással, objektummérettel, kameraszöggel és stílussal rendelkező képek hozzáadása; Átképzés
Új kép(ek) használata az előrejelzés teszteléséhez
Meglévő betanítási adatok módosítása előrejelzési eredmények alapján

A túlillesztés megakadályozása

Előfordulhat, hogy egy modell megtanulja az előrejelzéseket a képek közös jellemzői alapján készíteni. Ha például alma és citrusfélék osztályozóját hozza létre, és a fehér lemezeken az alma és a citrus képét használta, az osztályozó nem az alma és a citrusfélék, hanem a kezek és a lemezek számára ad felesleges jelentőséget.

A probléma megoldásához különböző szögeket, háttereket, objektumméretet, csoportokat és egyéb változatokat biztosítson a képeknek. A következő szakaszok ezekre a fogalmakra terjednek ki.

Adatmennyiség

Az adathalmaz legfontosabb tényezője a betanítási képek száma. Javasoljuk, hogy címkénként legalább 50 képet használjon kiindulási pontként. Kevesebb kép esetén nagyobb a túlillesztés kockázata, és bár a teljesítményszámok jó minőségre utalhatnak, a modell a valós adatokkal is küszködhet.

Adategyenleg

Fontos figyelembe venni a betanítási adatok relatív mennyiségét is. Ha például 500 képet használ egy címkéhez, és 50 képet egy másik címkéhez, az kiegyensúlyozatlan betanítási adatkészletet tesz lehetővé. Ez azt eredményezi, hogy a modell pontosabban előrejelzi az egyik címkét, mint a másikat. Valószínűleg jobb eredményeket fog látni, ha legalább 1:2 arányt tart fenn a legkevesebb képpel rendelkező címke és a legtöbb képet tartalmazó címke között. Ha például a legtöbb képet tartalmazó címke 500 képet tartalmaz, a legkevesebb képpel rendelkező címkének legalább 250 képpel kell rendelkeznie a betanításhoz.

Adatválaszték

Ügyeljen arra, hogy olyan képeket használjon, amelyek a normál használat során az osztályozónak küldött képekre jellemzőek. Ellenkező esetben a modell megtanulhat előrejelzéseket készíteni a képek közös jellemzői alapján. Ha például alma és citrusfélék osztályozóját hozza létre, és a fehér lemezeken az alma és a citrus képét használta, az osztályozó nem az alma és a citrusfélék, hanem a kezek és a lemezek számára ad felesleges jelentőséget.

Photo of fruits with unexpected matching.

A probléma megoldásához adjon meg számos különböző képet, hogy a modell megfelelően általánosíthasson. Az alábbiakban bemutatunk néhány módszert, amelyekkel változatosabbá teheti a betanítási csoportot:

Háttér: Adjon meg képeket az objektumról különböző hátterek előtt. A természetes környezetekben lévő fényképek jobbak, mint a semleges háttér előtt lévő fényképek, mivel több információt nyújtanak az osztályozó számára.
Világítás: Változatos megvilágítást biztosít a képeknek (azaz vakuval, magas expozícióval stb.), különösen akkor, ha az előrejelzéshez használt képek különböző megvilágítással rendelkeznek. Az is hasznos, ha különböző telítettségű, árnyalatú és fényerős képeket használ.
Objektumméret: Olyan képeket adhat meg, amelyekben az objektumok mérete és száma eltérő (például egy banáncsomónyi banán fényképe és egy banán közelítése). A különböző méretezés segít az osztályozónak általánosítani a jobb általánosítást.
Kamera szög: Adjon meg különböző kameraállású képeket. Másik lehetőségként, ha az összes fényképet rögzített kamerákkal (például térfigyelő kamerákkal) kell készíteni, mindenképpen rendeljen egy másik címkét minden rendszeresen előforduló objektumhoz, hogy elkerülje a túlillesztést – a nem kapcsolódó objektumok (például lámpaoszlopok) értelmezése a fő funkció.
Stílus: Azonos osztály különböző stílusait (például ugyanazon gyümölcs különböző fajtái) ábrázoló képeket adhat meg. Ha azonban drasztikusan eltérő stílusú objektumokkal rendelkezik (például Mickey egér vagy valós egér), javasoljuk, hogy külön osztályokként címkézze őket, hogy jobban képviseljék a különböző funkciókat.

Negatív képek (csak osztályozók)

Ha képosztályozót használ, előfordulhat, hogy negatív mintákat kell hozzáadnia az osztályozó pontosabbá tétele érdekében. A negatív minták olyan képek, amelyek nem felelnek meg a többi címkének. Amikor feltölti ezeket a képeket, alkalmazza rájuk a speciális negatív címkét.

Az objektumérzékelők automatikusan kezelik a negatív mintákat, mert a rajzolt határolókereteken kívüli képterületek negatívnak minősülnek.

Feljegyzés

A Custom Vision szolgáltatás támogatja az automatikus negatív képkezelést. Ha például egy szőlő- és banánosztályozót készít, és egy cipő képét küldi el előrejelzésre, az osztályozónak ezt a képet a szőlő és a banán esetében is közel 0%-nak kell minősítenie.

Másrészt azokban az esetekben, amikor a negatív képek csak a betanításban használt képek egy változatai, valószínű, hogy a modell a negatív képeket címkézett osztályként sorolja be a nagy hasonlóságok miatt. Ha például narancssárga vagy grapefruit osztályozóval rendelkezik, és egy klmentin képén táplálkozik, akkor a clementint narancsként értékelheti, mivel a klmentin számos funkciója hasonlít a narancséra. Ha a negatív képek ilyen jellegűek, javasoljuk, hogy hozzon létre egy vagy több további címkét (például Egyéb), és címkézze fel a negatív képeket ezzel a címkével a betanítás során, hogy a modell jobban megkülönböztethesse ezeket az osztályokat.

Elzáródás és csonkolás (csak objektumérzékelők)

Ha azt szeretné, hogy az objektumdetektor csonkolt objektumokat (a képből részben kivágott objektumokat) vagy elzárt objektumokat (a kép más objektumai által részben blokkolt objektumokat) észleljen, be kell vonnia az ilyen eseteket lefedő betanítási képeket.

Feljegyzés

A más objektumok által elzárt objektumok problémáját nem szabad összekeverni az átfedési küszöbértékkel, amely a minősítési modell teljesítményének paramétere. A Custom Vision webhelyén található Átfedési küszöbérték csúszka azt határozza meg, hogy egy előrejelzett határolókeretnek mennyire kell átfedésben lennie a valódi határolókerettel, hogy helyesnek lehessen tekinteni.

Előrejelzési képek használata további oktatáshoz

Amikor a modellt úgy használja vagy teszteli, hogy képeket küld az előrejelzési végpontnak, a Custom Vision szolgáltatás tárolja ezeket a képeket. Ezután használhatja őket a modell fejlesztéséhez.

A modellnek küldött képek megtekintéséhez nyissa meg a Custom Vision weblapot, nyissa meg a projektet, és válassza az Előrejelzések lapot. Az alapértelmezett nézet az aktuális iteráció képeit jeleníti meg. Az Iteration legördülő menüben megtekintheti a korábbi iterációk során elküldött képeket.
Mutasson egy képre a modell által előrejelzett címkék megtekintéséhez. A rendszer úgy rendezi a képeket, hogy azok, amelyek a legtöbb fejlesztést hozhatják a modellben, a lista tetején találhatók. Ha másik rendezési módszert szeretne használni, válasszon a Rendezés szakaszban.

Ha képet szeretne hozzáadni a meglévő betanítási adatokhoz, jelölje ki a képet, állítsa be a megfelelő címkét(ek), majd válassza a Mentés és bezárás lehetőséget. A rendszer eltávolítja a képet az előrejelzésekből, és hozzáadja a betanítási képek készletéhez. Ezt a Betanítási képek lapra kattintva tekintheti meg.
Ezután a Betanítás gombbal újratanítsa a modellt.

Előrejelzések vizuális vizsgálata

A képjóslások vizsgálatához lépjen a Betanítási képek lapra, válassza ki a korábbi betanítási iterációt az Iteráció legördülő menüben, és ellenőrizze a Címkék szakaszban található egy vagy több címkét. A nézetnek mostantól piros mezőnek kell megjelennie az egyes képek körül, amelyek esetében a modell nem tudta megfelelően előrejelezni az adott címkét.

Image of the iteration history

Előfordulhat, hogy a vizualizációs ellenőrzés azonosítja azokat a mintákat, amelyeket aztán kijavíthat további betanítási adatok hozzáadásával vagy a meglévő betanítási adatok módosításával. Az alma és a lime osztályozója például helytelenül címkézheti az összes zöld almát lime-ként. Ezt a problémát a zöld alma címkézett képeit tartalmazó betanítási adatok hozzáadásával és megadásával háríthatja el.

Következő lépések

Ebben az útmutatóban számos technikát elsajátított az egyéni képosztályozási modell vagy objektumdetektor-modell pontosabbá tétele érdekében. Ezután megtudhatja, hogyan tesztelheti a képeket programozott módon a Prediction API-ba való beküldéssel.

Az előrejelzési API használata