Számítógépes látási feladatok és technikák

Befejeződött

Megjegyzés:

További részletekért tekintse meg a Szöveg és képek lapot!

A "számítógépes látás" kifejezés számos olyan feladatra és technikára utal, amelyekben az AI-szoftverek vizuális bemenetet dolgoznak fel; általában képekből, videókból vagy élő kamerastreamekből. A számítógépes látás az AI egyik jól bevált területe, és a vizuális bemenetekből származó információk kinyerésére használt technikák jelentősen fejlődtek az évek során.

Képbesorolás

Az egyik legrégebbi számítógépes látási megoldás a képbesorolásnak nevezett technika, amelyben egy nagy számú képpel betanított modellt használnak egy szövegcímke előrejelzésére a kép tartalma alapján.

Tegyük fel például, hogy egy élelmiszerbolt intelligens kasszarendszert szeretne bevezetni, amely automatikusan azonosítja a termékeket. Az ügyfél például egy skálán helyezheti el a gyümölcsöket vagy zöldségeket a pénztárnál, és egy kamerához csatlakoztatott AI-alkalmazás automatikusan azonosíthatja a termékek típusait (alma, narancs, banán stb.), és a súly alapján a megfelelő összeget terhelheti. Ahhoz, hogy ez a megoldás működjön, egy modellt nagy mennyiségű képpel kell betanítani, mindegyiknek a megfelelő névvel kell rendelkeznie. Az eredmény egy olyan modell, amely egy kép vizuális funkcióival előrejelezheti a fő témát.

Egy narancs, egy alma és egy banán fényképe.

Objektumészlelés

Tegyük fel, hogy az élelmiszerbolt kifinomultabb rendszert szeretne, amelyben a pénztár több tételt is átvizsgálhat a pénztárban, és azonosíthatja őket. Az ilyen típusú problémák gyakori megközelítését "objektumészlelésnek" nevezzük. Az objektumészlelési modellek egy képen több régiót vizsgálnak meg az egyes objektumok és helyük megkereséséhez. A modellből származó előrejelzés tartalmazza az észlelt objektumokat, valamint a kép azon régióit, amelyekben megjelennek – a téglalap alakú határolókeret koordinátái jelzik.

Egy narancs, alma és banán fényképe határoló dobozokkal.

Szemantikai szegmentálás

Egy másik, kifinomultabb módszer az objektumok észlelésére a képen, az úgynevezett "szemantikai szegmentálás". Ebben a megközelítésben a modell betanítja az objektumok keresését, és a kép egyes képpontjainak besorolását annak az objektumnak az alapján, amelyhez tartoznak. Ennek a folyamatnak az eredménye egy sokkal pontosabb előrejelzés az objektumok helyéről a képen.

Fénykép egy narancsról, almáról és banánról ráhelyezett maszkokkal.

Környezetfüggő képelemzés

A legújabb multimodális számítógépes látásmodellek arra vannak betanítva, hogy a képekben található objektumok és az ezeket leíró szöveg közötti környezetfüggő kapcsolatokat keressék. Az eredmény egy kép szemantikai értelmezése annak meghatározására, hogy milyen objektumokat és tevékenységeket ábrázol; és megfelelő leírásokat hozhat létre, vagy releváns címkéket javasolhat.

Fénykép egy almát evő személyről.

Egy ember eszik egy almát.