Számítógépes látási feladatok és technikák
Megjegyzés:
További részletekért tekintse meg a Szöveg és képek lapot!
A "számítógépes látás" kifejezés számos olyan feladatra és technikára utal, amelyekben az AI-szoftverek vizuális bemenetet dolgoznak fel; általában képekből, videókból vagy élő kamerastreamekből. A számítógépes látás az AI egyik jól bevált területe, és a vizuális bemenetekből származó információk kinyerésére használt technikák jelentősen fejlődtek az évek során.
Képbesorolás
Az egyik legrégebbi számítógépes látási megoldás a képbesorolásnak nevezett technika, amelyben egy nagy számú képpel betanított modellt használnak egy szövegcímke előrejelzésére a kép tartalma alapján.
Tegyük fel például, hogy egy élelmiszerbolt intelligens kasszarendszert szeretne bevezetni, amely automatikusan azonosítja a termékeket. Az ügyfél például egy skálán helyezheti el a gyümölcsöket vagy zöldségeket a pénztárnál, és egy kamerához csatlakoztatott AI-alkalmazás automatikusan azonosíthatja a termékek típusait (alma, narancs, banán stb.), és a súly alapján a megfelelő összeget terhelheti. Ahhoz, hogy ez a megoldás működjön, egy modellt nagy mennyiségű képpel kell betanítani, mindegyiknek a megfelelő névvel kell rendelkeznie. Az eredmény egy olyan modell, amely egy kép vizuális funkcióival előrejelezheti a fő témát.
Objektumészlelés
Tegyük fel, hogy az élelmiszerbolt kifinomultabb rendszert szeretne, amelyben a pénztár több tételt is átvizsgálhat a pénztárban, és azonosíthatja őket. Az ilyen típusú problémák gyakori megközelítését "objektumészlelésnek" nevezzük. Az objektumészlelési modellek egy képen több régiót vizsgálnak meg az egyes objektumok és helyük megkereséséhez. A modellből származó előrejelzés tartalmazza az észlelt objektumokat, valamint a kép azon régióit, amelyekben megjelennek – a téglalap alakú határolókeret koordinátái jelzik.
Szemantikai szegmentálás
Egy másik, kifinomultabb módszer az objektumok észlelésére a képen, az úgynevezett "szemantikai szegmentálás". Ebben a megközelítésben a modell betanítja az objektumok keresését, és a kép egyes képpontjainak besorolását annak az objektumnak az alapján, amelyhez tartoznak. Ennek a folyamatnak az eredménye egy sokkal pontosabb előrejelzés az objektumok helyéről a képen.
Környezetfüggő képelemzés
A legújabb multimodális számítógépes látásmodellek arra vannak betanítva, hogy a képekben található objektumok és az ezeket leíró szöveg közötti környezetfüggő kapcsolatokat keressék. Az eredmény egy kép szemantikai értelmezése annak meghatározására, hogy milyen objektumokat és tevékenységeket ábrázol; és megfelelő leírásokat hozhat létre, vagy releváns címkéket javasolhat.
Egy ember eszik egy almát.