Úlohy a techniky počítačového zpracování obrazu

Dokončeno

Poznámka:

Další podrobnosti najdete na kartě Text a obrázky .

Pojem "počítačové zpracování obrazu" odkazuje na řadu úloh a technik, ve kterých software AI zpracovává vizuální vstup; obvykle z obrázků, videí nebo datových proudů živé kamery. Počítačové zpracování obrazu je dobře zavedená oblast umělé inteligence a techniky používané k extrakci informací z vizuálního vstupu se v průběhu let výrazně vyvinuly.

Klasifikace obrázků

Jedním z nejstarších řešení počítačového zpracování obrazu je technika označovaná jako klasifikace obrázků, ve které se model trénovaný velkým počtem obrázků používá k predikci textového popisku na základě obsahu obrázku.

Předpokládejme například, že obchod s potravinami chce implementovat inteligentní systém pokladny, který identifikuje produkty automaticky. Zákazník může například umístit ovoce nebo zeleninu na stupnici v pokladně a aplikace AI připojená ke kameře může automaticky identifikovat typy plodin (jablko, pomeranč, banán atd.) a naúčtovat odpovídající množství na základě své hmotnosti. Aby toto řešení fungovalo, model by se měl vytrénovat s velkým objemem obrázků, přičemž každý z nich má správný název. Výsledkem je model, který může pomocí vizuálních funkcí obrázku předpovědět jeho hlavní předmět.

Fotografie pomeranče, jablka a banánu.

Rozpoznávání objektů

Předpokládejme, že obchod s potravinami chce sofistikovanější systém, ve kterém může pokladna prohledávat více položek v pokladně a identifikovat je. Běžný přístup k tomuto typu problému se nazývá "detekce objektů". Modely rozpoznávání objektů prověřují více oblastí na obrázku a vyhledávají jednotlivé objekty a jejich umístění. Výsledná předpověď z modelu zahrnuje, které objekty byly zjištěny, a konkrétní oblasti obrázku, ve kterých se zobrazují – označené souřadnicemi obdélníkového ohraničujícího rámečku.

Fotografie pomeranče, jablka a banánu s ohraničujícími rámečky.

Sémantická segmentace

Další, sofistikovanější způsob, jak rozpoznat objekty na obrázku, se nazývá "sémantická segmentace". V tomto přístupu je model natrénovaný tak, aby našel objekty a klasifikoval jednotlivé pixely na obrázku na základě objektu, do kterého patří. Výsledkem tohoto procesu je mnohem přesnější předpověď umístění objektů na obrázku.

Fotografie pomeranče, jablka a banánu s překrývajícími maskami

Kontextová analýza obrázků

Nejnovější multimodální modely počítačového zpracování obrazu jsou natrénované tak, aby vyhledály kontextové vztahy mezi objekty na obrázcích a textem, který je popisuje. Výsledkem je schopnost sémanticky interpretovat obrázek k určení objektů a aktivit, které znázorňuje; a vygenerujte odpovídající popisy nebo navrhujte relevantní značky.

Fotografie člověka, který jí jablko.

Člověk, který jí jablko.