Computervisionsopgaver og -teknikker

Fuldført

Notat

Se fanen Tekst og billeder for flere detaljer!

Udtrykket "computersyn" refererer til en række opgaver og teknikker, hvor AI-software behandler visuelt input; typisk fra billeder, videoer eller live kamerastreams. Computersyn er et veletableret område inden for AI, og de teknikker, der bruges til at udtrække information fra visuelt input, har udviklet sig betydeligt gennem årene.

Klassificering af billeder

En af de ældste computervisionsløsninger er en teknik kaldet billedklassificering, hvor en model, der er blevet trænet med et stort antal billeder, bruges til at forudsige en tekstetiket baseret på et billedes indhold.

Antag for eksempel, at en købmand ønsker at implementere et smart kassesystem, der identificerer produkter automatisk. Kunden kan f.eks. placere frugt eller grøntsager på en vægt ved kassen, og en AI-applikation, der er forbundet til et kamera, kan automatisk identificere produkttyperne (æble, appelsin, banan osv.) og opkræve den passende mængde baseret på dens vægt. For at denne løsning skal fungere, skal en model trænes med en stor mængde billeder, der hver især er mærket med det korrekte navn. Resultatet er en model, der kan bruge de visuelle træk i et billede til at forudsige dets hovedmotiv.

Fotografier af en appelsin og et æble og en banan.

Objektregistrering

Antag, at købmanden ønsker et mere sofistikeret system, hvor kassen kan scanne flere varer på kassen og identificere hver af dem. En almindelig tilgang til denne type problemer kaldes "objektdetektion". Objektregistreringsmodeller undersøger flere områder i et billede for at finde individuelle objekter og deres placeringer. Den resulterende forudsigelse fra modellen omfatter, hvilke objekter der blev detekteret, og de specifikke områder af billedet, hvor de vises - angivet med koordinaterne for den rektangulære afgrænsningsramme.

Fotografi af en appelsin, et æble og en banan med afgrænsningsbokse.

Semantisk segmentering

En anden, mere sofistikeret måde at registrere objekter i et billede på, kaldes "semantisk segmentering". I denne tilgang trænes en model til at finde objekter og klassificere individuelle pixels i billedet baseret på det objekt, de tilhører. Resultatet af denne proces er en meget mere præcis forudsigelse af placeringen af objekter i billedet.

Fotografi af en appelsin, et æble og en banan med overlejrede masker.

Kontekstuel billedanalyse

De nyeste multimodale computervisionsmodeller er trænet til at finde kontekstuelle relationer mellem objekter i billeder og den tekst, der beskriver dem. Resultatet er en evne til semantisk at fortolke et billede for at bestemme, hvilke objekter og aktiviteter det forestiller; og generere passende beskrivelser eller foreslå relevante tags.

Fotografi af en person, der spiser et æble.

En person, der spiser et æble.