Datorseende

Fullbordad

Viktiga punkter att förstå om datorsyn är:

  • Datorseende uppnås genom att använda ett stort antal bilder för att träna en modell.
  • Bildklassificering är en form av visuellt innehåll där en modell tränas med bilder som är märkta med bildens huvudämne (med andra ord vad det är en bild av) så att den kan analysera omärkta bilder och förutsäga den lämpligaste etiketten – identifiera bildens ämne.
  • Objektidentifiering är en form av visuellt innehåll där modellen tränas att identifiera platsen för specifika objekt i en bild.
  • Det finns mer avancerade former av visuellt innehåll – till exempel är semantisk segmentering en avancerad form av objektidentifiering där modellen i stället för att ange ett objekts plats genom att rita en ruta runt den kan identifiera de enskilda bildpunkterna i bilden som tillhör ett visst objekt.
  • Du kan kombinera modeller för visuellt innehåll och språk för att skapa en multimodal modell som kombinerar funktioner för visuellt innehåll och generativ AI.

Scenarier för datorseende

Vanliga användningsområden för datorsyn är:

  • Automatisk undertextning eller tagggenerering för fotografier.
  • Visuell sökning.
  • Övervaka lagernivåer eller identifiera objekt för utcheckning i detaljhandelsscenarier.
  • Övervakning av säkerhetsvideo.
  • Autentisering via ansiktsigenkänning.
  • Robotteknik och självkörande fordon.