Computervisionsaufgaben und -techniken
Hinweis
Weitere Details finden Sie auf der Registerkarte "Text und Bilder ".
Der Begriff "Computervision" bezieht sich auf eine Reihe von Aufgaben und Techniken, in denen KI-Software visuelle Eingaben verarbeitet; in der Regel aus Bildern, Videos oder Livekamerastreams. Computervision ist ein gut etablierter Bereich der KI, und die Techniken, die zum Extrahieren von Informationen aus visuellen Eingaben verwendet werden, haben sich im Laufe der Jahre erheblich weiterentwickelt.
Bildklassifizierung
Eine der ältesten Computervisionslösungen ist eine Technik namens Bildklassifizierung, bei der ein Modell, das mit einer großen Anzahl von Bildern trainiert wurde, verwendet wird, um eine Textbezeichnung basierend auf dem Inhalt eines Bilds vorherzusagen.
Angenommen, ein Lebensmittelgeschäft möchte ein intelligentes Checkout-System implementieren, das produkte automatisch identifiziert. Beispielsweise könnte der Kunde Obst oder Gemüse auf einer Skala an der Kasse platzieren, und eine KI-Anwendung, die mit einer Kamera verbunden ist, könnte automatisch die Arten von Produkten (Apfel, Orange, Bananen usw.) identifizieren und die entsprechende Menge auf der Grundlage ihres Gewichts berechnen. Damit diese Lösung funktioniert, müsste ein Modell mit einer großen Anzahl von Bildern trainiert werden, die jeweils mit dem richtigen Namen beschriftet sind. Das Ergebnis ist ein Modell, das die visuellen Features eines Bilds verwenden kann, um sein Hauptthema vorherzusagen.
Objekterkennung
Angenommen, der Supermarkt möchte ein anspruchsvolleres System, bei dem die Kasse mehrere Artikel scannen und jeden davon erkennen kann. Ein allgemeiner Ansatz für diese Art von Problem wird als "Objekterkennung" bezeichnet. Objekterkennungsmodelle untersuchen mehrere Bereiche in einem Bild, um einzelne Objekte und deren Speicherorte zu finden. Die daraus resultierende Vorhersage des Modells enthält, welche Objekte erkannt wurden, und die spezifischen Bereiche des Bilds, in dem sie angezeigt werden – angegeben durch die Koordinaten des rechteckigen Begrenzungsfelds.
Semantische Segmentierung
Eine weitere, anspruchsvollere Methode zum Erkennen von Objekten in einem Bild wird als "semantische Segmentierung" bezeichnet. Bei diesem Ansatz wird ein Modell trainiert, um Objekte zu finden und einzelne Pixel im Bild basierend auf dem Objekt zu klassifizieren, zu dem sie gehören. Das Ergebnis dieses Prozesses ist eine viel präzisere Vorhersage der Position von Objekten im Bild.
Kontextbezogene Bildanalyse
Die neuesten multimodalen Computervisionsmodelle werden geschult, um kontextbezogene Beziehungen zwischen Objekten in Bildern und dem Text zu finden, der sie beschreibt. Das Ergebnis ist eine Fähigkeit, ein Bild semantisch zu interpretieren, um zu bestimmen, welche Objekte und Aktivitäten es darstellt; und entsprechende Beschreibungen generieren oder relevante Tags vorschlagen.
Eine Person, die einen Apfel isst.