Informationen zum maschinellen Sehen

Abgeschlossen

Maschinelles Sehen ist ein KI-Bereich, bei dem es um visuelle Verarbeitung geht. Nachfolgend erhalten Sie Informationen dazu, welche Möglichkeiten maschinelles Sehen mit sich bringt.

Die App Seeing AI zeigt, wie nützlich maschinelles Sehen ist. Diese App wurde für blinde und sehbehinderte Menschen entwickelt und nutzt KI, um ihnen die visuelle Welt zugänglich zu machen, indem sie Menschen in der Nähe, Textelemente und Objekte beschreibt.

Weitere Informationen zu Seeing AI finden Sie im folgenden Video.

Weitere Informationen finden Sie auf der Webseite zu Seeing AI.

Modelle und Funktionen für maschinelles Sehen

Die meisten Lösungen für maschinelles Sehen basieren auf Modellen für maschinelles Lernen, die auf visuelle Eingaben von Kameras, Videos oder Bildern angewendet werden können. Die folgende Tabelle beschreibt gängige Tasks für maschinelles Sehen.

Aufgabe Beschreibung
Bildklassifizierung An image of a taxi with the label
Bei der Bildklassifizierung wird ein Modell für maschinelles Lernen trainiert, Bilder anhand ihres Inhalts zu klassifizieren. Beispielsweise können Sie in einer Verkehrsüberwachungslösung ein Bildklassifizierungsmodell verwenden, um Bilder basierend auf dem darin enthaltenen Fahrzeugtyp zu klassifizieren (z. B. Taxis, Busse, Radfahrer usw.).
Objekterkennung An image of a street with buses, cars, and cyclists identified and highlighted with a bounding box.
Objekterkennungsmodelle für maschinelles Lernen werden so trainiert, dass sie einzelne Objekte in einem Bild klassifizieren und ihre Position durch ein umgebendes Feld kenntlich machen. Beispielsweise kann eine Verkehrsüberwachungslösung die Objekterkennung verwenden, um die Positionen verschiedener Fahrzeugklassen zu erkennen.
Semantische Segmentierung An image of a street with the pixels belonging to buses, cars, and cyclists identified.
Die semantische Segmentierung ist eine fortschrittliche Technik für maschinelles Lernen, bei der einzelne Pixel im Bild anhand des Objekt klassifiziert werden, dem sie zugeordnet werden können. Beispielsweise kann eine Verkehrsüberwachungslösung Verkehrsbilder mit sogenannten Maskenschichten überlagern, um mit bestimmten Farben verschiedene Fahrzeuge hervorzuheben.
Bildanalyse An image of a person with a dog on a street and the caption
Sie können Lösungen erstellen, die Modelle für maschinelles Lernen mit fortschrittlichen Bildanalysetechniken kombinieren, um Informationen aus Bildern zu extrahieren, einschließlich Tags, mit denen das Bild katalogisiert werden kann, oder sogar beschreibende Bildunterschriften, die das im Bild Gezeigte zusammenfassen.
Gesichtserfassung, -analyse und -erkennung An image of multiple people on a city street with their faces highlighted.
Die Gesichtserkennung ist eine spezialisierte Form der Objekterkennung, die die Gesichter von Menschen in einem Bild sucht. Dies kann mit Klassifizierungs- und Analysetechniken der Gesichtsgeometrie kombiniert werden, um Personen anhand ihrer Gesichtszüge zu erkennen.
Optische Zeichenerkennung (Optical Character Recognition, OCR) An image of a building with the sign
Die optische Zeichenerkennung ist eine Technik zum Erkennen und Lesen von Text in Bildern. Mit OCR können Sie Text in Fotos lesen (z. B. Verkehrsschilder oder Ladenfronten) oder Informationen aus gescannten Dokumenten wie Briefen, Rechnungen oder Formularen extrahieren.

Dienste für maschinelles Sehen in Microsoft Azure

Sie können Azure KI Vision von Microsoft verwenden, um Lösungen für maschinelles Sehen zu entwickeln. Die Dienstfeatures stehen zur Verwendung und zum Testen in Azure Vision Studio und anderen Programmiersprachen zur Verfügung. Einige Features von Azure KI Vision umfassen:

  • Bildanalyse: Funktionen zum Analysieren von Bildern und Videos sowie zum Extrahieren von Beschreibungen, Tags, Objekten und Text.
  • Gesichtserkennung: Funktionen, mit denen Sie Lösungen zur Personen- und Gesichtserkennung erstellen können.
  • Optische Zeichenerkennung (Optical Character Recognition, OCR):Funktionen zum Extrahieren von gedrucktem oder handgeschriebenem Text aus Bildern, die den Zugriff auf eine digitale Version des gescannten Texts ermöglichen.