Share via


Objekterkennung

Die Objekterkennung ist vergleichbar mit dem Tagging (mit einem Etikett versehen), die API gibt aber die Koordinaten des umgebenden Felds (in Pixel) für jedes im Image gefundene Objekt zurück. Wenn ein Bild beispielsweise einen Hund, eine Katze und eine Person enthält, wird der Vorgang zur Objekterkennung diese Objekte zusammen mit ihren Koordinaten im Bild auflisten. Sie können diese Funktion verwenden, um die Beziehungen zwischen den Objekten in einem Bild zu verarbeiten. Außerdem können Sie ermitteln, ob mehrere Instanzen des gleichen Objekts in einem Image enthalten sind.

Die Funktion zur Objekterkennung wendet Tags auf der Grundlage der Objekte oder Lebewesen an, die im Bild identifiziert wurden. An diesem Punkt gibt es keine formale Beziehung zwischen der Taggingtaxonomie und der Objekterkennungstaxonomie. Auf konzeptioneller Ebene betrachtet, findet die Objekterkennungsfunktion nur Objekte und lebende Dinge, während die Tag-Funktion darüber hinaus kontextbezogene Begriffe wie „Innenraum“ beinhalten kann, die nicht mithilfe von Begrenzungsrahmen gefunden werden können.

Testen Sie mithilfe von Vision Studio die Features zur Objekterkennung ganz schnell und einfach in Ihrem Browser.

Beispiel für die Objekterkennung

Die folgende JSON-Antwort veranschaulicht, was von der Analyse-API beim Erkennen von Objekten im Beispielbild zurückgegeben wird.

A woman using a Microsoft Surface device in a kitchen

{
   "objects":[
      {
         "rectangle":{
            "x":730,
            "y":66,
            "w":135,
            "h":85
         },
         "object":"kitchen appliance",
         "confidence":0.501
      },
      {
         "rectangle":{
            "x":523,
            "y":377,
            "w":185,
            "h":46
         },
         "object":"computer keyboard",
         "confidence":0.51
      },
      {
         "rectangle":{
            "x":471,
            "y":218,
            "w":289,
            "h":226
         },
         "object":"Laptop",
         "confidence":0.85,
         "parent":{
            "object":"computer",
            "confidence":0.851
         }
      },
      {
         "rectangle":{
            "x":654,
            "y":0,
            "w":584,
            "h":473
         },
         "object":"person",
         "confidence":0.855
      }
   ],
   "requestId":"25018882-a494-4e64-8196-f627a35c1135",
   "metadata":{
      "height":473,
      "width":1260,
      "format":"Jpeg"
   },
   "modelVersion":"2021-05-01"
}

Begrenzungen

Es ist wichtig, die Einschränkungen bei der Objekterkennung zu beachten, damit Sie die Auswirkungen von falsch negativen Ergebnissen (ausgelassene Objekten) und begrenzten Details vermeiden oder minimieren können.

  • Objekte werden in der Regel nicht erkannt, wenn sie klein (kleiner als 5 % des Bilds) sind.
  • Objekte werden in der Regel nicht erkannt, wenn sie eng beieinander liegen (z.B. ein Stapel Teller).
  • Objekte werden nicht nach Marken- oder Produktnamen unterschieden (z.B. verschiedene Arten von Mineralwasser in einem Verkaufsregal). Mithilfe der Funktion Markenerkennung können Sie jedoch Markeninformationen aus einem Bild auslesen.

Verwenden der API

Die Funktion zur Erkennung von Objekten ist Teil der Bildanalyse-API. Sie können diese API über ein natives SDK oder REST-Aufrufe aufrufen. Beziehen Sie Objects in den Abfrageparameter visualFeatures ein. Nachdem Sie die vollständige JSON-Antwort erhalten haben, analysieren Sie die Zeichenfolge auf die Inhalte im Abschnitt "objects".