Freigeben über


Abrufen von Einblicken zur Objekterkennung

In diesem Artikel erfahren Sie, wie Sie einblicke in die Azure AI Video Indexer-Objekterkennung erhalten. Die Objekterkennung ist ein Feature, das Objekte in Videos erkennt und nachverfolgt. Es kann verwendet werden, um Objekte wie Autos, Handtaschen, Rucksäcke und Laptops zu finden.

Unterstützte Objekte

  • Flugzeug
  • Apfel
  • Rucksack
  • Banane
  • Baseballhandschuh
  • Bett
  • Bank
  • Fahrrad
  • Boot
  • Buch
  • Flasche
  • Schüssel
  • Brokkoli
  • Bus
  • Kuchen
  • Auto
  • Karotte
  • Mobiltelefon
  • Stuhl
  • Uhr
  • Computermaus
  • Couch
  • Tasse
  • Esstisch
  • Donut
  • Feuerhydrant
  • Fork
  • Frisbee
  • Haartrockner
  • Handtasche
  • Hot Dog
  • Tastatur
  • Drachen
  • Messer
  • Laptop
  • Mikrowelle
  • Motorrad
  • Computermaus
  • Krawatte
  • Orange
  • Ofen
  • Parkuhr
  • Pizza
  • Topfpflanze
  • Sandwich
  • Schere
  • Waschbecken
  • Skateboard
  • Ski
  • Snowboard
  • Löffel
  • Sportball
  • Stoppschild
  • Koffer
  • Surfbrett
  • Teddybär
  • Tennisschläger
  • Toaster
  • Toilette
  • Zahnbürste
  • Ampel
  • Zug
  • Regenschirm
  • Vase
  • Weinglas

Sehen Sie sich das Insight-JSON im Webportal an

Laden Sie nach dem Hochladen und Indizieren eines Videos Einblicke im JSON-Format aus dem Webportal herunter.

  1. Wählen Sie die Registerkarte "Bibliothek" aus.
  2. Wählen Sie die gewünschten Medien aus.
  3. Wählen Sie "Herunterladen" und dann "Insights (JSON)" aus. Die JSON-Datei wird auf einer neuen Browserregisterkarte geöffnet.
  4. Suchen Sie das in der Beispielantwort beschriebene Schlüsselpaar.

Verwenden der API

  1. Verwenden Sie eine Get Video Index-Anforderung . Pass &includeSummarizedInsights=false.
  2. Suchen Sie die in der Beispielantwort beschriebenen Schlüsselpaare.

Beispielantwort

Erkannte und nachverfolgte Objekte erscheinen unter detectedObjects in der heruntergeladenen Datei insights.json. Jedes Mal, wenn ein eindeutiges Objekt erkannt wird, erhält das Objekt eine ID. Dieses Objekt wird ebenfalls verfolgt, was bedeutet, dass das Modell darauf wartet, dass das erkannte Objekt wieder im Bild auftaucht. Wenn dies der Fall ist, wird eine andere Instanz den Instanzen für das Objekt mit unterschiedlichen Anfangs- und Endzeiten hinzugefügt.

In diesem Beispiel wurde das erste Auto erkannt und erhielt eine ID von 1, da es auch das erste Objekt erkannt wurde. Dann wurde ein anderes Auto erkannt und das Auto erhielt die ID von 23, da es als das 23. Objekt erkannt wurde. Später erschien das erste Auto wieder und eine andere Instanz wurde dem JSON hinzugefügt. Hier sehen Sie den resultierenden JSON-Code:

detectedObjects: [
    {
    id: 1,
    type: "Car",
    thumbnailId: "1c0b9fbb-6e05-42e3-96c1-abe2cd48t33",
    displayName: "car",
    wikiDataId: "Q1420",
    instances: [
        {
        confidence: 0.468,
        adjustedStart: "0:00:00",
        adjustedEnd: "0:00:02.44",
        start: "0:00:00",
        end: "0:00:02.44"
        },
        {
        confidence: 0.53,
        adjustedStart: "0:03:00",
        adjustedEnd: "0:00:03.55",
        start: "0:03:00",
        end: "0:00:03.55"
        }    
    ]
    },
    {
    id: 23,
    type: "Car",
    thumbnailId: "1c0b9fbb-6e05-42e3-96c1-abe2cd48t34",
    displayName: "car",
    wikiDataId: "Q1420",
    instances: [
        {
        confidence: 0.427,
        adjustedStart: "0:00:00",
        adjustedEnd: "0:00:14.24",
        start: "0:00:00",
        end: "0:00:14.24"
        }    
    ]
    }
]
Schlüssel Definition
Identifikationsnummer Inkrementelle Anzahl der IDs der erkannten Objekte in der Mediendatei
Typ Typ von Objekten, z. B. Car
ThumbnailID GUID, die eine einzelne Erkennung des Objekts darstellt
Anzeigename Name, der in der VI-Portaloberfläche angezeigt werden soll
WikiDataID Ein eindeutiger Bezeichner in der WikiData-Struktur
Instanzen Liste aller Vorfälle, die verfolgt wurden
Zuverlässigkeit Eine Bewertung zwischen 0 und 1, die die Vertrauenswürdigkeit der Objekterkennung angibt
angepasster Start angepasste Startzeit des Videos bei Verwendung des Editors
angepasstesEnde angepasste Endzeit des Videos bei Verwendung des Editors
Start die Uhrzeit, zu der das Objekt im Frame angezeigt wird
Ende die Zeit, zu der das Objekt nicht mehr im Frame angezeigt wird

Komponenten

Für die Objekterkennung sind keine Komponenten definiert.

Transparenzhinweise

Wichtig

Lesen Sie die Übersicht über die Transparenzhinweise für alle VI-Features. Jeder Einblick hat auch eine eigene Transparenznotiz.

  • Es gibt bis zu 20 Erkennungen pro Frame für Standard- und erweiterte Verarbeitung und 35 Spuren pro Klasse.
  • Die Objektgröße sollte nicht größer als 90 Prozent des Frames sein. Große Objekte, die sich konsistent über einen großen Teil des Frames erstrecken, werden möglicherweise nicht erkannt.
  • Kleine oder verschwommene Objekte können schwer zu erkennen sein. Sie können entweder übersehen oder falsch klassifiziert werden (Weinglas, Tasse).
  • Objekte, die vorübergehend sind und in wenigen Frames angezeigt werden, werden möglicherweise nicht erkannt.
  • Andere Faktoren, die sich auf die Genauigkeit der Objekterkennung auswirken können, sind niedrige Lichtverhältnisse, Kamerabewegungen und Okklusionen.
  • Azure AI Video Indexer unterstützt nur reale Objekte. Es gibt keine Unterstützung für Animationen oder CGI. Computer generierte Grafiken (z. B. News-Aufkleber) können seltsame Ergebnisse erzeugen.
  • Binder, Broschüren und andere schriftliche Materialien werden meist als Bookerkannt.

Beispielcode

Alle Beispiele für VI anzeigen