Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
In diesem Artikel erfahren Sie, wie Sie einblicke in die Azure AI Video Indexer-Objekterkennung erhalten. Die Objekterkennung ist ein Feature, das Objekte in Videos erkennt und nachverfolgt. Es kann verwendet werden, um Objekte wie Autos, Handtaschen, Rucksäcke und Laptops zu finden.
Unterstützte Objekte
- Flugzeug
- Apfel
- Rucksack
- Banane
- Baseballhandschuh
- Bett
- Bank
- Fahrrad
- Boot
- Buch
- Flasche
- Schüssel
- Brokkoli
- Bus
- Kuchen
- Auto
- Karotte
- Mobiltelefon
- Stuhl
- Uhr
- Computermaus
- Couch
- Tasse
- Esstisch
- Donut
- Feuerhydrant
- Fork
- Frisbee
- Haartrockner
- Handtasche
- Hot Dog
- Tastatur
- Drachen
- Messer
- Laptop
- Mikrowelle
- Motorrad
- Computermaus
- Krawatte
- Orange
- Ofen
- Parkuhr
- Pizza
- Topfpflanze
- Sandwich
- Schere
- Waschbecken
- Skateboard
- Ski
- Snowboard
- Löffel
- Sportball
- Stoppschild
- Koffer
- Surfbrett
- Teddybär
- Tennisschläger
- Toaster
- Toilette
- Zahnbürste
- Ampel
- Zug
- Regenschirm
- Vase
- Weinglas
Sehen Sie sich das Insight-JSON im Webportal an
Laden Sie nach dem Hochladen und Indizieren eines Videos Einblicke im JSON-Format aus dem Webportal herunter.
- Wählen Sie die Registerkarte "Bibliothek" aus.
- Wählen Sie die gewünschten Medien aus.
- Wählen Sie "Herunterladen" und dann "Insights (JSON)" aus. Die JSON-Datei wird auf einer neuen Browserregisterkarte geöffnet.
- Suchen Sie das in der Beispielantwort beschriebene Schlüsselpaar.
Verwenden der API
- Verwenden Sie eine Get Video Index-Anforderung . Pass
&includeSummarizedInsights=false
. - Suchen Sie die in der Beispielantwort beschriebenen Schlüsselpaare.
Beispielantwort
Erkannte und nachverfolgte Objekte erscheinen unter detectedObjects
in der heruntergeladenen Datei insights.json. Jedes Mal, wenn ein eindeutiges Objekt erkannt wird, erhält das Objekt eine ID. Dieses Objekt wird ebenfalls verfolgt, was bedeutet, dass das Modell darauf wartet, dass das erkannte Objekt wieder im Bild auftaucht. Wenn dies der Fall ist, wird eine andere Instanz den Instanzen für das Objekt mit unterschiedlichen Anfangs- und Endzeiten hinzugefügt.
In diesem Beispiel wurde das erste Auto erkannt und erhielt eine ID von 1, da es auch das erste Objekt erkannt wurde. Dann wurde ein anderes Auto erkannt und das Auto erhielt die ID von 23, da es als das 23. Objekt erkannt wurde. Später erschien das erste Auto wieder und eine andere Instanz wurde dem JSON hinzugefügt. Hier sehen Sie den resultierenden JSON-Code:
detectedObjects: [
{
id: 1,
type: "Car",
thumbnailId: "1c0b9fbb-6e05-42e3-96c1-abe2cd48t33",
displayName: "car",
wikiDataId: "Q1420",
instances: [
{
confidence: 0.468,
adjustedStart: "0:00:00",
adjustedEnd: "0:00:02.44",
start: "0:00:00",
end: "0:00:02.44"
},
{
confidence: 0.53,
adjustedStart: "0:03:00",
adjustedEnd: "0:00:03.55",
start: "0:03:00",
end: "0:00:03.55"
}
]
},
{
id: 23,
type: "Car",
thumbnailId: "1c0b9fbb-6e05-42e3-96c1-abe2cd48t34",
displayName: "car",
wikiDataId: "Q1420",
instances: [
{
confidence: 0.427,
adjustedStart: "0:00:00",
adjustedEnd: "0:00:14.24",
start: "0:00:00",
end: "0:00:14.24"
}
]
}
]
Schlüssel | Definition |
---|---|
Identifikationsnummer | Inkrementelle Anzahl der IDs der erkannten Objekte in der Mediendatei |
Typ | Typ von Objekten, z. B. Car |
ThumbnailID | GUID, die eine einzelne Erkennung des Objekts darstellt |
Anzeigename | Name, der in der VI-Portaloberfläche angezeigt werden soll |
WikiDataID | Ein eindeutiger Bezeichner in der WikiData-Struktur |
Instanzen | Liste aller Vorfälle, die verfolgt wurden |
Zuverlässigkeit | Eine Bewertung zwischen 0 und 1, die die Vertrauenswürdigkeit der Objekterkennung angibt |
angepasster Start | angepasste Startzeit des Videos bei Verwendung des Editors |
angepasstesEnde | angepasste Endzeit des Videos bei Verwendung des Editors |
Start | die Uhrzeit, zu der das Objekt im Frame angezeigt wird |
Ende | die Zeit, zu der das Objekt nicht mehr im Frame angezeigt wird |
Komponenten
Für die Objekterkennung sind keine Komponenten definiert.
Transparenzhinweise
Wichtig
Lesen Sie die Übersicht über die Transparenzhinweise für alle VI-Features. Jeder Einblick hat auch eine eigene Transparenznotiz.
- Es gibt bis zu 20 Erkennungen pro Frame für Standard- und erweiterte Verarbeitung und 35 Spuren pro Klasse.
- Die Objektgröße sollte nicht größer als 90 Prozent des Frames sein. Große Objekte, die sich konsistent über einen großen Teil des Frames erstrecken, werden möglicherweise nicht erkannt.
- Kleine oder verschwommene Objekte können schwer zu erkennen sein. Sie können entweder übersehen oder falsch klassifiziert werden (Weinglas, Tasse).
- Objekte, die vorübergehend sind und in wenigen Frames angezeigt werden, werden möglicherweise nicht erkannt.
- Andere Faktoren, die sich auf die Genauigkeit der Objekterkennung auswirken können, sind niedrige Lichtverhältnisse, Kamerabewegungen und Okklusionen.
- Azure AI Video Indexer unterstützt nur reale Objekte. Es gibt keine Unterstützung für Animationen oder CGI. Computer generierte Grafiken (z. B. News-Aufkleber) können seltsame Ergebnisse erzeugen.
- Binder, Broschüren und andere schriftliche Materialien werden meist als
Book
erkannt.