Freigeben über


Azure AI Video Indexer Erkenntnisse

Wenn ein Video indiziert wird, analysiert Azure AI Video Indexer die Video- und Audioinhalte, indem sie 30 KI-Modelle ausführen. Es generiert JSON mit den Videoanalysen, einschließlich Transkriptionen, optischer Zeichenerkennung (OCR), Gesicht, Themen, Emotionen und so weiter. Jeder Erkenntnistyp enthält Zeitspannen, die anzeigen, wann die Erkenntnis im Video erscheint.

Folgen Sie den Links in der Insights-Tabelle, um zu erfahren, wie Sie jede JSON-Antwort im Webportal erhalten und die API verwenden.

Einblicke

Erkenntnis Beschreibung
Gesichtserkennung Die Gesichtserkennung findet Gesichter in einer Mediendatei und gruppiert ähnliche Gesichter. Das System generiert Gesichtserkennungserkenntnisse als kategorisierte Liste in einer JSON-Datei. Jeder Eintrag enthält eine Miniaturansicht und entweder einen Namen oder eine ID für jedes Gesicht. Wenn Sie im Webportal die Miniaturansicht eines Gesichts auswählen, werden Details wie der Name der Person (sofern erkannt), der Prozentsatz des Videos, in dem die Person angezeigt wird, und die Biografie der Person angezeigt, wenn sie ein Prominenter sind. Sie können durch Instanzen im Video scrollen, in denen die Person angezeigt wird.
Bezeichnungsidentifikation Die Bezeichnungsidentifizierung ist ein Azure AI Video Indexer-Feature, das visuelle Objekte wie Sonnenbrillen oder Aktionen wie Schwimmen im Videomaterial einer Mediendatei identifiziert. Das Feature enthält viele Bezeichnungskategorien. Nach der Extraktion werden Labels auf der Registerkarte "Insights" angezeigt, und Sie können diese in über 50 Sprachen übersetzen. Wählen Sie eine Bezeichnung aus, um die Instanz in der Mediendatei zu öffnen. Wählen Sie Vorheriges abspielen oder Nächstes abspielen, um weitere Beispiele anzuzeigen.
Objekterkennung Azure AI Video Indexer erkennt Objekte in Videos wie Autos, Handtaschen, Rucksäcke und Laptops.
Erkennung von beobachteten Personen Beobachtete Personen erkennen und übereinstimmende Gesichter erkennen und stimmen automatisch Personen in Mediendateien überein. Es kann eingestellt werden, dass beobachtete Personen und erkannte sowie abgeglichene Gesichter Erkenntnisse über Personen, deren Kleidung und den genauen Zeitraum ihres Erscheinens anzeigen.
OCR Optische Zeichenerkennung (OCR) extrahiert Text aus Bildern, z. B. Bilder, Straßenschilder und Produkte in Mediendateien, um Einblicke zu schaffen.
Postproduktion: Erkennung von Filmklappen Die Klappenerkennung findet Klappen, die während des Drehs verwendet werden, und gibt Ihnen die Informationen auf der Klappe als Metadaten, wie Produktion, Rolle, Szene und Take. Clapper Board ist Teil von Erkenntnissen nach der Produktion, die Sie beim Hochladen und Indizierung der Datei im Webportal auswählen.
Postproduktion: digitale Muster Die Erkennung digitaler Muster findet Farbbalken , die während der Drehung verwendet werden. Digitale Muster sind Teil von Erkenntnissen aus der Nachbearbeitung, die Sie im Webportal unter erweiterten Einstellungen beim Hochladen und Indizieren der Datei auswählen.
Szenen, Aufnahmen und Keyframes Die Szenenerkennung findet, wenn sich eine Szene in einem Video basierend auf visuellen Hinweisen ändert. Eine Szene zeigt ein einzelnes Ereignis an und verfügt über eine Reihe verwandter Aufnahmen. Aufnahmen sind eine Reihe von Einzelbildern, die sich durch visuelle Merkmale unterscheiden, z. B. abrupte oder graduelle Änderungen in der Farbgestaltung benachbarter Bilder. Screenshotmetadaten umfassen die Startzeit, die Endzeit und eine Liste der Keyframes im Screenshot. Ein Keyframe ist ein Bild aus einer Aufnahme, das die Aufnahme am besten darstellt.

Erkenntnisse aus Audioaufnahmen

Erkenntnis Beschreibung
Erkennung von Audioeffekten Die Erkennung von Audioeffekten erkennt akustische Ereignisse und klassifiziert sie in Kategorien wie Lachen, Crowdreaktionen, Alarme oder Sirenen.
Schlüsselwörterextraktion Die Schlüsselwortextraktion findet wichtige Schlüsselwörter in Mediendateien und bietet Einblicke in Einzel- und Mehrsprachige Mediendateien.
Benannte Entitäten Die Extraktion benannter Entitäten verwendet NLP (Natural Language Processing), um Speicherorte, Personen und Marken in Audio- und Bilddateien zu finden. Die Extraktion benannter Entitäten verwendet Transkription und optische Zeichenerkennung (OCR).
Erkennung von textbasierten Emotionen Die Gefühlserkennung findet Emotionen in den Transkriptzeilen eines Videos. Jeder Satz wird als Ärger, Angst, Freude, traurig oder gar nicht erkannt, wenn keine andere Emotion gefunden wird.
Themenerschließung Themeninferenz erstellt abgeleitete Erkenntnisse aus transkribiertem Audio, OCR-Inhalten in visuellem Text und bekannten Persönlichkeiten, die das Gesichtserkennungsmodell von Video Indexer im Video erkennt.
Transkription, Übersetzung und Sprachidentifikation Die Transkriptions-, Übersetzungs- und Spracherkennungsfeatures erkennen, transkribieren und übersetzen Sprache in Mediendateien in mehr als 50 Sprachen.