Azure AI Video Indexer Insights
Wenn ein Video indiziert wird, analysiert Azure AI Video Indexer die Video- und Audioinhalte durch Ausführen von 30+ AI-Modellen und generiert JSON mit den Videoerkenntnissen, einschließlich Transkriptionen, optische Zeichenerkennungselemente (OCRs), Gesicht, Themen, Emotionen usw. Jeder Einblickstyp enthält Instanzen von Zeitbereichen, die zeigen, wann der Einblick im Video angezeigt wird.
Verwenden Sie die Links in der Insights-Tabelle, um zu erfahren, wie Sie jede JSON-Antwort im Webportal erhalten und die API verwenden.
Einblicke
Erkenntnis | Beschreibung |
---|---|
Gesichtserkennung | Die Gesichtserkennung erkennt Gesichter in einer Mediendatei und aggregiert dann Instanzen ähnlicher Gesichter in Gruppen. Gesichtserkennungserkenntnisse werden als kategorisierte Liste in einer JSON-Datei generiert, die eine Miniaturansicht und entweder einen Namen oder eine ID für jedes Gesicht enthält. Im Webportal zeigt die Auswahl der Miniaturansicht eines Gesichts Informationen wie den Namen der Person an (sofern sie erkannt wurden), den Prozentsatz des Videos, das die Person angezeigt wird, und die Biografie der Person, wenn sie ein Prominenter sind. Sie können auch zwischen Instanzen im Video scrollen, in denen die Person angezeigt wird. |
Bezeichnungsidentifikation | Die Bezeichnungsidentifizierung ist ein KI-Feature von Azure AI Video Indexer, das visuelle Objekte wie Sonnenbrillen oder Aktionen wie Schwimmen identifiziert, die im Videomaterial einer Mediendatei angezeigt werden. Es gibt viele Bezeichnungs-Identifikationskategorien und nach dem Extrahieren werden Bezeichnungsidentifikationsinstanzen auf der Registerkarte "Insights" angezeigt und können in mehr als 50 Sprachen übersetzt werden. Wenn Sie auf eine Bezeichnung klicken, wird die Instanz in der Mediendatei geöffnet, wählen Sie "Zurück wiedergeben" oder "Weiter wiedergeben" aus, um weitere Instanzen anzuzeigen. |
Objekterkennung | Azure AI Video Indexer erkennt Objekte in Videos wie Autos, Handtaschen und Rucksäcken und Laptops. |
Erkennung beobachteter Personen | Beobachtete Personen erkennen und übereinstimmende Gesichter erkennen und stimmen automatisch Personen in Mediendateien überein. Beobachtete Personen, die Gesichter erkennen und übereinstimmen, können so festgelegt werden, dass Erkenntnisse zu Personen, ihrer Kleidung und dem genauen Zeitrahmen ihres Aussehens angezeigt werden.) |
OCR | OCR extrahiert Text aus Bildern wie Bildern, Straßenschildern und Produkten in Mediendateien, um Einblicke zu schaffen. |
Postproduktion: Klatschwanderkennung | Die Clapper board-Erkennung erkennt Clapperboards, die während der Verfilmung verwendet werden, die auch die Informationen enthalten, die auf dem Clapper board als Metadaten erkannt werden, z. B. Produktion, Rolle, Szene, Nehmen usw. Clapper Board ist Teil der Einblicke nach der Produktion, die Sie beim Hochladen und Indizieren der Datei im Webportal auswählen können. |
Postproduktion: digitale Muster | Die Erkennung digitaler Muster erkennt Farbbalken , die während der Drehung verwendet werden. Digitale Muster sind Teil der Erkenntnisse nach der Produktion, die Sie beim Hochladen und Indizierung der Datei im Webportal auswählen können. |
Szenen, Aufnahmen und Keyframes | Die Szenenerkennung erkennt, wenn sich eine Szene in einem Video basierend auf visuellen Hinweisen ändert. Eine Szene zeigt ein einzelnes Ereignis und besteht aus einer Reihe von Aufnahmen, die miteinander verknüpft sind. Aufnahmen sind eine Reihe von Frames, die von visuellen Hinweisen wie abrupten und graduellen Übergängen im Farbschema benachbarter Frames unterschieden werden. Die Metadaten des Screenshots umfassen Die Start- und Endzeit sowie eine Liste der keyframes, die in der Aufnahme enthalten sind. Ein Keyframe ist ein Frame aus einem Shot, der am besten einen Shot darstellt. |
Erkenntnisse aus Audioaufnahmen
Erkenntnis | Beschreibung |
---|---|
Erkennung von Audioeffekten | Die Erkennung von Audioeffekten erkennt akustische Ereignisse und klassifiziert sie in Kategorien wie Lachen, Massenreaktionen, Alarme und/oder Sirenen. |
Schlüsselwörterextraktion | Die Schlüsselwörterextraktion erkennt Erkenntnisse zu den verschiedenen Schlüsselwörtern, die in Mediendateien behandelt werden. Es extrahiert Erkenntnisse sowohl in Einzelsprachen- als auch in mehrsprachigen Mediendateien. |
Benannte Entitäten | Die Extraktion benannter Entitäten verwendet NLP (Natural Language Processing), um Einblicke zu den Speicherorten, Personen und Marken zu extrahieren, die in Audio- und Bildern in Mediendateien angezeigt werden. Die benannten Entitätenextraktions-Erkenntnisse verwenden Transkription und optische Zeichenerkennung (OCR). |
Erkennung von textbasierten Emotionen | Die Erkennung von Emotionen erkennt Emotionen in den Transkriptzeilen des Videos. Jeder Satz kann entweder als Anger, Angst, Joy, Sad, None erkannt werden, wenn keine andere Emotion erkannt wurde. |
Inference von Themen | Inferanz von Themen erstellt abgeleitete Erkenntnisse, die von den transkribierten Audio-, OCR-Inhalten in visuellem Text und Prominenten abgeleitet wurden, die im Video mithilfe des VideoIndexer-Gesichtserkennungsmodells erkannt wurden. |
Transkription, Übersetzung und Sprachidentifikation | Transkription, Übersetzung und Sprachidentifikation erkennt, transkribiert und übersetzt die Sprache in Mediendateien in über 50 Sprachen. |