Freigeben über


Videolösungen von Azure KI Content Understanding (Vorschau)

Wichtig

  • Azure KI Content Understanding ist als Vorschau verfügbar. Öffentliche Vorschauversionen bieten frühzeitigen Zugriff auf Features, die sich in der aktiven Entwicklung befinden.
  • Features, Ansätze und Prozesse können sich ändern oder eingeschränkte Funktionen vor der allgemeinen Verfügbarkeit (GENERAL Availability, GA) aufweisen.
  • Weitere Informationen finden Sie in denzusätzlichen Nutzungsbedingungen für Microsoft Azure-Vorschauversionen.

Mit Azure AI Content Understanding können Sie einen Standardsatz von Videometadaten generieren und benutzerdefinierte Felder für Ihren spezifischen Anwendungsfall mithilfe der Leistungsfähigkeit von generativen Modellen erstellen. Content Understanding hilft dabei, Workflows für Videoressourcen effizient zu verwalten, zu kategorisieren, abzurufen und zu erstellen. Der Dienst verbessert Ihre Medienobjektbibliothek, unterstützt Workflows wie z. B. die Generierung von Hervorhebungen, kategorisiert Inhalte und vereinfacht Anwendungen wie Retrieval Augmented Generation (RAG).

Abbildung des Inhaltsverständnis-Videoverarbeitungsflusses.

Die vordefinierte Videoanalyse gibt RAG-ready Markdown aus, die Folgendes umfasst:

  • Abschrift: Inlinetranskriptionen im WebVTT-Standardformat
  • Beschreibung: Beschreibungen von Segmenten in natürlicher Sprache mit visuellem und Sprachkontext
  • Segmentierung: Automatische Szenensegmentierung, die das Video in logische Blöcke aufbricht
  • Keyframes: Sortierte Keyframeminiaturansichten ermöglichen eine tiefere Analyse

Dieses Format kann direkt in einen Vektorspeicher eingefügt werden, um einen Agent oder RAG-Workflows zu aktivieren – keine Nachbearbeitung erforderlich.

Von dort aus können Sie den Analyzer für eine präzisere Steuerung der Ausgabe anpassen. Sie können benutzerdefinierte Felder, Segmente oder die Gesichtsidentifikation definieren. Mithilfe der Anpassung können Sie die volle Leistungsfähigkeit von generativen Modellen nutzen, um tiefe Einblicke aus den visuellen und Audiodetails des Videos zu extrahieren.

Durch Anpassung können Sie beispielsweise Folgendes tun:

  • Definieren Sie benutzerdefinierte Felder: Um zu identifizieren, welche Produkte und Marken im Video angezeigt oder erwähnt werden.
  • Generieren Sie benutzerdefinierte Segmente: um eine Nachrichtenübertragung basierend auf den Themen oder Nachrichtenmeldungen zu segmentieren.
  • Identifizieren Sie Personen mithilfe eines Personenverzeichnisses, das es einem Kunden ermöglicht, Redner auf Konferenzen in Aufnahmen per Gesichtserkennung zu kennzeichnen, z. B. CEO John DoeCFO Jane Smith.

Gründe für die Verwendung von Inhaltsverständnis für Video?

Content Understanding bietet sehr viel Potenzial für Videoinhalte. Sie können z. B. Metadaten so anpassen, dass bestimmte Szenen in einem Schulungsvideo gekennzeichnet werden, sodass Mitarbeitende wichtige Abschnitte einfacher finden und überarbeiten können. Sie können auch Metadatenanpassungen verwenden, um Produktplatzierung in Werbevideos zu identifizieren, damit Marketingteams die Präsentation von Marken analysieren können. Weitere Anwendungsfälle sind:

  • Übertragen von Medien und Unterhaltung: Verwalten Sie große Bibliotheken von Shows, Filmen und Clips, indem Sie detaillierte Metadaten für jedes Objekt generieren.
  • Bildung und E-Learning: Indizierung und Abrufen bestimmter Momente in Lehrvideos oder Vorträgen.
  • Unternehmensschulung: Organisieren Sie Schulungsvideos nach wichtigen Themen, Szenen oder wichtigen Momenten.
  • Marketing und Werbung: Analysieren Sie Werbevideos, um Produktplatzierungen, Markenauftritte und wichtige Nachrichten zu extrahieren.

Beispiel für eine vorgefertigte Videoanalyse

Mit dem vorgefertigten Videoanalysator (prebuilt-videoAnalyzer) können Sie ein Video hochladen und eine sofort verwendbare Wissensressource erhalten. Der Dienst verpackt jeden Clip in reich formatierten Markdown- und JSON-Dateien. Mit diesem Prozess kann Ihr Suchindex oder Chat-Agent ohne benutzerdefinierten Klebecode aufgenommen werden.

  • Erstellen Sie z. B. die Basis prebuilt-videoAnalyzer wie folgt:

    {
      "config": {},
      "BaseAnalyzerId": "prebuilt-videoAnalyzer",
    }
    
  • Als Nächstes würde die Analyse eines 30-Sekunden-Werbevideos zur folgenden Ausgabe führen:

       # Video: 00:00.000 => 00:30.000
       Width: 1280
       Height: 720
    
       ## Segment 1: 00:00.000 => 00:06.000
       A lively room filled with people is shown, where a group of friends is gathered around a television. They are watching a sports event, possibly a football match, as indicated by the decorations and the atmosphere.
    
       Transcript
    
       WEBVTT
    
       00:03.600 --> 00:06.000
       <Speaker 1>Get new years ready.
    
       Key Frames
       - 00:00.600 ![](keyFrame.600.jpg)
       - 00:01.200 ![](keyFrame.1200.jpg)
    
       ## Segment 2: 00:06.000 => 00:10.080
       The scene transitions to a more vibrant and energetic setting, where the group of friends is now celebrating. The room is decorated with football-themed items, and everyone is cheering and enjoying the moment.
    
       Transcript
    
       WEBVTT
    
       00:03.600 --> 00:06.000
       <Speaker 1>Go team!
    
       Key Frames
       - 00:06.200 ![](keyFrame.6200.jpg)
       - 00:07.080 ![](keyFrame.7080.jpg)
    
          *…additional data omitted for brevity…*
    

Exemplarische Vorgehensweise

Wir haben kürzlich einen Leitfaden für RAG on Video unter Verwendung von Inhaltsverständnis veröffentlicht. https://www.youtube.com/watch?v=fafneWnT2kw&lc=Ugy2XXFsSlm7PgIsWQt4AaABAg

Fähigkeiten

  1. Inhaltsextraktion
  2. Feldextraktion
  3. Gesichtsidentifikation

Unter der Haube verwandeln zwei Stufen Rohpixel in geschäftsbereite Einblicke. Das Diagramm unten zeigt, wie die Extraktion zur Generierung beiträgt, damit jeder nachgeschaltete Schritt den benötigten Kontext hat.

Screenshot des Video Analyzer-Flows

Der Dienst wird in zwei Phasen betrieben. Die erste Stufe, Inhaltsextraktion, umfasst das Erfassen grundlegender Metadaten wie Transkriptionen, Aufnahmen und Gesichter. Die zweite Stufe, Feldextraktion, verwendet ein generatives Modell, um benutzerdefinierte Felder zu erzeugen und Segmentierung durchzuführen. Darüber hinaus können Sie optional ein Face-Add-On aktivieren, um Personen zu identifizieren und im Video zu beschreiben.

Inhaltsextraktionsfunktionen

Beim ersten Durchgang geht es darum, die ersten Details zu extrahieren – wer spricht, wo die Schnitte sind und welche Gesichter wieder auftreten. Es schafft ein solides Metadaten-Rückgrat, über das spätere Schritte nachdenken können.

  • Transkription: Konvertiert Unterhaltungsaudio in durchsuchbare und analyzierbare textbasierte Transkripte im WebVTT-Format. Zeitstempel auf Satzebene sind verfügbar, wenn "returnDetails": true festgelegt ist. Inhaltsverständnis unterstützt den vollständigen Satz von Azure KI Speech-Sprach-zu-Text-Sprachen. Details zur Sprachunterstützung für Video sind identisch mit Audio, ausführliche Informationen finden Sie unterAudiosprachenbehandlung . Die folgenden Transkriptionsdetails sind wichtig zu berücksichtigen:

    • Diarisierung: Unterscheidet zwischen Sprechern in einer Unterhaltung in der Ausgabe, wobei Teile des Transkripts bestimmten Sprechern zugewiesen werden.

    • Mehrsprachige Transkription: Generiert mehrsprachige Transkriptionen. Sprache/Gebietsschema wird pro Ausdruck im Transkript angewendet. Ausdrucksausgabe, wenn "returnDetails": true festgelegt wird. Das Feature wird von der Spracherkennung abweichend aktiviert, wenn keine Sprache bzw. kein Gebietsschema angegeben ist oder auf " autoSprache" festgelegt ist.

      Hinweis

      Wenn mehrsprachige Transkription verwendet wird, erzeugen alle Dateien mit nicht unterstützten Gebietsschemas ein Ergebnis basierend auf dem nächstgelegenen unterstützten Gebietsschema, das wahrscheinlich falsch ist. Dieses Ergebnis ist ein bekanntes Verhalten. Vermeiden Sie Probleme mit der Transkription, indem Sie sicherstellen, dass Sie Gebietsschemas konfigurieren, wenn Sie kein mehrsprachiges Transkription unterstütztes Gebietsschema verwenden!

    • Keyframeextraktion: Extrahiert Keyframes aus Videos, um jeden Shot vollständig darzustellen, um sicherzustellen, dass jeder Screenshot über genügend Keyframes verfügt, um die Feldextraktion effektiv zu ermöglichen.

    • Szenenwechselerkennung: identifiziert Segmente des Videos, die nach Möglichkeit an Aufnahmegrenzen ausgerichtet sind, um eine präzise Bearbeitung und Umsortierung von Inhalten mit genauen Szenenwechseln zu ermöglichen. Die Ausgabe ist eine Liste der Zeitstempel in Millisekunden in cameraShotTimesMs. Die Ausgabe wird nur zurückgegeben, wenn "returnDetails": true festgelegt ist.

Feldextraktion und Segmentierung

Als Nächstes legen die generativen Modell-Ebenen die Bedeutung fest: Szenen markieren, Aktionen zusammenfassen und Filmmaterial in Segmente gemäß Ihrer Vorgabe aufteilen. Bei dieser Aktion werden Aufforderungen in strukturierte Daten umgewandelt.

Benutzerdefinierte Felder

Gestalten Sie die Ausgabe so, dass sie Ihrem Geschäftsvokabular entspricht. Verwenden Sie ein fieldSchema Objekt, in dem jeder Eintrag den Namen, den Typ und die Beschreibung eines Felds definiert. Zur Laufzeit füllt das generative Modell diese Felder für jedes Segment aus.

Beispiele:

  • Medienobjektverwaltung:

    • Videokategorie: Hilft Editoren und Produzenten dabei, Inhalte zu organisieren, indem sie als Nachrichten, Sport, Interview, Dokumentarfilm, Werbung usw. klassifiziert werden. Nützlich für Metadatenmarkierung und schnellere Inhaltsfilterung und -abruf.
    • Farbschema: Vermittelt Stimmung und Atmosphäre, die für die Narrative Konsistenz und das Engagement des Betrachters unerlässlich ist. Das Identifizieren von Farbschemas hilft bei der Suche nach übereinstimmenden Clips und beschleunigt so die Videobearbeitung.
  • Werbung:

    • Marke: Identifiziert Die Markenpräsenz, die für die Analyse von Anzeigenwirkungen, die Markensichtbarkeit und die Zuordnung zu Produkten von entscheidender Bedeutung ist. Mit dieser Funktion können Werbekunden die Markenpräsentation bewerten und die Einhaltung von Brandingrichtlinien sicherstellen.
    • Anzeigenkategorien: Kategorisiert Anzeigentypen nach Branche, Produkttyp oder Zielgruppensegment, die gezielte Werbestrategien, Kategorisierung und Leistungsanalyse unterstützt.

Beispiel:

"fieldSchema": {
  "description": "Extract brand presence and sentiment per scene",
  "fields": {
    "brandLogo": {
      "type": "string",
      "method": "generate",
      "description": "Brand being promoted in the video. Include the product name if available."
    },
    "Sentiment": {
      "type": "string",
      "method": "classify",
      "description": "Ad categories",
      "enum": [
        "Consumer Packaged Goods",
        "Groceries",
        "Technology"
      ]
    }
  }
}

Segmentierungsmodus

Hinweis

Das Festlegen der Segmentierung löst die Feldextraktion aus, auch wenn keine Felder definiert sind.

Das Inhaltsverständnis bietet drei Möglichkeiten zum Segmentieren eines Videos, sodass Sie die ausgabe abrufen können, die Sie für ganze Videos oder kurze Clips benötigen. Sie können diese Optionen verwenden, indem Sie die SegmentationMode Eigenschaft für einen benutzerdefinierten Analyzer festlegen.

  • Gesamtes VideosegmentationMode : noSegmentation Der Dienst behandelt die gesamte Videodatei als einzelnes Segment und extrahiert Metadaten während der gesamten Dauer.

    Beispiel:

    • Complianceüberprüfungen, die überall in einer Anzeige nach bestimmten Problemen mit der Markensicherheit suchen
    • Ausführliche beschreibende Zusammenfassungen
  • Automatische SegmentierungsegmentationMode = auto Der Dienst analysiert die Zeitachse und bricht sie für Sie auf. Gruppiert aufeinander folgende Aufnahmen in kohärente Szenen, die jeweils bis zu einer Minute begrenzt sind.

    Beispiel:

    • Erstellen von Storyboards aus einer Präsentation
    • Einfügen von Midroll-Anzeigen an logischen Pausen.
  • Benutzerdefinierte SegmentierungsegmentationMode : custom Sie beschreiben die Logik in natürlicher Sprache, und das Modell erstellt Segmente, die übereinstimmen sollen. Legen Sie segmentationDefinition eine Zeichenfolge fest, die beschreibt, wie das Video segmentiert werden soll. Benutzerdefiniert ermöglicht Segmente unterschiedlicher Länge von Sekunden bis Minuten, je nach Aufforderung.

    Beispiel:

    • Unterteilen Sie eine Nachrichtenübertragung in Geschichten.
    {
      "segmentationMode": "custom",
      "segmentationDefinition": "news broadcasts divided by individual stories"
    }
    

Gesichtsidentifikation und Beschreibungs-Add-On

Hinweis

Der Zugriff auf dieses Feature ist eingeschränkt und umfasst die Gesichtserkennung und -gruppierung. Kunden müssen sich unter Gesichtserkennung für den Zugriff registrieren. Gesichtsfunktionen verursachen zusätzliche Kosten.

Die Gesichtsidentifikationsbeschreibung ist ein Add-On, das Kontext zur Inhaltsextraktion und Feldextraktion mithilfe von Gesichtsinformationen bereitstellt.

Inhaltsextraktion – Gruppieren und Identifizieren

Das Face-Add-On ermöglicht das Gruppieren und Identifizieren als Ausgabe aus dem Abschnitt zur Inhaltsextraktion. So aktivieren Sie die in der Analysekonfiguration festgelegten "enableFace":true Gesichtsfunktionen.

  • Gruppierung: Gruppierte Gesichter, die in einem Video angezeigt werden, um ein repräsentatives Gesichtsbild für jede Person zu extrahieren und Segmente zur Verfügung zu stellen, in denen jeder vorhanden ist. Die gruppierten Gesichtsdaten sind als Metadaten verfügbar und können verwendet werden, um benutzerdefinierte Metadatenfelder zu generieren, wenn returnDetails: true für den Analysator.
  • Identifizierung: Im Video werden Personen mit Namen versehen, die auf einem Face-API-Personenverzeichnis basieren. Kunden können dieses Feature aktivieren, indem sie einen Namen für ein Face-API-Verzeichnis in der aktuellen Ressource in der personDirectoryId Eigenschaft des Analyzers angeben. Um diese Funktion zu verwenden, müssen Sie zuerst ein personDirectory erstellen und dann in der Analyse darauf verweisen. Ausführliche Informationen dazu finden Sie unter "Erstellen eines Personenverzeichnisses".

Feldextraktion – Gesichtsbeschreibung

Die Feldextraktionsfunktion wird verbessert, indem detaillierte Beschreibungen identifizierter Gesichter im Video bereitgestellt werden. Diese Funktion umfasst Attribute wie Gesichtshaare, Emotionen und das Vorhandensein von Prominenten, die für verschiedene analytische und indizierende Zwecke von entscheidender Bedeutung sein können. Um die Fähigkeiten zur Gesichtsbeschreibung zu aktivieren, müssen Sie disableFaceBlurring : true in der Analysekonfiguration einstellen.

Beispiele:

  • Beispielfeld: emotionDescription: Enthält eine Beschreibung des emotionalen Zustands der primären Person in diesem Clip (z. Bhappy. , , sadangry)
  • Beispielfeld: facialHairDescription: Beschreibt die Art der Gesichtshaare (z. B beard. , mustache, clean-shaven)

Hauptvorteile

Content Understanding bietet im Vergleich zu anderen Videoanalyselösungen mehrere wichtige Vorteile:

  • Segmentbasierte Multiframeanalyse: Identifizieren Sie Aktionen, Ereignisse, Themen und Designs, indem Sie mehrere Frames aus jedem Videosegment statt einzelner Frames analysieren.
  • Anpassung: Passen Sie die von Ihnen generierten Felder und Segmentierung an, indem Sie das Schema gemäß Ihrem spezifischen Anwendungsfall ändern.
  • Generative Modelle: Beschreiben Sie in natürlicher Sprache, welchen Inhalt Sie extrahieren möchten, und inhaltsverständnis verwendet generative Modelle, um diese Metadaten zu extrahieren.
  • Optimierte Vorverarbeitung: Führen Sie mehrere Schritte zur Präverarbeitung der Inhaltsextraktion aus, z. B. Transkription und Szenenerkennung, die optimiert sind, um einen umfassenden Kontext für AI-generative Modelle bereitzustellen.

Technische Zwänge und Einschränkungen

Spezifische Einschränkungen der Videoverarbeitung, die Sie berücksichtigen sollten:

  • Frame sampling (~ 1 FPS): Der Analyzer prüft etwa einen Frame pro Sekunde. Schnelle Bewegungen oder Einzelframeereignisse werden möglicherweise verpasst.
  • Frameauflösung (512 × 512 px):Beispielframes werden auf 512 Pixel quadratisch geändert. Kleine Oder entfernte Objekte können verlorengehen.
  • Sprache: Nur gesprochene Wörter werden transkribiert. Musik, Soundeffekte und Umgebungsgeräusche werden ignoriert.

Eingabeanforderungen

Unterstützte Formate finden Sie unter Dienstkontingente und Grenzwerte.

Unterstützte Sprachen und Regionen

Siehe Sprach- und Regionsunterstützung.

Datenschutz und Sicherheit

Wie bei allen Azure AI-Diensten lesen Sie die Dokumentation zu Daten, Schutz und Datenschutz von Microsoft.

Wichtig

Wenn Sie biometrische Daten verarbeiten (z. B. Face Grouping oder Face Identification aktivieren), müssen Sie alle Benachrichtigungs-, Zustimmungs- und Löschungsanforderungen gemäß DSGVO oder anderen anwendbaren Gesetzen erfüllen. Siehe Daten und Datenschutz für Gesicht.

Nächste Schritte