Condividi tramite


Soluzioni video di Analisi del contenuto di Intelligenza artificiale di Azure (anteprima)

Importante

  • Azure AI Content Understanding è disponibile in anteprima. Le versioni di anteprima pubblica consentono l'accesso anticipato alle funzionalità in fase di sviluppo attivo.
  • Le funzionalità, gli approcci e i processi possono modificare o avere funzionalità limitate prima della disponibilità generale.
  • Per altre informazioni, vedereCondizioni per l'utilizzo supplementari per le anteprime di Microsoft Azure.

Azure AI Content Understanding consente di generare un set standard di metadati video e di creare campi personalizzati per il caso d'uso specifico usando la potenza dei modelli generativi. Content Understanding consente di gestire, classificare, recuperare e creare flussi di lavoro in modo efficiente per gli asset video. Migliora la libreria di asset multimediali, supporta flussi di lavoro come la generazione di evidenziazioni, classifica il contenuto e facilita le applicazioni come la generazione di risorse aumentata (RAG, Retrieval-Augmented Generation).

Illustrazione del flusso di elaborazione video di Content Understanding.

L'analizzatore video predefinito restituisce markdown pronto per RAG che include:

  • Trascrizione: Trascrizioni inline in formato WEBVTT standard
  • Descrizione: Descrizioni dei segmenti in linguaggio naturale con contesto visivo e vocale
  • Segmentazione: Segmentazione automatica della scena che suddivide il video in blocchi logici
  • Fotogrammi chiave: Anteprime con fotogrammi chiave ordinati che consentono un'analisi più approfondita

Questo formato può essere inserito direttamente in un archivio vettoriale per abilitare un agente o flussi di lavoro RAG, senza richiedere post-elaborazione.

Da qui è possibile personalizzare l'analizzatore per un controllo più granulare dell'output. È possibile definire campi personalizzati, segmenti o abilitare l'identificazione del viso. La personalizzazione consente di usare tutta la potenza dei modelli generativi per estrarre informazioni dettagliate dai dettagli visivi e audio del video.

Ad esempio, la personalizzazione consente di:

  • Definire campi personalizzati: per identificare i prodotti e i marchi visualizzati o menzionati nel video.
  • Generare segmenti personalizzati: per segmentare una trasmissione di notizie in capitoli in base agli argomenti o alle notizie discusse.
  • Identificare le persone usando una directory di persone che consente a un cliente di etichettare, ad esempio, i relatori delle conferenze nei filmati utilizzando il riconoscimento facciale, CEO John Doe, CFO Jane Smith.

Perché usare Content Understanding per i video?

La comprensione dei contenuti per i video ha un ampio potenziale utilizzo. Ad esempio, è possibile personalizzare i metadati per contrassegnare scene specifiche in un video di training, rendendo più semplice per i dipendenti individuare e rivedere sezioni importanti. È anche possibile usare la personalizzazione dei metadati per identificare il posizionamento dei prodotti nei video promozionali, che aiuta i team di marketing ad analizzare l'esposizione del marchio. Altri casi di utilizzo sono:

  • Trasmettere contenuti multimediali e intrattenimento: Gestire grandi librerie di spettacoli, film e clip generando metadati dettagliati per ogni asset.
  • Istruzione ed e-Learning: Indicizzare e recuperare momenti specifici in video didattici o conferenze.
  • Formazione aziendale: Organizzare i video di training in base a argomenti, scene o momenti importanti.
  • Marketing e pubblicità: Analizzare i video promozionali per estrarre posizionamento dei prodotti, aspetto del marchio e messaggi chiave.

Esempio di analizzatore video predefinito

Con l'analizzatore video predefinito (precompilt-videoAnalyzer), è possibile caricare un video e ottenere un asset di conoscenza immediatamente utilizzabile. Il servizio inserisce ogni clip in Markdown riccamente formattato e JSON. Questo processo consente all'indice di ricerca o all'agente di chat di inserire senza codice glue personalizzato.

  • Ad esempio, la creazione della base prebuilt-videoAnalyzer come indicato di seguito:

    {
      "config": {},
      "BaseAnalyzerId": "prebuilt-videoAnalyzer",
    }
    
  • Successivamente, l'analisi di un video pubblicitario di 30 secondi genera l'output seguente:

       # Video: 00:00.000 => 00:30.000
       Width: 1280
       Height: 720
    
       ## Segment 1: 00:00.000 => 00:06.000
       A lively room filled with people is shown, where a group of friends is gathered around a television. They are watching a sports event, possibly a football match, as indicated by the decorations and the atmosphere.
    
       Transcript
    
       WEBVTT
    
       00:03.600 --> 00:06.000
       <Speaker 1>Get new years ready.
    
       Key Frames
       - 00:00.600 ![](keyFrame.600.jpg)
       - 00:01.200 ![](keyFrame.1200.jpg)
    
       ## Segment 2: 00:06.000 => 00:10.080
       The scene transitions to a more vibrant and energetic setting, where the group of friends is now celebrating. The room is decorated with football-themed items, and everyone is cheering and enjoying the moment.
    
       Transcript
    
       WEBVTT
    
       00:03.600 --> 00:06.000
       <Speaker 1>Go team!
    
       Key Frames
       - 00:06.200 ![](keyFrame.6200.jpg)
       - 00:07.080 ![](keyFrame.7080.jpg)
    
          *…additional data omitted for brevity…*
    

Guida passo passo

Di recente è stata pubblicata una procedura dettagliata per RAG on Video usando Content Understanding. https://www.youtube.com/watch?v=fafneWnT2kw& lc=Ugy2XXFsSlm7PgIsWQt4AaABAg

Capacità

  1. Estrazione contenuto
  2. Estrazione di campi
  3. Identificazione del viso

Sotto le quinte, due fasi trasformano i pixel non elaborati in informazioni dettagliate pronte per l'azienda. Il diagramma seguente mostra come l'estrazione alimenta la generazione, assicurando che ogni passaggio a valle abbia il contesto necessario.

Screenshot del flusso dell'analizzatore video.

Il servizio opera in due fasi. La prima fase, l'estrazione del contenuto, prevede l'acquisizione di metadati fondamentali, ad esempio trascrizioni, scatti e visi. La seconda fase, l'estrazione di campi, usa un modello generativo per produrre campi personalizzati ed eseguire la segmentazione. Inoltre, è possibile abilitare facoltativamente un componente aggiuntivo Facciale per identificare gli individui e descriverli nel video.

Funzionalità di estrazione del contenuto

Il primo passaggio riguarda l'estrazione di un primo set di dettagli, ovvero chi parla, dove ci sono i tagli e quali volti ricorrono. Crea un'ossatura di metadati solida su cui i passaggi successivi possono ragionare.

  • Trascrizione: Converte l'audio di conversazione in trascrizioni basate su testo ricercabili e analizzabili in formato WebVTT. I timestamp a livello di frase sono disponibili se "returnDetails": true è impostato. Content Understanding supporta l'intero set di lingue per la conversione da voce a testo di Azure AI Speech. I dettagli del supporto linguistico per il video sono uguali a quello audio, vediGestione del linguaggio audio per informazioni dettagliate. I dettagli di trascrizione seguenti sono importanti da considerare:

    • Diarizzazione: Distingue tra gli interlocutori in una conversazione, attribuendo parti della trascrizione a ciascun interlocutore specifico.

    • Trascrizione multilingue: Genera trascrizioni multilingue. La lingua/le impostazioni locali vengono applicate a ogni frase nella trascrizione. Frasi in uscita quando "returnDetails": true è impostato. La deviazione dal rilevamento della lingua questa funzionalità è abilitata quando non viene specificata alcuna lingua o la lingua è impostata su auto.

      Annotazioni

      Quando viene usata la trascrizione multilingue, tutti i file con impostazioni locali non supportate producono un risultato in base alle impostazioni locali supportate più vicine, che probabilmente non è corretto. Questo risultato è un comportamento noto. Evitare problemi di qualità della trascrizione assicurandosi di configurare le impostazioni locali quando non si usano impostazioni locali supportate per la trascrizione multilingue.

    • Estrazione fotogrammi chiave: Estrae fotogrammi chiave dai video per rappresentare completamente ogni scatto, assicurando che ogni scatto abbia fotogrammi chiave sufficienti per consentire l'estrazione dei campi in modo efficace.

    • Rilevamento delle riprese: Identifica i segmenti del video allineati ai confini delle riprese, ove possibile, consentendo modifiche precise e riassemblaggio del contenuto con interruzioni che coincidono esattamente con le modifiche esistenti. L'output è un elenco di timestamp in millisecondi in cameraShotTimesMs. L'output viene restituito solo quando "returnDetails": true è impostato.

Estrazione e segmentazione dei campi

Successivamente, il modello generativo stratifica il significato—assegnando tag alle scene, riassumendo le azioni e suddividendo i filmati in segmenti in base alla tua richiesta. Questa azione consente di trasformare i prompt in dati strutturati.

Campi personalizzati

Modellare l'output in modo che corrisponda al vocabolario aziendale. Utilizzare un fieldSchema oggetto in cui ogni voce definisce il nome, il tipo e la descrizione di un campo. In fase di esecuzione, il modello generativo riempie tali campi per ogni segmento.

Esempi:

  • Gestione degli asset multimediali:

    • Categoria video: Aiuta gli editori e i produttori a organizzare i contenuti, classificandoli come Notizie, Sport, Intervista, Documentario, Pubblicità e così via. Utile per l'assegnazione di tag ai metadati e il filtro e il recupero dei contenuti più rapidi.
    • Combinazione colori: Trasmette umore e atmosfera, essenziale per coerenza narrativa e coinvolgimento degli spettatori. L'identificazione dei temi dei colori consente di trovare clip corrispondenti per la modifica video accelerata.
  • Pubblicità:

    • Marchio: Identifica la presenza del marchio, fondamentale per analizzare l'impatto degli annunci, la visibilità del marchio e l'associazione ai prodotti. Questa funzionalità consente agli inserzionisti di valutare la prominenza del marchio e garantire la conformità alle linee guida sulla personalizzazione.
    • Categorie di annunci: Classifica i tipi di annunci in base al settore, al tipo di prodotto o al segmento di destinatari, che supporta strategie pubblicitarie mirate, categorizzazione e analisi delle prestazioni.

Esempio:

"fieldSchema": {
  "description": "Extract brand presence and sentiment per scene",
  "fields": {
    "brandLogo": {
      "type": "string",
      "method": "generate",
      "description": "Brand being promoted in the video. Include the product name if available."
    },
    "Sentiment": {
      "type": "string",
      "method": "classify",
      "description": "Ad categories",
      "enum": [
        "Consumer Packaged Goods",
        "Groceries",
        "Technology"
      ]
    }
  }
}

Modalità di segmentazione

Annotazioni

L'impostazione dei trigger di segmentazione attiva l'estrazione dei campi anche se non sono definiti campi.

Content Understanding offre tre modi per sezionare un video, consentendo di ottenere l'output necessario per interi video o brevi clip. È possibile usare queste opzioni impostando la SegmentationMode proprietà su un analizzatore personalizzato.

  • Intero-video : segmentationMode : noSegmentation il servizio considera l'intero file video come un singolo segmento ed estrae i metadati per tutta la durata.

    Esempio:

    • Controlli di conformità che cercano problemi specifici di sicurezza della marca ovunque in un annuncio
    • riepiloghi descrittivi a lunghezza intera
  • Segmentazione automatica : segmentationMode = auto il servizio analizza la sequenza temporale e lo suddivide automaticamente. Raggruppa le riprese successive in scene coerenti, con un massimo di un minuto ciascuno.

    Esempio:

    • Creare storyboard da uno spettacolo
    • Inserire annunci mid-roll durante pause logiche.
  • Segmentazione personalizzata : segmentationMode : custom viene descritta la logica nel linguaggio naturale e il modello crea segmenti da trovare in base alle corrispondenze. Impostare segmentationDefinition con una stringa che descrive come si vuole segmentare il video. Personalizzato consente segmenti di lunghezza variabile da secondi a minuti a seconda della richiesta.

    Esempio:

    • Suddividere una notizia in storie.
    {
      "segmentationMode": "custom",
      "segmentationDefinition": "news broadcasts divided by individual stories"
    }
    

Componente aggiuntivo per l'identificazione e la descrizione del viso

Annotazioni

Questa funzionalità è accesso limitato e comporta l'identificazione e il raggruppamento dei visi; i clienti devono registrarsi per l'accesso a Face Recognition. Le funzionalità viso comportano costi aggiuntivi.

La descrizione dell'identificazione del viso è un componente aggiuntivo che fornisce il contesto per l'estrazione del contenuto e l'estrazione dei campi usando le informazioni sul viso.

Estrazione di contenuto - Raggruppamento e identificazione

Il face add-on consente il raggruppamento e l'identificazione come output dalla sezione di estrazione del contenuto. Per abilitare le funzionalità di riconoscimento facciale configurate "enableFace":true nella configurazione dell'analizzatore.

  • Raggruppamento: I visi raggruppati vengono visualizzati in un video per estrarre un'immagine del viso rappresentativa per ogni persona e fornisce segmenti in cui ognuno è presente. I dati del viso raggruppati sono disponibili come metadati e possono essere usati per generare campi di metadati personalizzati quando returnDetails: true per l'analizzatore.
  • Identificazione: Etichetta gli individui nel video con nomi basati su una directory persone di Face API. I clienti possono abilitare questa funzionalità specificando un nome per una directory della Face API nella risorsa corrente nella proprietà personDirectoryId dell'analizzatore. Per usare questa funzionalità, è prima necessario creare una personDirectory e quindi farvi riferimento nell'analizzatore. Per informazioni dettagliate su come eseguire questa operazione, vedere How to build a person directory (Come creare una directory di persone)

Estrazione campi - Descrizione viso

La capacità di estrazione dei campi è migliorata grazie alla fornitura di descrizioni dettagliate dei volti identificati nel video. Questa funzionalità include attributi come i capelli facciali, le emozioni e la presenza di celebrità, che possono essere cruciali per vari scopi analitici e indicizzazione. Per abilitare le funzionalità di descrizione del viso imposta disableFaceBlurring : true nella configurazione dell'analizzatore.

Esempi:

  • Campo di esempio: emotionDescription: Fornisce una descrizione dello stato emotivo della persona primaria in questa clip (ad esempio, happy, sad, angry)
  • Campo di esempio: facialHairDescription: Descrive il tipo di capelli facciali (ad esempio, beard, mustache, clean-shaven)

Vantaggi chiave

Content Understanding offre diversi vantaggi chiave rispetto ad altre soluzioni di analisi video:

  • Analisi multi frame basata su segmento: Identificare azioni, eventi, argomenti e temi analizzando più fotogrammi da ogni segmento di video, anziché singoli fotogrammi.
  • Personalizzazione: Personalizzare i campi e la segmentazione generati modificando lo schema in base al caso d'uso specifico.
  • Modelli generativi: Descrivere in linguaggio naturale il contenuto da estrarre e Content Understanding usa modelli generativi per estrarre tali metadati.
  • Pre-elaborazione ottimizzata: Eseguire diversi passaggi di pre-elaborazione dell'estrazione del contenuto, ad esempio la trascrizione e il rilevamento della scena, ottimizzati per fornire un contesto avanzato ai modelli generativi di intelligenza artificiale.

Vincoli tecnici e limitazioni

Limitazioni specifiche dell'elaborazione video da tenere presenti:

  • Campionamento dei fotogrammi (~ 1 FPS): l'analizzatore ispeziona all'incirca un fotogramma al secondo. È possibile che i movimenti rapidi o gli eventi a fotogramma singolo vengano persi.
  • Risoluzione dei fotogrammi (512 × 512 px): i fotogrammi selezionati vengono ridimensionati a un quadrato di 512 pixel. È possibile perdere testo piccolo o oggetti distanti.
  • Parlato: vengono trascritte solo le parole pronunciate. Musica, effetti audio e rumore ambientale vengono ignorati.

Requisiti di input

Per i formati supportati, vedere Quote e limiti del servizio.

Lingue e aree supportate

Vedere Supporto per la lingua e l'area geografica.

Privacy e sicurezza dei dati

Come per tutti i servizi di intelligenza artificiale di Azure, vedere la documentazione relativa a dati, protezione e privacy di Microsoft.

Importante

Se si elaborano dati biometrici (ad esempio, abilitare il raggruppamento dei visi o l'identificazione del viso), è necessario soddisfare tutti i requisiti di avviso, consenso ed eliminazione in base al GDPR o ad altre leggi applicabili. Vedi Dati e Privacy per il Volto.

Passaggi successivi