Scene, scatti e fotogrammi chiave

Importante

A causa dell'annuncio di ritiro Servizi multimediali di Azure, Azure AI Video Indexer annuncia le modifiche alle funzionalità di Azure AI Video Indexer. Vedere Modifiche correlate al ritiro di Servizi multimediali di Azure (AMS) per comprendere cosa significa per l'account Video Indexer di Azure per intelligenza artificiale. Vedere la guida alla preparazione per il ritiro di AMS: aggiornamento VI e migrazione.

Video Indexer di Intelligenza artificiale di Azure supporta la segmentazione di video in unità temporali basate su proprietà strutturali e semantiche. Questa funzionalità consente ai clienti di esplorare, gestire e modificare facilmente il contenuto video in base alle diverse granularità. Ad esempio, in base a scene, scatti e fotogrammi chiave, descritti in questo argomento.

Scene, scatti e fotogrammi chiave

Rilevamento della scena

Video Indexer di Azure per intelligenza artificiale determina quando una scena cambia in base ai segnali visivi. Una scena rappresenta un singolo evento ed è composto da una serie di scatti consecutivi, che sono correlati semanticamente. Un'anteprima della scena è il primo fotogramma chiave dello scatto sottostante. Azure AI Video Indexer segmenta un video in scene in base alla coerenza dei colori tra scatti consecutivi e recupera l'ora iniziale e finale di ogni scena. Il rilevamento della scena è considerato un'attività complessa perché implica la quantificare gli aspetti semantici dei video.

Nota

Applicabile ai video che contengono almeno 3 scene.

Rilevamento inquadratura

Video Indexer di Azure per intelligenza artificiale determina quando un'immagine cambia in base ai segnali visivi, tenendo traccia delle transizioni improvvise e graduali nella combinazione di colori dei fotogrammi adiacenti. I metadati dello scatto includono un'ora di inizio e di fine, nonché l'elenco dei fotogrammi chiave inclusi in tale scatto. Gli scatti sono fotogrammi consecutivi acquisiti contemporaneamente dalla stessa fotocamera.

Rilevamento dei fotogrammi chiave

Video Indexer di Azure per intelligenza artificiale seleziona i fotogrammi che rappresentano meglio ogni ripresa. I fotogrammi chiave sono i fotogrammi rappresentativi selezionati dall'intero video in base alle proprietà estetiche (ad esempio, contrasto e stabilità). Azure AI Video Indexer recupera un elenco di ID fotogrammi chiave come parte dei metadati dello scatto, in base ai quali i clienti possono estrarre il fotogramma chiave come immagine ad alta risoluzione.

Estrazione di fotogrammi chiave

Per estrarre fotogrammi chiave ad alta risoluzione per il video, è prima necessario caricare e indicizzare il video.

Fotogrammi chiave

Con il sito Web di Azure AI Video Indexer

Per estrarre i fotogrammi chiave usando il sito Web di Azure AI Video Indexer, caricare e indicizzare il video. Al termine del processo di indicizzazione, fare clic sul pulsante Scarica e selezionare Artefatti (ZIP). Verrà scaricata la cartella artefatti nel computer ( assicurarsi di visualizzare l'avviso relativo agli artefatti seguenti). Decomprimere e aprire la cartella. Nella cartella _KeyframeThumbnail troverete tutti i fotogrammi chiave estratti dal video.

Screenshot che mostra l'elenco a discesa

Avviso

Non è consigliabile usare i dati direttamente dalla cartella artefatti a scopo di produzione. Gli artefatti sono output intermedi del processo di indicizzazione. Sono essenzialmente output non elaborati dei vari motori di intelligenza artificiale che analizzano i video; lo schema degli artefatti può cambiare nel tempo. È consigliabile usare l'API Get Video Index , come descritto in Ottenere informazioni dettagliate e artefatti prodotti dall'API.

Con l'API Video Indexer di Intelligenza artificiale di Azure

Per ottenere fotogrammi chiave usando l'API Video Indexer, caricare e indicizzare il video usando la chiamata Carica video . Al termine del processo di indicizzazione, chiamare Get Video Index. In questo modo sarà possibile ottenere tutte le informazioni dettagliate estratte da Video Indexer dal contenuto in un file JSON.

Si otterrà un elenco di ID fotogrammi chiave come parte dei metadati di ogni colpo.

"shots":[  
    {  
      "id":0,
      "keyFrames":[  
          {  
            "id":0,
            "instances":[  
                {  
                  "thumbnailId":"00000000-0000-0000-0000-000000000000",
                  "start":"0:00:00.209",
                  "end":"0:00:00.251",
                  "duration":"0:00:00.042"
                }
            ]
          },
          {  
            "id":1,
            "instances":[  
                {  
                  "thumbnailId":"00000000-0000-0000-0000-000000000000",
                  "start":"0:00:04.755",
                  "end":"0:00:04.797",
                  "duration":"0:00:00.042"
                }
            ]
          }
      ],
      "instances":[  
          {  
            "start":"0:00:00",
            "end":"0:00:06.34",
            "duration":"0:00:06.34"
          }
      ]
    },

]

È ora necessario eseguire ognuno di questi ID fotogrammi chiave nella chiamata Ottieni anteprime . In questo modo, ognuna delle immagini del fotogramma chiave verrà scaricata nel computer.

Rilevamento del tipo di tiro editoriale

I fotogrammi chiave sono associati agli scatti nel codice JSON di output.

Il tipo di scatto associato a un singolo scatto nel codice JSON insights rappresenta il tipo editoriale. Queste caratteristiche del tipo di scatto possono risultare utili quando si modificano video in clip, trailer o quando si cerca uno stile specifico del fotogramma chiave a scopo artistico. I diversi tipi vengono determinati in base all'analisi del primo fotogramma chiave di ogni colpo. Gli scatti sono identificati dalla scala, dalle dimensioni e dalla posizione dei visi che appaiono nel primo fotogramma chiave.

Le dimensioni e la scala dello scatto vengono determinate in base alla distanza tra la fotocamera e i visi che appaiono nel fotogramma. Usando queste proprietà, Azure AI Video Indexer rileva i tipi di screenshot seguenti:

  • Wide: mostra il corpo di un'intera persona.
  • Medio: mostra il corpo superiore e il viso di una persona.
  • Primo piano: mostra principalmente il viso di una persona.
  • Primo piano estremo: mostra la faccia di una persona che riempie lo schermo.

I tipi di inquadratura possono anche essere determinati dalla posizione dei caratteri del soggetto rispetto al centro del fotogramma. Questa proprietà definisce i tipi di screenshot seguenti in Azure AI Video Indexer:

  • Viso sinistro: una persona viene visualizzata sul lato sinistro della cornice.
  • Volto centrale: una persona viene visualizzata nell'area centrale della cornice.
  • Viso destro: una persona viene visualizzata sul lato destro della cornice.
  • Outdoor: una persona viene visualizzata in un ambiente esterno.
  • Interni: una persona viene visualizzata in un ambiente interno.

Caratteristiche aggiuntive:

  • Due scatti: mostra i volti di due persone di medie dimensioni.
  • Più volti: più di due persone.