Condividi tramite


Informazioni dettagliate su Video Indexer per intelligenza artificiale di Azure

Quando un video viene indicizzato, Azure AI Video Indexer analizza il contenuto video e audio eseguendo modelli di intelligenza artificiale con 30+ modelli di intelligenza artificiale, generando JSON contenente le informazioni dettagliate video, tra cui trascrizioni, elementi di riconoscimento ottico dei caratteri (OCR), viso, argomenti, emozioni e così via. Ogni tipo di informazioni dettagliate include istanze di intervalli di tempo che mostrano quando le informazioni dettagliate vengono visualizzate nel video.

Usare i collegamenti nella tabella insights per informazioni su come ottenere ogni risposta JSON di informazioni dettagliate nel portale Web e usare l'API.

Insights

Informazioni dettagliate Descrizione
Rilevamento volti Il rilevamento viso rileva i visi in un file multimediale e quindi aggrega istanze di visi simili in gruppi. Le informazioni dettagliate sul rilevamento dei volti vengono generate come elenco categorizzato in un file JSON che include un'anteprima e un nome o un ID per ogni viso. Nel portale Web, selezionando l'anteprima di un viso vengono visualizzate informazioni come il nome della persona (se riconosciuti), la percentuale del video visualizzato dalla persona e la biografia della persona, se si tratta di una celebrità. È anche possibile scorrere tra le istanze del video in cui viene visualizzata la persona.
Identificazione delle etichette L'identificazione delle etichette è una funzionalità di intelligenza artificiale di Video Indexer di Azure che identifica oggetti visivi come occhiali da sole o azioni come il nuoto, visualizzati nel filmato video di un file multimediale. Esistono molte categorie di identificazione delle etichette e, una volta estratte, le istanze di identificazione delle etichette vengono visualizzate nella scheda Insights e possono essere tradotte in più di 50 lingue. Facendo clic su un'etichetta si apre l'istanza nel file multimediale, selezionare Riproduci precedente o Riproduci accanto per visualizzare altre istanze.
Rilevamento oggetti Azure AI Video Indexer rileva oggetti in video come automobili, borse e zaini e portatili.
Rilevamento delle persone osservate Il rilevamento e le corrispondenze dei visi rilevati rilevano e corrispondono automaticamente alle persone nei file multimediali. Le persone osservate rilevano e confrontano i visi possono essere impostati per visualizzare informazioni dettagliate sulle persone, sui loro vestiti e sull'intervallo di tempo esatto del loro aspetto.
OCR OCR estrae testo da immagini come immagini, segni stradali e prodotti nei file multimediali per creare informazioni dettagliate.
Post-produzione: rilevamento della scheda clapper Il rilevamento della scheda Clapper rileva le schede clapper usate durante la ripresa che fornisce anche le informazioni rilevate sulla scheda clapper come metadati, ad esempio produzione, roll, scena, take e così via. Clapper board fa parte delle informazioni dettagliate post-produzione che è possibile selezionare nelle impostazioni avanzate del portale Web quando si carica e indicizza il file.
Post-produzione: modelli digitali Il rilevamento dei modelli digitali rileva le barre dei colori usate durante la ripresa. I modelli digitali fanno parte delle informazioni dettagliate post-produzione che è possibile selezionare nelle impostazioni avanzate del portale Web durante il caricamento e l'indicizzazione del file.
Scene, scatti e fotogrammi chiave Il rilevamento della scena rileva quando una scena cambia in un video in base ai segnali visivi. Una scena rappresenta un singolo evento ed è composta da una serie di scatti, che sono correlati. Gli scatti sono una serie di fotogrammi distinti da segnali visivi come transizioni improvvise e graduali nella combinazione di colori di fotogrammi adiacenti. I metadati dello scatto includono l'ora di inizio e di fine, nonché un elenco di fotogrammi chiave inclusi nello scatto. Un fotogramma chiave è un fotogramma di uno scatto che rappresenta meglio uno scatto.

Informazioni dettagliate sui contenuti audio

Informazioni dettagliate Descrizione
Rilevamento degli effetti audio Il rilevamento degli effetti audio rileva gli eventi acustici e li classifica in categorie come risate, reazioni di folla, allarmi e/o sirene.
Estrazione di parole chiave L'estrazione delle parole chiave rileva informazioni dettagliate sulle diverse parole chiave descritte nei file multimediali. Estrae informazioni dettagliate sia in un singolo linguaggio che in file multimediali multi-linguaggio.
Entità denominate L'estrazione di entità denominate usa l'elaborazione del linguaggio naturale (NLP) per estrarre informazioni dettagliate sulle posizioni, sulle persone e sui marchi visualizzati in file audio e immagini nei file multimediali. Le informazioni dettagliate sull'estrazione delle entità denominate usano la trascrizione e il riconoscimento ottico dei caratteri (OCR).
Rilevamento delle emozioni basato su testo Il rilevamento delle emozioni rileva le emozioni nelle righe di trascrizione del video. Ogni frase può essere rilevata come Rabbia, Paura, Gioia, Triste, Nessuno se non è stata rilevata alcuna altra emozione.
Inferenza degli argomenti L'inferenza degli argomenti crea informazioni dettagliate derivate dall'audio trascritto, dal contenuto OCR nel testo visivo e dalle celebrità riconosciute nel video usando il modello di riconoscimento facciale di Video Indexer.
Trascrizione, traduzione e identificazione della lingua La trascrizione, la traduzione e l'identificazione della lingua rileva, trascrive e converte il parlato nei file multimediali in più di 50 lingue.