Rilevamento degli oggetti video indexer di Azure per intelligenza artificiale

Articolo
04/10/2024

Video Indexer di Azure per intelligenza artificiale può rilevare gli oggetti nei video. Le informazioni dettagliate fanno parte dei set di impostazioni video standard e avanzati. Il rilevamento degli oggetti è incluso nelle informazioni dettagliate che sono il risultato di una richiesta Carica video .

Nota sulla trasparenza

Prima di usare il rilevamento degli oggetti, esaminare la panoramica delle note sulla trasparenza.

Chiavi e definizioni JSON

Chiave	Definizione
ID	Numero incrementale di ID degli oggetti rilevati nel file multimediale
Type	Tipo di oggetti, ad esempio Car
ThumbnailID	GUID che rappresenta un singolo rilevamento dell'oggetto
displayName	Nome da visualizzare nell'esperienza del portale VI
WikiDataID	Identificatore univoco nella struttura WikiData
Istanze	Elenco di tutte le istanze rilevate
Attendibilità	Punteggio compreso tra 0 e 1 che indica l'attendibilità del rilevamento degli oggetti
adjustedStart	regolare l'ora di inizio del video quando si usa l'editor
adjustedEnd	regolata l'ora di fine del video quando si usa l'editor
Avvio	ora in cui l'oggetto viene visualizzato nel frame
end	l'ora in cui l'oggetto non viene più visualizzato nel frame

Risposta JSON

Oggetti rilevati e rilevati

Gli oggetti rilevati e rilevati vengono visualizzati in "Oggetti rilevati" nel file di insights.json scaricato. Ogni volta che viene rilevato un oggetto univoco, viene assegnato un ID. Viene inoltre rilevato l'oggetto , ovvero il modello controlla che l'oggetto rilevato restituisca al frame. In caso affermativo, viene aggiunta un'altra istanza alle istanze dell'oggetto con orari di inizio e fine diversi.

In questo esempio, la prima auto è stata rilevata e ha assegnato un ID pari a 1 poiché è stato rilevato anche il primo oggetto. Poi, è stata rilevata un'altra auto e a quell'auto è stato assegnato l'ID 23 dal momento che è stato rilevato il 23° oggetto. Successivamente, la prima auto è apparsa di nuovo e un'altra istanza è stata aggiunta al codice JSON. Ecco il codice JSON risultante:

detectedObjects: [
    {
    id: 1,
    type: "Car",
    thumbnailId: "1c0b9fbb-6e05-42e3-96c1-abe2cd48t33",
    displayName: "car",
    wikiDataId: "Q1420",
    instances: [
        {
        confidence: 0.468,
        adjustedStart: "0:00:00",
        adjustedEnd: "0:00:02.44",
        start: "0:00:00",
        end: "0:00:02.44"
        },
        {
        confidence: 0.53,
        adjustedStart: "0:03:00",
        adjustedEnd: "0:00:03.55",
        start: "0:03:00",
        end: "0:00:03.55"
        }    
    ]
    },
    {
    id: 23,
    type: "Car",
    thumbnailId: "1c0b9fbb-6e05-42e3-96c1-abe2cd48t34",
    displayName: "car",
    wikiDataId: "Q1420",
    instances: [
        {
        confidence: 0.427,
        adjustedStart: "0:00:00",
        adjustedEnd: "0:00:14.24",
        start: "0:00:00",
        end: "0:00:14.24"
        }    
    ]
    }
]

Oggetti supportati

Aeroplano
apple
zaino
banana
guanto da baseball
Letto
panchina
bicycle
boat
Libro
Bottiglia
bowl
Broccoli
bus
Torta

Auto
Carota
Cellulare
Sedia
clock
mouse del computer
Divano
Tazza
tavolo da pranzo
grafico ad anello
idrante antincendio
fork
Frisbee

Asciugacapelli
Borsa
hot dog
tasti di scelta
aquilone
knife
Computer portatile
Microonde
motorcycle
mouse del computer
Cravatta
orange
oven
parchimetro
pizza
pianta in vaso

sandwich
Forbici
sink
Skateboard
Sci
Snowboard
Cucchiaio
pallone sportivo
segnale di stop
Valigia
Surf
Orsacchiotto

racchetta da tennis
toaster
toilet
Spazzolino
traffic light
eseguire il training
Ombrello
Vaso
arma, vedi Note di classe specifiche per la classe arma
bicchiere di vino

Limiti

Sono disponibili fino a 20 rilevamenti per fotogrammi per elaborazione standard e avanzata e 35 tracce per classe.
Le dimensioni degli oggetti non devono essere superiori al 90% del frame. Oggetti molto grandi che si estendono in modo coerente su una grande parte del frame potrebbero non essere riconosciuti.
Gli oggetti piccoli o sfocati possono essere difficili da rilevare. Possono essere perse o misclassificate (bicchiere di vino, tazza).
Gli oggetti temporanei e visualizzati in pochissimi fotogrammi potrebbero non essere riconosciuti.
Altri fattori che potrebbero influire sull'accuratezza del rilevamento degli oggetti includono condizioni di scarsa luce, movimento della fotocamera e occlusioni.
Video Indexer di Azure per intelligenza artificiale supporta solo oggetti reali. Non è disponibile alcun supporto per l'animazione o CGI. La grafica generata dal computer (ad esempio gli adesivi di notizie) potrebbe produrre risultati strani.
Vedere note specifiche sulla classe.

Note di classe specifiche

Materiali scritti associati

I binder, le brochure e altri materiali scritti tendono a essere rilevati come "libro".

Arma

La classe arma include apparizioni di pistole a mano e fucili.
Le mani che contengono oggetti scuri (per lo più, ma non solo per oggetti sfocati) potrebbero essere confuse con le armi.
Le armi su uno sfondo molto scuro possono essere perse.
I video di bassa qualità (risoluzione, compressione e così via) potrebbero influire sulla capacità del modello di identificare l'arma.
Oggetti meccanici (inclusi robot) e macchinari complessi potrebbero talvolta essere rilevati come armi.
Per le attività orientate al richiamo, le tracce filtrate sono disponibili in "filtered_tracks". Queste tracce hanno un punteggio di attendibilità complessivo inferiore e non verranno visualizzate nel portale di Azure AI Video Indexer.

Provare il rilevamento degli oggetti

È possibile provare il rilevamento degli oggetti con il portale Web o con l'API.

Portale Web
API

Dopo aver caricato un video, è possibile visualizzare le informazioni dettagliate. Nella scheda Informazioni dettagliate è possibile visualizzare l'elenco degli oggetti rilevati e le relative istanze principali.

Informazioni dettagliate

Selezionare la scheda Informazioni dettagliate . Gli oggetti sono in ordine decrescente del numero di apparizioni nel video.

screenshot dell'interfaccia della scheda Insights

Sequenza temporale

Selezionare la scheda Sequenza temporale .

screenshot dell'interfaccia della scheda sequenza temporale

Nella scheda sequenza temporale vengono visualizzati tutti gli oggetti rilevati in base all'ora dell'aspetto. Quando si passa il puntatore del mouse su un rilevamento specifico, viene visualizzata la percentuale di rilevamento di certezza.

Giocatore

Il giocatore contrassegna automaticamente l'oggetto rilevato con un rettangolo di selezione. L'oggetto selezionato dal riquadro informazioni dettagliate è evidenziato in blu con anche il tipo di oggetti e il numero di serie.

Filtrare i rettangoli di selezione intorno agli oggetti selezionando l'icona del rettangolo di selezione sul lettore.

Selezionare o deselezionare quindi le caselle di controllo oggetti rilevati.

screenshot dell'applicazione di filtri agli oggetti rilevati nell'interfaccia del lettore

Scaricare le informazioni dettagliate selezionando Scarica e quindi Insights (JSON).