Rilevamento degli oggetti video indexer di Azure per intelligenza artificiale

Video Indexer di Azure per intelligenza artificiale può rilevare gli oggetti nei video. Le informazioni dettagliate fanno parte dei set di impostazioni video standard e avanzati. Il rilevamento degli oggetti è incluso nelle informazioni dettagliate che sono il risultato di una richiesta Carica video .

Nota sulla trasparenza

Prima di usare il rilevamento degli oggetti, esaminare la panoramica delle note sulla trasparenza.

Chiavi e definizioni JSON

Chiave Definizione
ID Numero incrementale di ID degli oggetti rilevati nel file multimediale
Type Tipo di oggetti, ad esempio Car
ThumbnailID GUID che rappresenta un singolo rilevamento dell'oggetto
displayName Nome da visualizzare nell'esperienza del portale VI
WikiDataID Identificatore univoco nella struttura WikiData
Istanze Elenco di tutte le istanze rilevate
Attendibilità Punteggio compreso tra 0 e 1 che indica l'attendibilità del rilevamento degli oggetti
adjustedStart regolare l'ora di inizio del video quando si usa l'editor
adjustedEnd regolata l'ora di fine del video quando si usa l'editor
Avvio ora in cui l'oggetto viene visualizzato nel frame
end l'ora in cui l'oggetto non viene più visualizzato nel frame

Risposta JSON

Oggetti rilevati e rilevati

Gli oggetti rilevati e rilevati vengono visualizzati in "Oggetti rilevati" nel file di insights.json scaricato. Ogni volta che viene rilevato un oggetto univoco, viene assegnato un ID. Viene inoltre rilevato l'oggetto , ovvero il modello controlla che l'oggetto rilevato restituisca al frame. In caso affermativo, viene aggiunta un'altra istanza alle istanze dell'oggetto con orari di inizio e fine diversi.

In questo esempio, la prima auto è stata rilevata e ha assegnato un ID pari a 1 poiché è stato rilevato anche il primo oggetto. Poi, è stata rilevata un'altra auto e a quell'auto è stato assegnato l'ID 23 dal momento che è stato rilevato il 23° oggetto. Successivamente, la prima auto è apparsa di nuovo e un'altra istanza è stata aggiunta al codice JSON. Ecco il codice JSON risultante:

detectedObjects: [
    {
    id: 1,
    type: "Car",
    thumbnailId: "1c0b9fbb-6e05-42e3-96c1-abe2cd48t33",
    displayName: "car",
    wikiDataId: "Q1420",
    instances: [
        {
        confidence: 0.468,
        adjustedStart: "0:00:00",
        adjustedEnd: "0:00:02.44",
        start: "0:00:00",
        end: "0:00:02.44"
        },
        {
        confidence: 0.53,
        adjustedStart: "0:03:00",
        adjustedEnd: "0:00:03.55",
        start: "0:03:00",
        end: "0:00:03.55"
        }    
    ]
    },
    {
    id: 23,
    type: "Car",
    thumbnailId: "1c0b9fbb-6e05-42e3-96c1-abe2cd48t34",
    displayName: "car",
    wikiDataId: "Q1420",
    instances: [
        {
        confidence: 0.427,
        adjustedStart: "0:00:00",
        adjustedEnd: "0:00:14.24",
        start: "0:00:00",
        end: "0:00:14.24"
        }    
    ]
    }
]

Oggetti supportati

  • Aeroplano
  • apple
  • zaino
  • banana
  • guanto da baseball
  • Letto
  • panchina
  • bicycle
  • boat
  • Libro
  • Bottiglia
  • bowl
  • Broccoli
  • bus
  • Torta
  • Auto
  • Carota
  • Cellulare
  • Sedia
  • clock
  • mouse del computer
  • Divano
  • Tazza
  • tavolo da pranzo
  • grafico ad anello
  • idrante antincendio
  • fork
  • Frisbee
  • Asciugacapelli
  • Borsa
  • hot dog
  • tasti di scelta
  • aquilone
  • knife
  • Computer portatile
  • Microonde
  • motorcycle
  • mouse del computer
  • Cravatta
  • orange
  • oven
  • parchimetro
  • pizza
  • pianta in vaso
  • sandwich
  • Forbici
  • sink
  • Skateboard
  • Sci
  • Snowboard
  • Cucchiaio
  • pallone sportivo
  • segnale di stop
  • Valigia
  • Surf
  • Orsacchiotto

Limiti

  • Sono disponibili fino a 20 rilevamenti per fotogrammi per elaborazione standard e avanzata e 35 tracce per classe.
  • Le dimensioni degli oggetti non devono essere superiori al 90% del frame. Oggetti molto grandi che si estendono in modo coerente su una grande parte del frame potrebbero non essere riconosciuti.
  • Gli oggetti piccoli o sfocati possono essere difficili da rilevare. Possono essere perse o misclassificate (bicchiere di vino, tazza).
  • Gli oggetti temporanei e visualizzati in pochissimi fotogrammi potrebbero non essere riconosciuti.
  • Altri fattori che potrebbero influire sull'accuratezza del rilevamento degli oggetti includono condizioni di scarsa luce, movimento della fotocamera e occlusioni.
  • Video Indexer di Azure per intelligenza artificiale supporta solo oggetti reali. Non è disponibile alcun supporto per l'animazione o CGI. La grafica generata dal computer (ad esempio gli adesivi di notizie) potrebbe produrre risultati strani.
  • Vedere note specifiche sulla classe.

Note di classe specifiche

Materiali scritti associati

I binder, le brochure e altri materiali scritti tendono a essere rilevati come "libro".

Arma

  • La classe arma include apparizioni di pistole a mano e fucili.
  • Le mani che contengono oggetti scuri (per lo più, ma non solo per oggetti sfocati) potrebbero essere confuse con le armi.
  • Le armi su uno sfondo molto scuro possono essere perse.
  • I video di bassa qualità (risoluzione, compressione e così via) potrebbero influire sulla capacità del modello di identificare l'arma.
  • Oggetti meccanici (inclusi robot) e macchinari complessi potrebbero talvolta essere rilevati come armi.
  • Per le attività orientate al richiamo, le tracce filtrate sono disponibili in "filtered_tracks". Queste tracce hanno un punteggio di attendibilità complessivo inferiore e non verranno visualizzate nel portale di Azure AI Video Indexer.

Provare il rilevamento degli oggetti

È possibile provare il rilevamento degli oggetti con il portale Web o con l'API.

Dopo aver caricato un video, è possibile visualizzare le informazioni dettagliate. Nella scheda Informazioni dettagliate è possibile visualizzare l'elenco degli oggetti rilevati e le relative istanze principali.

Informazioni dettagliate

Selezionare la scheda Informazioni dettagliate . Gli oggetti sono in ordine decrescente del numero di apparizioni nel video.

screenshot dell'interfaccia della scheda Insights

Sequenza temporale

Selezionare la scheda Sequenza temporale .

screenshot dell'interfaccia della scheda sequenza temporale

Nella scheda sequenza temporale vengono visualizzati tutti gli oggetti rilevati in base all'ora dell'aspetto. Quando si passa il puntatore del mouse su un rilevamento specifico, viene visualizzata la percentuale di rilevamento di certezza.

Giocatore

Il giocatore contrassegna automaticamente l'oggetto rilevato con un rettangolo di selezione. L'oggetto selezionato dal riquadro informazioni dettagliate è evidenziato in blu con anche il tipo di oggetti e il numero di serie.

Filtrare i rettangoli di selezione intorno agli oggetti selezionando l'icona del rettangolo di selezione sul lettore.

screenshot dell'interfaccia del lettore icona filtro oggetti

Selezionare o deselezionare quindi le caselle di controllo oggetti rilevati.

screenshot dell'applicazione di filtri agli oggetti rilevati nell'interfaccia del lettore

Scaricare le informazioni dettagliate selezionando Scarica e quindi Insights (JSON).