Ottenere informazioni dettagliate sul rilevamento delle persone osservate e sui visi corrispondenti

Articolo
10/09/2024

Rilevamento delle persone osservate, visi abbinati, abbigliamento rilevato

Importante

L'accesso alle funzionalità di identificazione, personalizzazione e riconoscimento delle celebrità è limitato in base ai criteri di idoneità e utilizzo per supportare i principi di IA responsabile. Le funzionalità di identificazione, personalizzazione e riconoscimento delle celebrità sono disponibili solo per i clienti e i partner gestiti da Microsoft. Usare il modulo di acquisizione riconoscimento volto per richiedere l'accesso.

Il rilevamento e le corrispondenze dei visi rilevati rilevano e corrispondono automaticamente alle persone nei file multimediali. Le persone osservate rilevano e confrontano i visi possono essere impostati per visualizzare informazioni dettagliate sulle persone, sui loro vestiti e sull'intervallo di tempo esatto del loro aspetto.

Nel portale Web le informazioni dettagliate risultanti vengono visualizzate in un elenco categorizzato nella scheda Informazioni dettagliate, la scheda include un'anteprima di ogni persona e il relativo ID. Facendo clic sull'anteprima di una persona viene visualizzata la persona corrispondente (il viso corrispondente nelle informazioni dettagliate persone). Le informazioni dettagliate vengono generate anche in un elenco categorizzato in un file JSON che include l'ID anteprima della persona, la percentuale di tempo visualizzata nel file, il collegamento wiki (se si tratta di una celebrità) e il livello di attendibilità.

Rilevamento delle persone osservate, abbigliamento rilevato e casi d'uso dei visi corrispondenti

Miglioramento dell'efficienza grazie alla ricerca approfondita di persone abbinate negli archivi dell'organizzazione per informazioni dettagliate su celebrità specifiche, ad esempio durante la creazione di promo e trailer.
Miglioramento dell'efficienza durante la creazione di storie di funzionalità, ad esempio, alla ricerca di persone che indossano una maglietta rossa negli archivi di una partita di calcio in un'agenzia News o Sports.
Creare un riepilogo da un lungo video, come le prove giudiziarie dell'aspetto di una persona specifica in un video, usando lo stesso ID della persona rilevata.
Impara e analizza le tendenze nel tempo, ad esempio come i clienti si spostano tra le corsie in un centro commerciale o quanto tempo spendono nelle linee di checkout.

Le caratteristiche di abbigliamento rilevate e dei visi corrispondenti sono disponibili durante l'indicizzazione del file scegliendo il set di impostazioni Avanzate ->Video + indicizzazione audio.

Visualizzare il codice JSON di informazioni dettagliate con il portale Web

Dopo aver caricato e indicizzato un video, le informazioni dettagliate sono disponibili in formato JSON per il download tramite il portale Web.

Selezionare la scheda Libreria .
Selezionare i supporti con cui si vuole lavorare.
Selezionare Download (Download) e Insights (JSON).Select Download and the Insights (JSON). Il file JSON viene aperto in una nuova scheda del browser.
Cercare la coppia di chiavi descritta nella risposta di esempio.

Usare l'API

Usare la richiesta Recupera indice video . È consigliabile &includeSummarizedInsights=falsepassare .
Cercare le coppie chiave descritte nella risposta di esempio.

Esempio di risposta

"observedPeople": [
    {
        "id": 1,
        "thumbnailId": "d09ad62e-e0a4-42e5-8ca9-9a640c686596",
        "clothing": [
            {
                "id": 1,
                "type": "sleeve",
                "properties": {
                    "length": "short"
                }
            },
            {
                "id": 2,
                "type": "pants",
                "properties": {
                    "length": "short"
                }
            }
        ],
        "matchingFace": {
            "id": 1310,
            "confidence": 0.3819
        },
        "instances": [
            {
                "adjustedStart": "0:00:34.8681666",
                "adjustedEnd": "0:00:36.0026333",
                "start": "0:00:34.8681666",
                "end": "0:00:36.0026333"
            },
            {
                "adjustedStart": "0:00:36.6699666",
                "adjustedEnd": "0:00:36.7367",
                "start": "0:00:36.6699666",
                "end": "0:00:36.7367"
            },
            {
                "adjustedStart": "0:00:37.2038333",
                "adjustedEnd": "0:00:39.6729666",
                "start": "0:00:37.2038333",
                "end": "0:00:39.6729666"
            }
        ]
    }
]

Importante

È importante leggere la panoramica delle note sulla trasparenza per tutte le funzionalità vi. Ogni informazione ha anche note sulla trasparenza proprie:

Rilevamento delle persone osservate e note dei visi corrispondenti

Le persone in genere non vengono rilevate se appaiono piccole (altezza minima della persona è 100 pixel).
Le dimensioni massime dei fotogrammi sono full-definition (FHD).
I video di bassa qualità (ad esempio, condizioni di illuminazione scura) potrebbero influire sui risultati del rilevamento.
Frequenza dei fotogrammi consigliata almeno 30 FPS.
L'input video consigliato deve contenere fino a 10 persone in un singolo fotogramma. La funzionalità potrebbe funzionare con più persone in un singolo fotogramma, ma il risultato del rilevamento recupera fino a 10 persone in un frame con la massima attendibilità del rilevamento.
Persone con vestiti simili: (ad esempio, le persone indossano uniformi, giocatori in giochi sportivi) possono essere rilevati come la stessa persona con lo stesso numero di ID.
Ostruzione : potrebbero esserci errori in cui ci sono ostacoli (scena/auto o ostruzione da parte di altre persone).
Pose: le tracce potrebbero essere suddivise a causa di posizioni diverse (posteriore/anteriore)
Poiché il rilevamento dell'abbigliamento dipende dalla visibilità del corpo della persona, l'accuratezza è superiore se una persona è completamente visibile. Potrebbero verificarsi errori quando una persona è senza abbigliamento. In questo scenario o altri di scarsa visibilità, i risultati potrebbero essere dati come pantaloni lunghi e gonna o vestito.

Componenti del rilevamento e delle corrispondenze dei visi rilevati

Componente	Definizione
File di origine	L'utente carica il file di origine per l'indicizzazione.
Rilevamento	Il file multimediale viene rilevato per rilevare le persone osservate e i loro vestiti. Ad esempio, camicia con maniche lunghe, vestire o pantaloni lunghi. Per essere rilevato, il corpo superiore completo della persona deve essere visualizzato nei supporti.
Raggruppamento locale	I visi osservati identificati vengono filtrati in gruppi locali. Se una persona viene rilevata più volte, vengono create più istanze dei visi osservati per questa persona.
Corrispondenza e classificazione	Le istanze delle persone osservate vengono confrontate con i visi. Se c'è una celebrità nota, alla persona osservata viene assegnato il nome. Qualsiasi numero di istanze di persone osservate può essere confrontato con lo stesso viso.
Valore di attendibilità	Il livello di confidenza stimato di ogni persona osservata viene calcolato come un intervallo compreso tra 0 e 1. Il punteggio di attendibilità rappresenta la certezza nell'accuratezza del risultato. Ad esempio, una certezza dell'82% è rappresentata come punteggio di 0,82.

Codice di esempio

Vedere tutti gli esempi per VI

Condividi tramite