Share via


Rilevamento del viso

Importante

A causa dell'annuncio di ritiro Servizi multimediali di Azure, Azure AI Video Indexer annuncia le modifiche alle funzionalità di Azure AI Video Indexer. Vedere Modifiche correlate al ritiro di Servizi multimediali di Azure (AMS) per comprendere cosa significa per l'account Video Indexer di Azure per intelligenza artificiale. Vedere la guida alla preparazione per il ritiro di AMS: aggiornamento VI e migrazione.

Rilevamento dei volti, una funzionalità di Azure AI Video Indexer, rileva automaticamente i visi in un file multimediale e quindi aggrega istanze di visi simili in gruppi. Il modello di riconoscimento delle celebrità viene quindi eseguito per riconoscere le celebrità.

Il modello di riconoscimento delle celebrità copre circa 1 milione di visi ed è basato su origini dati comunemente richieste. I visi che Video Indexer non riconosce come celebrità vengono ancora rilevati, ma rimangono senza nome. È possibile creare un modello di persona personalizzato per eseguire il training di Video Indexer per riconoscere i visi non riconosciuti per impostazione predefinita.

Le informazioni dettagliate sul rilevamento dei volti vengono generate come elenco categorizzato in un file JSON che include un'anteprima e un nome o un ID per ogni viso. Selezionando l'anteprima di un viso vengono visualizzate informazioni come il nome della persona (se sono stati riconosciuti), la percentuale del video visualizzato dalla persona e la biografia della persona, se si tratta di una celebrità. È anche possibile scorrere tra le istanze del video in cui viene visualizzata la persona.

Importante

Per supportare i principi di intelligenza artificiale responsabile Microsoft, l'accesso alle funzionalità di identificazione, personalizzazione e riconoscimento delle celebrità è limitato e basato su criteri di idoneità e utilizzo. Le funzionalità di identificazione, personalizzazione e riconoscimento delle celebrità sono disponibili per i clienti e i partner gestiti da Microsoft. Per richiedere l'accesso, usare il modulo di assunzione del riconoscimento facciale.

Prerequisiti

Vedere La nota sulla trasparenza per Video Indexer di Azure per intelligenza artificiale.

Principi generali

Questo articolo illustra il rilevamento dei visi e le considerazioni chiave per l'uso responsabile di questa tecnologia. È necessario considerare molti fattori importanti quando si decide come usare e implementare una funzionalità basata su intelligenza artificiale, tra cui:

  • Questa funzionalità avrà prestazioni buone nello scenario? Prima di distribuire il rilevamento dei volti nello scenario, testare le prestazioni usando i dati reali. Assicurarsi che possa fornire l'accuratezza necessaria.
  • È possibile identificare e rispondere agli errori? I prodotti e le funzionalità basati sull'intelligenza artificiale non sono accurati al 100%, quindi valuta come identificare e rispondere agli eventuali errori che si verificano.

Termini importanti

Termine Definizione
intuzione Informazioni e conoscenze derivate dall'elaborazione e dall'analisi di file video e audio. Le informazioni dettagliate possono includere oggetti rilevati, persone, visi, fotogrammi chiave e traduzioni o trascrizioni.
riconoscimento del viso Analisi delle immagini per identificare i visi visualizzati nelle immagini. Questo processo viene implementato tramite l'API Viso di Intelligenza artificiale di Azure.
annidato Le immagini registrate delle persone vengono convertite in modelli, che vengono quindi usati per il riconoscimento facciale. Le funzionalità interpretabili dal computer vengono estratte da una o più immagini di un individuo per creare il modello di tale individuo. Le immagini di registrazione o probe non vengono archiviate dall'API Viso e le immagini originali non possono essere ricostruite in base a un modello. La qualità del modello è un fattore determinante per l'accuratezza nei risultati.
registrazione Processo di registrazione di immagini di singoli utenti per la creazione di modelli in modo che possano essere riconosciuti. Quando una persona viene registrata in un sistema di verifica usato per l'autenticazione, il modello viene associato anche a un identificatore primario usato per determinare quale modello confrontare con il modello di probe. Immagini e immagini di alta qualità che rappresentano variazioni naturali del modo in cui una persona cerca (ad esempio, indossando occhiali e non indossando occhiali) genera modelli di registrazione di alta qualità.
ricerca approfondita La possibilità di recuperare solo i file video e audio pertinenti da una raccolta video cercando termini specifici all'interno delle informazioni dettagliate estratte.

Visualizza informazioni dettagliate

Per visualizzare le istanze di rilevamento dei visi nel sito Web di Azure AI Video Indexer:

  1. Quando si carica il file multimediale, nella finestra di dialogo Carica e indice selezionare Impostazioni avanzate.
  2. Nel menu a sinistra selezionare Persone modelli. Selezionare un modello da applicare al file multimediale.
  3. Dopo il caricamento e l'indicizzazione del file, passare a Informazioni dettagliate e scorrere fino a Persone.

Per visualizzare le informazioni dettagliate sul rilevamento dei volti in un file JSON:

  1. Nel sito Web di Azure AI Video Indexer aprire il video caricato.

  2. Selezionare Download>Insights (JSON).

  3. In insightscopiare l'elemento faces e incollarlo nel visualizzatore JSON.

    "faces": [
        {
        "id": 1785,
        "name": "Emily Tran",
        "confidence": 0.7855,
        "description": null,
        "thumbnailId": "fd2720f7-b029-4e01-af44-3baf4720c531",
        "knownPersonId": "92b25b4c-944f-4063-8ad4-f73492e42e6f",
        "title": null,
        "imageUrl": null,
        "thumbnails": [
            {
            "id": "4d182b8c-2adf-48a2-a352-785e9fcd1fcf",
            "fileName": "FaceInstanceThumbnail_4d182b8c-2adf-48a2-a352-785e9fcd1fcf.jpg",
            "instances": [
                {
                "adjustedStart": "0:00:00",
                "adjustedEnd": "0:00:00.033",
                "start": "0:00:00",
                "end": "0:00:00.033"
                }
            ]
            },
            {
            "id": "feff177b-dabf-4f03-acaf-3e5052c8be57",
            "fileName": "FaceInstanceThumbnail_feff177b-dabf-4f03-acaf-3e5052c8be57.jpg",
            "instances": [
                {
                "adjustedStart": "0:00:05",
                "adjustedEnd": "0:00:05.033",
                "start": "0:00:05",
                "end": "0:00:05.033"
                }
            ]
            },
        ]
        }
    ]
    

Per scaricare il file JSON tramite l'API, passare al portale per sviluppatori di Video Indexer per intelligenza artificiale di Azure.

Importante

Quando si esaminano i rilevamenti dei volti nell'interfaccia utente, è possibile che non vengano visualizzati tutti i visi visualizzati nel video. Vengono esposti solo i gruppi di visi con attendibilità superiore a 0,5 e il viso deve essere visualizzato per un minimo di 4 secondi o il 10% del valore di video_duration. Solo quando queste condizioni vengono soddisfatte, viene visualizzato il viso nell'interfaccia utente e nel file di Insights.json . È sempre possibile recuperare tutte le istanze del viso dal file dell'artefatto viso usando l'API : https://api.videoindexer.ai/{location}/Accounts/{accountId}/Videos/{videoId}/ArtifactUrl[?Faces][&accessToken].

Componenti di rilevamento dei volti

Nella tabella seguente viene descritto come vengono elaborate le immagini in un file multimediale durante la procedura di rilevamento dei volti:

Componente Definizione
file di origine L'utente carica il file di origine per l'indicizzazione.
rilevamento e aggregazione Il rilevatore viso identifica i visi in ogni fotogramma. I visi vengono quindi aggregati e raggruppati.
dell'input Il modello delle celebrità elabora i gruppi aggregati per riconoscere le celebrità. Se è stato creato un modello di persone personalizzato, elabora anche i gruppi per riconoscere altre persone. Se le persone non vengono riconosciute, vengono etichettate Unknown1, Unknown2 e così via.
valore di attendibilità Se applicabile per i visi noti o per i visi identificati nell'elenco personalizzabile, il livello di attendibilità stimato di ogni etichetta viene calcolato come un intervallo compreso tra 0 e 1. Il punteggio di attendibilità rappresenta la certezza nell'accuratezza del risultato. Ad esempio, una certezza dell'82% è rappresentata come punteggio di 0,82.

Caso d'uso di esempio

L'elenco seguente descrive esempi di casi d'uso comuni per il rilevamento dei volti:

  • Riepilogare dove un attore viene visualizzato in un film o riutilizzare filmati eseguendo una ricerca approfondita di visi specifici negli archivi dell'organizzazione per ottenere informazioni dettagliate su una celebrità specifica.
  • Migliora l'efficienza quando crei storie di funzionalità presso un'agenzia di notizie o un'agenzia sportiva. Gli esempi includono la ricerca approfondita di una celebrità o di un giocatore di calcio negli archivi dell'organizzazione.
  • Usa i visi visualizzati in un video per creare promozioni, trailer o evidenziazioni. Video Indexer può facilitare l'aggiunta di fotogrammi chiave, indicatori di scena, timestamp e etichettatura in modo che gli editor di contenuto investono meno tempo durante la revisione di numerosi file.

Considerazioni sulla scelta di un caso d'uso

Il rilevamento dei volti è uno strumento prezioso per molti settori quando viene usato in modo responsabile e attento. Per rispettare la privacy e la sicurezza di altri utenti e per rispettare le normative locali e globali, è consigliabile seguire queste linee guida per l'utilizzo:

  • Considerare attentamente l'accuratezza dei risultati. Per promuovere un rilevamento più accurato, controllare la qualità del video. Il video di bassa qualità potrebbe influire sulle informazioni dettagliate presentate.
  • Esaminare attentamente i risultati se si usa il rilevamento dei volti per le forze dell'ordine. Persone potrebbero non essere rilevati se sono piccoli, seduti, accovacciati o ostruiti da oggetti o altre persone. Per garantire decisioni corrette e di alta qualità, combinare l'automazione basata sul rilevamento dei volti con la supervisione umana.
  • Non usare il rilevamento dei volti per le decisioni che potrebbero avere gravi effetti negativi. Le decisioni basate sull'output errato possono avere gravi effetti negativi. È consigliabile includere la revisione umana delle decisioni che possono avere un impatto grave sugli individui.
  • Rispettare sempre il diritto di un individuo alla privacy e inserire video solo per scopi legittimi e giustificabili.
  • Non divulgare intenzionalmente contenuti inappropriati su bambini piccoli, membri della famiglia di celebrità o altri contenuti che potrebbero essere dannosi o rappresentare una minaccia per la libertà personale di un individuo.
  • Impegnarsi a rispettare e promuovere i diritti umani nella progettazione e nella distribuzione dei media analizzati.
  • Se usi materiali di terze parti, tieni presente eventuali copyright esistenti o autorizzazioni necessarie prima di distribuire il contenuto derivato da tali materiali. 
  • Se si usa contenuto da un'origine sconosciuta, rivolgersi sempre a un consiglio legale. 
  • Ottenere sempre consigli legali e professionali appropriati per garantire che i video caricati siano protetti e che abbiano controlli adeguati per mantenere l'integrità del contenuto e impedire l'accesso non autorizzato.
  • Fornire un canale di feedback che consente a utenti e utenti di segnalare problemi che potrebbero verificarsi con il servizio.
  • Tenere presente le leggi o le normative applicabili presenti nell'area relativa all'elaborazione, all'analisi e alla condivisione di contenuti multimediali che riguardano le persone. 
  • Mantenere un essere umano nel ciclo. Non usare alcuna soluzione come sostituzione per la supervisione umana e il processo decisionale.
  • Esaminare e esaminare completamente il potenziale di qualsiasi modello di intelligenza artificiale usato per comprendere le funzionalità e le limitazioni. 

Altre informazioni sull'IA responsabile:

Informazioni dettagliate su Video Indexer per intelligenza artificiale di Azure: