Panoramica di Video Indexer per intelligenza artificiale di Azure

Importante

A causa dell'annuncio di ritiro Servizi multimediali di Azure, Azure AI Video Indexer annuncia le modifiche alle funzionalità di Azure AI Video Indexer. Vedere Modifiche correlate al ritiro di Servizi multimediali di Azure (AMS) per comprendere cosa significa per l'account Video Indexer di Azure per intelligenza artificiale. Vedere la guida alla preparazione per il ritiro di AMS: aggiornamento VI e migrazione.

Video Indexer di Intelligenza artificiale di Azure è un'applicazione cloud, parte dei servizi di intelligenza artificiale di Azure, basata su servizi di intelligenza artificiale di Azure, ad esempio Viso, Traduttore, Visione artificiale di Azure e Riconoscimento vocale. Consente di estrarre le informazioni dettagliate dai video usando i modelli video e audio di Azure AI Video Indexer.

Video Indexer di Azure per intelligenza artificiale analizza il contenuto video e audio eseguendo modelli di intelligenza artificiale di oltre 30, generando informazioni dettagliate avanzate. Ecco un'illustrazione dell'analisi audio e video eseguita da Azure AI Video Indexer in background:

Diagramma del flusso di Video Indexer di Intelligenza artificiale di Azure.

Per iniziare a estrarre informazioni dettagliate con Azure AI Video Indexer, vedere la sezione come iniziare .

Cosa è possibile fare con Azure AI Video Indexer?

Le informazioni dettagliate di Video Indexer di Azure per intelligenza artificiale possono essere applicate a molti scenari:

  • Ricerca approfondita: usare le informazioni dettagliate estratte dal video per migliorare l'esperienza di ricerca in una raccolta video. L'indicizzazione del testo parlato e dei visi può ad esempio consentire di usare l'esperienza di ricerca per trovare i momenti in un video in cui una persona specifica ha pronunciato determinate parole o in cui due persone vengono viste insieme. La ricerca basata su tali informazioni dettagliate estratte dai video è utile per agenzie di stampa, istituti di istruzione, operatori che trasmettono eventi live, proprietari di contenuti per l'intrattenimento, app line-of-business aziendali e in genere per qualsiasi settore in cui gli utenti abbiano l'esigenza di eseguire ricerche in un catalogo video.
  • Creazione di contenuti: creare trailer, evidenziare reels, contenuti di social media o clip di notizie in base alle informazioni dettagliate estratte da Azure AI Video Indexer dai contenuti. I fotogrammi chiave, gli indicatori di scene e i timestamp delle persone e delle etichette rendono il processo di creazione più semplice e semplice, consentendo di raggiungere facilmente le parti del video necessarie durante la creazione del contenuto.
  • Accessibilità: se si vuole rendere disponibile il contenuto per le persone con disabilità o se si vuole distribuire il contenuto in aree diverse usando lingue diverse, è possibile usare la trascrizione e la traduzione fornita da Azure AI Video Indexer in più lingue.
  • Monetizzazione: Video Indexer di Azure per intelligenza artificiale consente di aumentare il valore dei video. Ad esempio, i settori che si basano sui ricavi della pubblicità (mezzi di informazione, social media e così via) possono pubblicare annunci pertinenti usando le informazioni dettagliate estratte come segnali aggiuntivi inviati al server di annunci.
  • Con modalità tenda ration: usare modelli di con modalità tenda ration testuali e visivi per proteggere gli utenti da contenuti non appropriati e verificare che il contenuto pubblicato corrisponda ai valori dell'organizzazione. È possibile bloccare automaticamente determinati video o avvisare gli utenti sul contenuto.
  • Consigli: le informazioni dettagliate video possono essere usate per migliorare l'engagement degli utenti evidenziando i momenti video pertinenti agli utenti. Contrassegnando ogni video con metadati aggiuntivi, è possibile consigliare agli utenti i video più rilevanti ed evidenziare le parti del video che soddisfano le proprie esigenze.

Funzionalità di intelligenza artificiale video/audio

L'elenco seguente mostra le informazioni dettagliate che è possibile recuperare dai file video/audio usando le funzionalità video e audio di Video Indexer di Azure per intelligenza artificiale (modelli).

Se non specificato diversamente, un modello è disponibile a livello generale.

Modelli video

  • Rilevamento volto: rileva e raggruppa i visi visualizzati nel video.

  • Identificazione celebrità: identifica oltre 1 milione di celebrità, come leader mondiali, attori, artisti, atleti, ricercatori, business e leader tecnologici in tutto il mondo. I dati relativi a queste celebrità possono anche essere trovati su diversi siti Web noti, ad esempio IMDB, Wikipedia e così via.

  • Identificazione viso basata su account: esegue il training di un modello per un account specifico. Riconosce quindi i visi nel video in base al modello sottoposto a training. Per altre informazioni, vedere Personalizzare un modello Person dal sito Web di Azure AI Video Indexer e Personalizzare un modello Person con l'API Video Indexer di Azure per intelligenza artificiale.

  • Estrazione di anteprime per i visi: identifica il viso acquisito meglio in ogni gruppo di visi (in base a qualità, dimensioni e posizione frontale) ed estraerlo come asset di immagine.

  • Riconoscimento ottico dei caratteri (OCR): estrae testo da immagini, segni stradali e prodotti nei file multimediali per creare informazioni dettagliate.

  • Moderazione del contenuto visivo: rileva contenuto visivo per adulti e/o razzista.

  • Identificazione delle etichette: identifica gli oggetti visivi e le azioni visualizzate.

  • Segmentazione della scena: determina quando una scena cambia in base ai segnali visivi. Una scena illustra un singolo evento ed è composto da una serie di scatti consecutivi, che sono correlati semanticamente.

  • Rilevamento degli scatti: determina quando un'immagine cambia nel video in base ai segnali visivi. Uno scatto è una serie di fotogrammi acquisiti dalla stessa fotocamera del movimento. Per altre informazioni, vedere Scene, scatti e fotogrammi chiave.

  • Rilevamento fotogramma nero: identifica i fotogrammi neri presentati nel video.

  • Estrazione di fotogrammi chiave: rileva i fotogrammi chiave stabili in un video.

  • Crediti in sequenza: identifica l'inizio e la fine dei crediti in sequenza alla fine di programmi televisivi e film.

  • Rilevamento del tipo di colpo editoriale: tag basati sul loro tipo (come spara larga, tiro medio, primo piano, primo piano estremo, due colpi, più persone, all'aperto e all'interno e così via). Per altre informazioni, vedere Rilevamento del tipo di scatto editoriale.

  • Rilevamento delle persone osservate (anteprima): rileva le persone osservate nei video e fornisce informazioni come la posizione della persona nel fotogramma video (usando i rettangoli di delimitazione) e il timestamp esatto (inizio, fine) e la confidenza quando viene visualizzata una persona. Per altre informazioni, vedere Tracciare le persone osservate in un video.

    • Persone'abbigliamento rilevato (anteprima): rileva i tipi di abbigliamento delle persone che appaiono nel video e fornisce informazioni come maniche lunghe o corte, pantaloni lunghi o corti e gonna o abito. L'abbigliamento rilevato è associato alle persone che lo indossano e viene fornito il timestamp esatto (inizio, fine) insieme a un livello di confidenza per il rilevamento. Per altre informazioni, vedere l'articolo relativo all'abbigliamento rilevato.
    • Abbigliamento in primo piano (anteprima): acquisisce immagini di abbigliamento in primo piano che appaiono in un video. Puoi migliorare i tuoi annunci mirati usando le informazioni dettagliate sull'abbigliamento in primo piano. Per informazioni su come vengono classificate le immagini di abbigliamento in primo piano e su come ottenere informazioni dettagliate, vedi abbigliamento in primo piano.
  • Persona corrispondente (anteprima): corrisponde alle persone osservate nel video con i visi corrispondenti rilevati. La corrispondenza tra le persone osservate e i visi contiene un livello di attendibilità.

  • Rilevamento oggetti Rileva oggetti univoci rilevati anche in modo che, se tornano al frame, vengono riconosciuti. Vedere Rilevamento di oggetti video indexer di Intelligenza artificiale di Azure

  • Rilevamento slate (anteprima): identifica le informazioni dettagliate successive alla post-produzione del film seguenti durante l'indicizzazione di un video usando l'opzione di indicizzazione avanzata:

    • Rilevamento clapperboard con estrazione dei metadati.
    • Rilevamento di modelli digitali, incluse le barre dei colori.
    • Rilevamento dello slate senza testo, inclusa la corrispondenza della scena.

    Per informazioni dettagliate, vedere Rilevamento Slate.

  • Rilevamento del logo testuale (anteprima): corrisponde a un testo predefinito specifico usando OCR di Azure AI Video Indexer. Ad esempio, se un utente ha creato un logo testuale: "Microsoft", verranno rilevati aspetti diversi della parola Microsoft come logo "Microsoft". Per altre informazioni, vedere Rilevare il logo testuale.

Modelli audio

  • Trascrizione audio: converte la voce in testo in più di 50 lingue e consente estensioni. Per altre informazioni, vedere Supporto per il linguaggio di Video Indexer per Intelligenza artificiale di Azure.

  • Rilevamento automatico della lingua: identifica la lingua parlata dominante. Per altre informazioni, vedere Supporto per il linguaggio di Video Indexer per Intelligenza artificiale di Azure. Se la lingua non può essere identificata con attendibilità, Azure AI Video Indexer presuppone che la lingua parlata sia l'inglese. Per altre informazioni, vedere Modello di identificazione della lingua.

  • Identificazione e trascrizione di più lingue: identifica la lingua parlata in segmenti diversi dall'audio. Invia ogni segmento del file multimediale da trascrivere, quindi combina nuovamente la trascrizione in un'unica trascrizione unificata. Per altre informazioni, vedere Identificare e trascrivere automaticamente contenuto multilingue.

  • Sottotitoli codificati: consente di creare sottotitoli in tre formati: VTT, TTML, SRT.

  • Elaborazione di due canali: rileva automaticamente trascrizioni separate e unisce in una singola sequenza temporale.

  • Riduzione del rumore: ripulisce le registrazioni audio di telefonia o le registrazioni con rumori (in base ai filtri Skype).

  • Personalizzazione della trascrizione (CRIS): esegue il training della sintesi vocale personalizzata ai modelli di testo per creare trascrizioni specifiche del settore. Per altre informazioni, vedere Personalizzare un modello linguistico dal sito Web di Azure AI Video Indexer e Personalizzare un modello linguistico con le API video indexer di Intelligenza artificiale di Azure.

  • Enumerazione dei relatori: identifica e riconosce quale relatore ha pronunciato determinate parole e quando. Sedici altoparlanti possono essere rilevati in un singolo file audio.

  • Statistiche voce: fornisce statistiche per i rapporti vocali degli altoparlanti.

  • Moderazione del contenuto testuale: rileva testo esplicito nella trascrizione audio.

  • Rilevamento delle emozioni basate sul testo: emozioni come gioia, tristezza, rabbia e paura rilevate tramite l'analisi della trascrizione.

  • Traduzione: crea traduzioni della trascrizione audio in molte lingue diverse. Per altre informazioni, vedere Supporto per il linguaggio di Video Indexer per Intelligenza artificiale di Azure.

  • Rilevamento degli effetti audio (anteprima): rileva i seguenti effetti audio nei segmenti non vocali del contenuto: allarme o sirena, abbaiamento del cane, reazioni di folla (cheering, clapping e booing), colpo di pistola o esplosione, risate, vetro rotto e silenzio.

    Gli eventi acustici rilevati si trovano nel file didascalia chiuso. Il file può essere scaricato dal sito Web di Azure AI Video Indexer. Per altre informazioni, vedere Rilevamento effetti audio.

    Nota

    Il set completo di eventi è disponibile solo quando si sceglie Analisi audio avanzata durante il caricamento di un file, nel set di impostazioni di caricamento. Per impostazione predefinita, viene rilevato solo il silenzio.

Modelli audio e video (canali multipli)

Quando si esegue l'indicizzazione per un canale, sono disponibili risultati parziali per tali modelli.

  • Estrazione di parole chiave: estrae parole chiave dal parlato e dal testo visivo.
  • Estrazione di entità denominate: estrae marchi, posizioni e persone dal parlato e dal testo visivo tramite l'elaborazione del linguaggio naturale (NLP).
  • Inferenza dell'argomento: estrae argomenti basati su varie parole chiave ( ovvero parole chiave 'Borsa', 'Wall Street' produce l'argomento 'Economia'). Il modello usa tre diverse ontologi (IPTC, Wikipedia e l'argomento gerarchico di Video Indexer). Il modello usa la trascrizione (parole pronunciate), il contenuto OCR (testo visivo) e le celebrità riconosciute nel video usando il modello di riconoscimento facciale di Video Indexer.
  • Artefatti: estrae un ampio set di artefatti con "livello di dettaglio successivo" per ognuno dei modelli.
  • Analisi del sentiment: identifica sentiment positivi, negativi e neutri dal parlato e dal testo visivo.

Come è possibile iniziare a usare Azure AI Video Indexer?

Informazioni su come iniziare a usare Azure AI Video Indexer.

Dopo aver configurato, iniziare a usare le informazioni dettagliate e vedere altre guide pratiche.

Conformità, privacy e sicurezza

Nota

L'11 giugno 2020 Microsoft ha annunciato che non venderà la tecnologia di riconoscimento facciale ai dipartimenti di polizia degli Stati Uniti fino a quando non verranno adottate norme rigorose, che tengano conto dei diritti umani. Di conseguenza, i clienti potrebbero non usare funzionalità o funzionalità di riconoscimento facciale incluse nei servizi di intelligenza artificiale di Azure, ad esempio Viso o Video Indexer, se un cliente è o consente l'uso di tali servizi da o per, un reparto di polizia nel Stati Uniti.

Nota

L'accesso alle funzionalità di identificazione, personalizzazione e riconoscimento delle celebrità è limitato in base ai criteri di idoneità e utilizzo per supportare i principi di IA responsabile. Le funzionalità di identificazione, personalizzazione e riconoscimento delle celebrità sono disponibili solo per i clienti e i partner gestiti da Microsoft. Usare il modulo di assunzione riconoscimento del viso per richiedere l'accesso.

Come promemoria importante, è necessario rispettare tutte le leggi applicabili nell'uso di Azure AI Video Indexer e non è possibile usare Azure AI Video Indexer o qualsiasi servizio di Azure in modo da violare i diritti di altri utenti o che potrebbero essere dannosi per altri utenti.

Prima di caricare video/immagine in Azure AI Video Indexer, è necessario disporre di tutti i diritti appropriati per l'uso del video/immagine, tra cui, se richiesto dalla legge, tutti i consensi necessari a utenti singoli (se presenti) nel video/immagine, per l'uso, l'elaborazione e l'archiviazione dei dati in Azure AI Video Indexer e Azure. Alcune giurisdizioni possono imporre specifici requisiti legali per la raccolta, l'elaborazione online e l'archiviazione di determinate categorie di dati, ad esempio i dati biometrici. Prima di usare Azure AI Video Indexer e Azure per l'elaborazione e l'archiviazione di tutti i dati soggetti a requisiti legali speciali, è necessario garantire la conformità ai requisiti legali applicabili all'utente.

Per informazioni sulla conformità, la privacy e la sicurezza in Azure AI Video Indexer, visitare il Centro protezione Microsoft. Per informazioni sugli obblighi relativi alla privacy e sulle procedure di Microsoft per il trattamento e la conservazione dei dati, tra cui come eliminare i propri dati, vedere l'informativa sulla privacy, le condizioni per l'utilizzo dei servizi online e l'addendum sull'elaborazione dati di Microsoft. Usando Azure AI Video Indexer, si accetta di essere vincolati dall'OST, DPA e dall'Informativa sulla privacy.