Analizzare i file video e audio con Servizi multimediali di Azure

Articolo
06/30/2023

Avviso

Servizi multimediali di Azure verrà ritirato il 30 giugno 2024. Per altre informazioni, vedere la Guida al ritiro di AMS.

Importante

Come descrive gli standard di intelligenza artificiale responsabili di Microsoft, Microsoft si impegna a garantire l'equità, la privacy, la sicurezza e la trasparenza rispetto ai sistemi di intelligenza artificiale. Per allinearsi a questi standard, Servizi multimediali di Azure ritira il set di impostazioni di Analizzatore video il 14 settembre 2023. Questo set di impostazioni consente attualmente di estrarre più informazioni video e audio da un file video. I clienti possono sostituire i flussi di lavoro correnti usando il set di funzionalità più avanzato offerto da Azure Video Indexer.

Servizi multimediali consente di estrarre informazioni dettagliate dai file video e audio usando i set di impostazioni di analizzatore audio e video. Questo articolo descrive i set di impostazioni di analizzatore usati per estrarre informazioni dettagliate. Per informazioni dettagliate sui video, usare il servizio Azure Video Indexer. Per comprendere quando usare Gli analizzatori di Video Indexer e Media Services, vedere il documento di confronto.

Esistono due modalità per il set di impostazioni di Audio Analyzer, basic e standard. Vedere la descrizione delle differenze nella tabella seguente.

Per analizzare il contenuto usando i set di impostazioni di Servizi multimediali v3, creare un processo e inviare un processo che usa uno di questi set di impostazioni: VideoAnalyzerPreset o AudioAnalyzerPreset.

Nota

AudioAnalyzerPreset non è supportato se l'account di archiviazione non ha accesso alla rete pubblica.

Conformità, privacy e sicurezza

È necessario rispettare tutte le leggi applicabili nell'uso di Video Indexer e non è possibile usare Video Indexer o qualsiasi altro servizio di Azure in modo che viola i diritti di altri utenti o possa essere dannoso per altri utenti. Per poter caricare video, inclusi dati biometrici, nel servizio Video Indexer per elaborarli e archiviarli, è necessario disporre di tutti i diritti appropriati, inclusi tutti i consensi appropriati delle persone che compaiono nel video. Per informazioni sulla conformità, la privacy e la sicurezza in Video Indexer, le condizioni di Servizi cognitivi di Azure. Per gli obblighi di privacy e la gestione dei dati di Microsoft, esaminare l'informativa sulla privacy di Microsoft, le condizioni dei servizi online ("OST") e l'addendum per l'elaborazione dei dati ("DPA"). Altre informazioni sulla privacy, tra cui la conservazione dei dati, l'eliminazione/distruzione, sono disponibili nell'OST. Usando Video Indexer, si accetta di essere vincolato dalle condizioni dei servizi cognitivi, dall'OST, dalla DPA e dall'informativa sulla privacy.

Set di impostazioni predefiniti

Attualmente Servizi multimediali supporta i set di impostazioni di analisi predefiniti seguenti:

Nome set di impostazioni	Scenario/modalità	Dettagli
AudioAnalyzerPreset	Analisi della modalità audio Standard	Il set di impostazioni applica un set predefinito di operazioni di analisi basate su intelligenza artificiale, tra cui la trascrizione del parlato. Attualmente, il set di impostazioni supporta l'elaborazione del contenuto con una singola traccia audio che contiene il parlato in una sola lingua. Specificare la lingua per il payload audio nell'input usando il formato BCP-47 di 'language tag-region'. Per i codici linguistici disponibili, vedere l'elenco delle lingue supportate di seguito. Il rilevamento automatico della lingua sceglie la prima lingua rilevata e continua con la lingua selezionata per l'intero file se non è impostata o impostata su Null. La funzionalità di rilevamento automatico della lingua supporta attualmente: inglese, cinese, francese, tedesco, italiano, giapponese, spagnolo, russo e portoghese brasiliano. Non supporta il passaggio dinamico tra le lingue dopo che viene rilevata la prima lingua. La funzionalità di rilevamento automatico della lingua funziona in modo ottimale con registrazioni audio con parlato facilmente comprensibile. Se il rilevamento automatico della lingua non riesce a trovare la lingua, la trascrizione torna all'inglese.
AudioAnalyzerPreset	Analisi della modalità di base audio	Questa modalità predefinita esegue la trascrizione vocale e la generazione di un file di sottotitolo/didascalia VTT. L'output di questa modalità include un file JSON insights, inclusi solo le parole chiave, la trascrizione e le informazioni sulla tempistica. Il rilevamento automatico della lingua e la diarizzazione dell'altoparlante non sono inclusi in questa modalità. L'elenco delle lingue supportate è identico alla modalità Standard precedente.
VideoAnalyzerPreset	Analisi di audio e video	Estrae informazioni cognitive dettagliate (metadati avanzati) da audio e video e restituisce un file in formato JSON. È possibile specificare se si vogliono estrarre solo informazioni dettagliate sull'audio durante l'elaborazione di un file video.
FaceDetectorPreset	Rilevamento dei visi presenti nel video	Descrive le impostazioni da usare durante l'analisi di un video per rilevare tutti i visi presenti.

Nota

AudioAnalyzerPreset non è supportato se l'account di archiviazione non ha accesso alla rete pubblica.

Linguaggi supportati

Arabo ('ar-BH', 'ar-EG', 'ar-IQ', 'ar-JO', 'ar-KW', 'ar-LB', 'ar-OM', 'ar-QA', 'ar-SA' e 'ar-SY')
Portoghese brasiliano ('pt-BR')
Cinese ('zh-CN')
Danese('da-DK')
Inglese ('en-US', 'en-GB' e 'en-AU')
Finlandese ('fi-FI')
Francese ('fr-FR' e 'fr-CA')
Tedesco ('de-DE')
Ebraico (he-IL)
Hindi ('hi-IN'), coreano ('ko-KR')
Italiano ('it-IT')
Giapponese ('ja-JP')
Norvegese ('nb-NO')
Persiano ('fa-IR')
Portogallo portoghese ('pt-PT')
Russo ('ru-UR')
Spagnolo ('es-ES' e 'es-MX')
Svedese ('sv-SE')
Thai ('th-TH')
Turco ('tr-TR')

Nota

AudioAnalyzerPreset non è supportato se l'account di archiviazione non ha accesso alla rete pubblica.

Modalità standard AudioAnalyzerPreset

Il set di impostazioni consente di estrarre informazioni dettagliate sui contenuti audio da un file audio o video.

L'output include un file in formato JSON, con tutte le informazioni dettagliate, e un file in formato VTT per la trascrizione dell'audio. Questo set di impostazioni accetta una proprietà che specifica la lingua del file di input sotto forma di stringa BCP47. Le informazioni dettagliate sui contenuti audio includono:

Trascrizione audio: trascrizione delle parole pronunciate con timestamp. Sono supportate più lingue.
Parole chiave: parole chiave estratte dalla trascrizione audio.

Modalità di base AudioAnalyzerPreset

Il set di impostazioni consente di estrarre informazioni dettagliate sui contenuti audio da un file audio o video.

L'output include un file JSON e un file VTT per la trascrizione audio. Questo set di impostazioni accetta una proprietà che specifica la lingua del file di input sotto forma di stringa BCP47. L'output include:

Trascrizione audio: trascrizione delle parole pronunciate con timestamp. Sono supportate più lingue, ma il rilevamento automatico della lingua e la diarizzazione dell'altoparlante non sono inclusi.
Parole chiave: parole chiave estratte dalla trascrizione audio.

VideoAnalyzerPreset

Il set di impostazioni consente di estrarre da un file video più informazioni dettagliate sui contenuti audio e video. L'output include un file in formato JSON, con tutte le informazioni dettagliate, un file in formato VTT per la trascrizione del video e una raccolta di anteprime. Anche questo set di impostazioni accetta come proprietà una stringa BCP47 che rappresenta la lingua del video. Le informazioni dettagliate video includono tutte le informazioni dettagliate audio menzionate in precedenza e gli elementi aggiuntivi seguenti:

Rilevamento viso: tempo durante il quale i visi sono presenti nel video. Ogni viso ha un ID viso e una raccolta corrispondente di anteprime.
Testo visivo: il testo rilevato tramite il riconoscimento ottico dei caratteri. Il testo viene timestampato e usato anche per estrarre parole chiave (oltre alla trascrizione audio).
Fotogrammi chiave: raccolta di fotogrammi chiave estratti dal video.
Moderazione del contenuto visivo: parte dei video contrassegnati come adulti o racy in natura.
Annotazione: risultato dell'annotazione dei video in base a un modello a oggetti pre-definito

Elementi di insights.json

L'output include un file JSON (insights.json) con tutte le informazioni dettagliate trovate nel video o nell'audio. Il codice JSON può contenere gli elementi seguenti:

transcript

Nome	Descrizione
id	ID della riga.
text	Testo della trascrizione.
Linguaggio	Lingua della trascrizione. Questo elemento è stato progettato per supportare trascrizioni in cui ogni riga può avere una lingua diversa.
instances	Elenco degli intervalli di tempo in cui è presente la riga. Se l'istanza è trascrizione, avrà solo un'istanza.

Esempio:

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
]

ocr

Nome	Descrizione
id	ID della riga di riconoscimento ottico dei caratteri.
text	Testo risultante dal riconoscimento ottico dei caratteri.
confidence	Grado di attendibilità del riconoscimento.
Linguaggio	Lingua del riconoscimento ottico dei caratteri.
instances	Elenco degli intervalli di tempo in cui è presente la riga di riconoscimento ottico dei caratteri. La stessa riga può apparire più volte.

"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

faces

Nome	Descrizione
id	ID del volto.
name	Nome del volto. Può essere "Sconosciuto #0", una celebrità identificata o una persona a cui è stato eseguito il training di un cliente.
confidence	Grado di attendibilità dell'identificazione del volto.
description	Descrizione del personaggio noto.
thumbnailId	ID dell'anteprima del volto.
knownPersonId	ID interno (se è una persona nota).
referenceId	ID Bing (se è una celebrità Bing).
referenceType	Attualmente solo Bing.
title	Titolo (se è una celebrità, ad esempio "CEO di Microsoft").
imageUrl	URL immagine, se è una celebrità.
instances	Istanze in cui il viso è apparso nell'intervallo di tempo specificato. Ogni istanza è associata anche un thumbnailsId.

"faces": [{
	"id": 2002,
	"name": "Xam 007",
	"confidence": 0.93844,
	"description": null,
	"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
	"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
	"referenceId": null,
	"title": null,
	"imageUrl": null,
	"instances": [{
		"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
		"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
		"adjustedStart": "00:00:07.2400000",
		"adjustedEnd": "00:00:45.6780000",
		"start": "00:00:07.2400000",
		"end": "00:00:45.6780000"
	},
	{
		"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
		"adjustedStart": "00:10:23.9570000",
		"adjustedEnd": "00:10:39.2390000",
		"start": "00:10:23.9570000",
		"end": "00:10:39.2390000"
	}]
}]

shots

Nome	Descrizione
id	ID dello scatto.
keyFrames	Elenco dei fotogrammi chiave inclusi nello scatto, ciascuno con un ID e un elenco degli intervalli di tempo delle istanze. Le istanze dei fotogrammi chiave hanno un campo thumbnailId con l'ID anteprima del fotogramma chiave.
instances	Elenco di intervalli di tempo di questo colpo (i colpi hanno solo un'istanza).

"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
	        "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

statistiche

Nome	Descrizione
CorrespondenceCount	Numero di corrispondenze nel video.
WordCount	Numero di parole per ogni voce.
SpeakerNumberOfFragments	Quantità di frammenti della voce in un video.
SpeakerLongestMonolog	Monologo più lungo della voce. Se l'altoparlante ha silenzio all'interno del monolog è incluso. I periodi di silenzio all'inizio e alla fine del monologo vengono rimossi.
SpeakerTalkToListenRatio	Il calcolo è basato sul tempo impiegato per il monologo della voce (senza i periodi di silenzio intermedi) diviso per il tempo totale del video. Il tempo viene arrotondato alla terza posizione decimale.

Etichette

Nome	Descrizione
id	ID dell'etichetta.
name	Nome dell'etichetta, ad esempio 'Computer' o 'TV'.
Linguaggio	Lingua del nome dell'etichetta, quando tradotto. BCP-47
instances	Elenco degli intervalli di tempo in cui è presente l'etichetta. La stessa etichetta può apparire più volte. Ogni istanza ha un campo che indica il grado di attendibilità.

"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

keywords

Nome	Descrizione
id	ID della parola chiave.
text	Testo della parola chiave.
confidence	Grado di attendibilità del riconoscimento della parola chiave.
Linguaggio	Lingua della parola chiave, quando tradotta.
instances	Elenco degli intervalli di tempo in cui è presente la parola chiave. La stessa parola chiave può apparire più volte.

"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
]

visualContentModeration

Il blocco visualContentModeration contiene gli intervalli di tempo in cui Video Indexer ha rilevato contenuti potenzialmente per adulti. Se visualContentModeration è vuoto, non è presente alcun contenuto per adulti identificato.

I video in cui vengono rilevati contenuti per adulti o spinti potrebbero essere disponibili solo per la visualizzazione privata. Gli utenti possono inviare una richiesta per una revisione umana del contenuto, nel qual caso l'attributo IsAdult conterrà il risultato della revisione umana.

Nome	Descrizione
id	ID della moderazione dei contenuti visivi.
adultScore	Punteggio contenuti per adulti (dalla moderazione del contenuto).
racyScore	Punteggio contenuti spinti (dalla moderazione del contenuto).
instances	Elenco degli intervalli di tempo in cui è presente questa moderazione dei contenuti visivi.

"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

Guida e supporto tecnico

È possibile contattare Servizi multimediali con domande o seguire gli aggiornamenti in base a uno dei metodi seguenti:

DOMANDE E RISPOSTE
Stack Overflow. Contrassegna le domande con azure-media-services.
@MSFTAzureMedia o usare @AzureSupport per richiedere supporto.
Aprire un ticket di supporto tramite il portale di Azure.

Condividi tramite

Analizzare i file video e audio con Servizi multimediali di Azure

Conformità, privacy e sicurezza

Set di impostazioni predefiniti

Linguaggi supportati

Modalità standard AudioAnalyzerPreset

Modalità di base AudioAnalyzerPreset

VideoAnalyzerPreset

Elementi di insights.json

transcript

ocr

faces

shots

statistiche

Etichette

keywords

visualContentModeration

Guida e supporto tecnico

Risorse aggiuntive