Condividi tramite


Analizzare file video e audio con Servizi multimediali di Azure

logo di Servizi multimediali v3


Avvertimento

Servizi multimediali di Azure verrà ritirato il 30 giugno 2024. Per altre informazioni, vedere la Guida al ritiro di AMS .

Importante

Poiché microsoft standard di intelligenza artificiale responsabile delinea, Microsoft si impegna a garantire equità, privacy, sicurezza e trasparenza rispetto ai sistemi di intelligenza artificiale. Per allinearsi a questi standard, Servizi multimediali di Azure ritira il set di impostazioni Video Analyzer il 14 settembre 2023. Questo set di impostazioni consente attualmente di estrarre più informazioni dettagliate video e audio da un file video. I clienti possono sostituire i flussi di lavoro correnti usando il set di funzionalità più avanzato offerto da Azure Video Indexer.

Servizi multimediali consente di estrarre informazioni dettagliate dai file video e audio usando i set di impostazioni dell'analizzatore audio e video. Questo articolo descrive i set di impostazioni dell'analizzatore usati per estrarre informazioni dettagliate. Per ottenere informazioni più dettagliate dai video, usare il servizio Azure Video Indexer. Per comprendere quando usare Video Indexer e i set di impostazioni dell'analizzatore di Servizi multimediali, vedere il documento di confronto .

Sono disponibili due modalità per il set di impostazioni dell'analizzatore audio, di base e standard. Vedere la descrizione delle differenze nella tabella seguente.

Per analizzare il contenuto usando i set di impostazioni di Servizi multimediali v3, creare un Transform di e inviare un processo di che usa uno di questi set di impostazioni: VideoAnalyzerPreset o AudioAnalyzerPreset.

Nota

AudioAnalyzerPreset non è supportato se l'account di archiviazione non dispone dell'accesso alla rete pubblica.

Conformità, privacy e sicurezza

È necessario rispettare tutte le leggi applicabili nell'uso di Video Indexer e non è possibile usare Video Indexer o qualsiasi altro servizio di Azure in modo che viola i diritti di altri utenti o possa essere dannoso per altri utenti. Prima di caricare tutti i video, inclusi i dati biometrici, nel servizio Video Indexer per l'elaborazione e l'archiviazione, è necessario disporre di tutti i diritti appropriati, inclusi tutti i consenso appropriati, dai singoli utenti nel video. Per informazioni sulla conformità, la privacy e la sicurezza in Video Indexer, le condizioni di Servizi cognitivi di Azure . Per gli obblighi di privacy e la gestione dei dati di Microsoft, vedere l'informativa sulla privacy microsoft, le condizioni dei servizi online ("OST") e addendum per l'elaborazione dei dati ("DPA"). Altre informazioni sulla privacy, tra cui la conservazione dei dati, l'eliminazione o la distruzione, sono disponibili nell'ost. Usando Video Indexer, l'utente accetta di essere vincolato dalle Condizioni di Servizi cognitivi, ost, DPA e informativa sulla privacy.

Set di impostazioni predefiniti

Servizi multimediali supporta attualmente i set di impostazioni di analizzatore predefiniti seguenti:

nome preimpostato scenario /modalità dettagli
AudioAnalyzerPreset Analisi della modalità standard audio Il set di impostazioni applica un set predefinito di operazioni di analisi basate su intelligenza artificiale, inclusa la trascrizione vocale. Attualmente, il set di impostazioni supporta l'elaborazione del contenuto con una singola traccia audio che contiene la voce in una singola lingua. Specificare la lingua per il payload audio nell'input usando il formato BCP-47 di 'language tag-region'. Vedere l'elenco delle lingue supportate di seguito per i codici linguistici disponibili. Il rilevamento automatico della lingua sceglie la prima lingua rilevata e continua con la lingua selezionata per l'intero file, se non impostata o impostata su Null. La funzionalità di rilevamento automatico della lingua supporta attualmente: inglese, cinese, francese, tedesco, italiano, giapponese, spagnolo, russo e portoghese brasiliano. Non supporta il passaggio dinamico tra le lingue dopo che è stata rilevata la prima lingua. La funzionalità di rilevamento automatico della lingua funziona meglio con le registrazioni audio con riconoscimento vocale chiaramente riconoscibile. Se il rilevamento automatico della lingua non riesce a trovare la lingua, la trascrizione restituisce l'inglese.
AudioAnalyzerPreset Analisi della modalità Audio Basic Questa modalità predefinita esegue la trascrizione vocale e la generazione di un file di sottotitoli/sottotitoli VTT. L'output di questa modalità include un file JSON di Insights che include solo le parole chiave, la trascrizione e le informazioni sulla tempistica. Il rilevamento automatico della lingua e la diarizzazione del parlante non sono inclusi in questa modalità. L'elenco delle lingue supportate è identico alla modalità Standard precedente.
VideoAnalyzerPreset Analisi di audio e video Estrae informazioni dettagliate (metadati avanzati) sia dall'audio che dal video e restituisce un file di formato JSON. È possibile specificare se si vogliono estrarre informazioni dettagliate audio solo durante l'elaborazione di un file video.
FaceDetectorPreset Rilevamento dei visi presenti nel video Descrive le impostazioni da usare durante l'analisi di un video per rilevare tutti i visi presenti.

Nota

AudioAnalyzerPreset non è supportato se l'account di archiviazione non dispone dell'accesso alla rete pubblica.

Lingue supportate

  • Arabo ('ar-BH', 'ar-EG', 'ar-IQ', 'ar-JO', 'ar-KW', 'ar-LB', 'ar-OM', 'ar-QA', 'ar-SA' e 'ar-SY')
  • Portoghese brasiliano ('pt-BR')
  • Cinese ('zh-CN')
  • Danese('da-DK')
  • Inglese ('en-US', 'en-GB' e 'en-AU')
  • Finlandese ('fi-FI')
  • Francese ('fr-FR' e 'fr-CA')
  • Tedesco ('de-DE')
  • Ebraico (he-IL)
  • Hindi ('hi-IN'), coreano ('ko-KR')
  • Italiano ('it-IT')
  • Giapponese ('ja-JP')
  • Norvegese ('nb-NO')
  • Persiano ('fa-IR')
  • Portoghese portoghese ('pt-PT')
  • Russo ('ru-RU')
  • Spagnolo ('es-ES' e 'es-MX')
  • Svedese ('sv-SE')
  • Thai ('th-TH')
  • Turco ('tr-TR')

Nota

AudioAnalyzerPreset non è supportato se l'account di archiviazione non dispone dell'accesso alla rete pubblica.

Modalità standard AudioAnalyzerPreset

Il set di impostazioni consente di estrarre più informazioni dettagliate audio da un file audio o video.

L'output include un file JSON (con tutte le informazioni dettagliate) e un file VTT per la trascrizione audio. Questo set di impostazioni accetta una proprietà che specifica la lingua del file di input sotto forma di stringa BCP47. Le informazioni dettagliate audio includono:

  • trascrizione audio: trascrizione delle parole pronunciate con timestamp. Sono supportate più lingue.
  • Parole chiave: parole chiave estratte dalla trascrizione audio.

Modalità di base AudioAnalyzerPreset

Il set di impostazioni consente di estrarre più informazioni dettagliate audio da un file audio o video.

L'output include un file JSON e un file VTT per la trascrizione audio. Questo set di impostazioni accetta una proprietà che specifica la lingua del file di input sotto forma di stringa BCP47. L'output include:

  • trascrizione audio: trascrizione delle parole pronunciate con timestamp. Sono supportate più lingue, ma il rilevamento automatico della lingua e la diarizzazione del parlante non sono inclusi.
  • Parole chiave: parole chiave estratte dalla trascrizione audio.

VideoAnalyzerPreset

Il set di impostazioni consente di estrarre più informazioni dettagliate audio e video da un file video. L'output include un file JSON (con tutte le informazioni dettagliate), un file VTT per la trascrizione video e una raccolta di anteprime. Questo set di impostazioni accetta anche una stringa BCP47 (che rappresenta la lingua del video) come proprietà. Le informazioni dettagliate video includono tutte le informazioni dettagliate audio indicate in precedenza e gli elementi aggiuntivi seguenti:

  • rilevamento viso: l'ora in cui i visi sono presenti nel video. Ogni viso ha un ID viso e una raccolta corrispondente di anteprime.
  • Testo visivo: testo rilevato tramite riconoscimento ottico dei caratteri. Il testo viene timestampato e usato anche per estrarre parole chiave (oltre alla trascrizione audio).
  • fotogrammi chiave: raccolta di fotogrammi chiave estratti dal video.
  • moderazione del contenuto visivo: parte dei video contrassegnati come adulti o ghiacciati in natura.
  • 'annotazione: risultato dell'annotazione dei video in base a un modello a oggetti predefinito

elementi insights.json

L'output include un file JSON (insights.json) con tutte le informazioni dettagliate trovate nel video o nell'audio. Il codice JSON può contenere gli elementi seguenti:

trascrizione

Nome Descrizione
Id ID riga.
Testo Trascrizione stessa.
Lingua Linguaggio di trascrizione. Progettato per supportare la trascrizione in cui ogni riga può avere una lingua diversa.
Istanze Elenco di intervalli di tempo in cui è presente questa riga. Se l'istanza è transcript, avrà una sola istanza.

Esempio:

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
]

Ocr

Nome Descrizione
Id ID riga OCR.
Testo Testo OCR.
fiducia Attendibilità del riconoscimento.
Lingua Linguaggio OCR.
Istanze Elenco di intervalli di tempo in cui è presente questo OCR (lo stesso OCR può essere visualizzato più volte).
"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

Facce

Nome Descrizione
Id ID viso.
nome Nome del viso. Può essere "Sconosciuto #0", una celebrità identificata o una persona con training da parte di un cliente.
fiducia Attendibilità dell'identificazione del viso.
descrizione Descrizione della celebrità.
thumbnailId ID dell'anteprima del viso.
knownPersonId ID interno (se si tratta di una persona nota).
referenceId ID Bing (se si tratta di una celebrità Bing).
referenceType Attualmente è solo Bing.
titolo Titolo (se si tratta di una celebrità, ad esempio "CEO di Microsoft").
imageUrl URL dell'immagine, se si tratta di una celebrità.
Istanze Istanze in cui il viso è apparso nell'intervallo di tempo specificato. Ogni istanza ha anche un thumbnailsId.
"faces": [{
	"id": 2002,
	"name": "Xam 007",
	"confidence": 0.93844,
	"description": null,
	"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
	"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
	"referenceId": null,
	"title": null,
	"imageUrl": null,
	"instances": [{
		"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
		"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
		"adjustedStart": "00:00:07.2400000",
		"adjustedEnd": "00:00:45.6780000",
		"start": "00:00:07.2400000",
		"end": "00:00:45.6780000"
	},
	{
		"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
		"adjustedStart": "00:10:23.9570000",
		"adjustedEnd": "00:10:39.2390000",
		"start": "00:10:23.9570000",
		"end": "00:10:39.2390000"
	}]
}]

Colpi

Nome Descrizione
Id ID colpo.
fotogrammi chiave Elenco di fotogrammi chiave all'interno dello scatto (ognuno ha un ID e un elenco di intervalli di tempo delle istanze). Le istanze dei fotogrammi chiave hanno un campo thumbnailId con l'ID anteprima del fotogramma chiave.
Istanze Un elenco di intervalli di tempo di questo colpo (le riprese hanno una sola istanza).
"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
	        "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

statistica

Nome Descrizione
CorrispondenzaCount Numero di corrispondenze nel video.
WordCount Numero di parole per voce.
SpeakerNumberOfFragments Quantità di frammenti che l'altoparlante ha in un video.
SpeakerLongestMonolog Monologo più lungo dell'altoparlante. Se l'altoparlante ha silenzi all'interno del monologo, è incluso. Il silenzio all'inizio e la fine del monologo viene rimosso.
SpeakerTalkToListenRatio Il calcolo si basa sul tempo trascorso sul monologo dell'altoparlante (senza il silenzio tra) diviso per il tempo totale del video. L'ora viene arrotondata al terzo separatore decimale.

Etichette

Nome Descrizione
Id ID etichetta.
nome Nome dell'etichetta (ad esempio, 'Computer', 'TV').
Lingua Lingua del nome dell'etichetta (se tradotta). BCP-47
Istanze Elenco di intervalli di tempo in cui è presente questa etichetta (un'etichetta può essere visualizzata più volte). Ogni istanza ha un campo di confidenza.
"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

Parole chiavi

Nome Descrizione
Id ID parola chiave.
Testo Testo della parola chiave.
fiducia Attendibilità del riconoscimento della parola chiave.
Lingua Lingua della parola chiave (se tradotta).
Istanze Elenco di intervalli di tempo in cui è presente questa parola chiave (una parola chiave può essere visualizzata più volte).
"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
]

visualContentModeration

Il blocco visualContentModeration contiene intervalli di tempo rilevati da Video Indexer per avere potenzialmente contenuto per adulti. Se visualContentModeration è vuoto, non è presente alcun contenuto per adulti identificato.

I video che contengono contenuti per adulti o ghiacciati potrebbero essere disponibili solo per la visualizzazione privata. Gli utenti possono inviare una richiesta di revisione umana del contenuto, nel qual caso l'attributo IsAdult conterrà il risultato della revisione umana.

Nome Descrizione
Id ID di moderazione del contenuto visivo.
adultScore Punteggio per adulti (dal moderatore del contenuto).
racyScore Punteggio racy (dalla moderazione del contenuto).
Istanze Elenco di intervalli di tempo in cui è apparsa la moderazione del contenuto visivo.
"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

Ottenere assistenza e supporto tecnico

È possibile contattare Servizi multimediali con domande o seguire gli aggiornamenti in uno dei metodi seguenti: