Condividi tramite


Analizzare i file video e audio con Servizi multimediali di Azure

Logo servizi multimediali v3


Avviso

Servizi multimediali di Azure verrà ritirato il 30 giugno 2024. Per altre informazioni, vedere la Guida al ritiro di AMS.

Importante

Come descrive gli standard di intelligenza artificiale responsabili di Microsoft, Microsoft si impegna a garantire l'equità, la privacy, la sicurezza e la trasparenza rispetto ai sistemi di intelligenza artificiale. Per allinearsi a questi standard, Servizi multimediali di Azure ritira il set di impostazioni di Analizzatore video il 14 settembre 2023. Questo set di impostazioni consente attualmente di estrarre più informazioni video e audio da un file video. I clienti possono sostituire i flussi di lavoro correnti usando il set di funzionalità più avanzato offerto da Azure Video Indexer.

Servizi multimediali consente di estrarre informazioni dettagliate dai file video e audio usando i set di impostazioni di analizzatore audio e video. Questo articolo descrive i set di impostazioni di analizzatore usati per estrarre informazioni dettagliate. Per informazioni dettagliate sui video, usare il servizio Azure Video Indexer. Per comprendere quando usare Gli analizzatori di Video Indexer e Media Services, vedere il documento di confronto.

Esistono due modalità per il set di impostazioni di Audio Analyzer, basic e standard. Vedere la descrizione delle differenze nella tabella seguente.

Per analizzare il contenuto usando i set di impostazioni di Servizi multimediali v3, creare un processo e inviare un processo che usa uno di questi set di impostazioni: VideoAnalyzerPreset o AudioAnalyzerPreset.

Nota

AudioAnalyzerPreset non è supportato se l'account di archiviazione non ha accesso alla rete pubblica.

Conformità, privacy e sicurezza

È necessario rispettare tutte le leggi applicabili nell'uso di Video Indexer e non è possibile usare Video Indexer o qualsiasi altro servizio di Azure in modo che viola i diritti di altri utenti o possa essere dannoso per altri utenti. Per poter caricare video, inclusi dati biometrici, nel servizio Video Indexer per elaborarli e archiviarli, è necessario disporre di tutti i diritti appropriati, inclusi tutti i consensi appropriati delle persone che compaiono nel video. Per informazioni sulla conformità, la privacy e la sicurezza in Video Indexer, le condizioni di Servizi cognitivi di Azure. Per gli obblighi di privacy e la gestione dei dati di Microsoft, esaminare l'informativa sulla privacy di Microsoft, le condizioni dei servizi online ("OST") e l'addendum per l'elaborazione dei dati ("DPA"). Altre informazioni sulla privacy, tra cui la conservazione dei dati, l'eliminazione/distruzione, sono disponibili nell'OST. Usando Video Indexer, si accetta di essere vincolato dalle condizioni dei servizi cognitivi, dall'OST, dalla DPA e dall'informativa sulla privacy.

Set di impostazioni predefiniti

Attualmente Servizi multimediali supporta i set di impostazioni di analisi predefiniti seguenti:

Nome set di impostazioni Scenario/modalità Dettagli
AudioAnalyzerPreset Analisi della modalità audio Standard Il set di impostazioni applica un set predefinito di operazioni di analisi basate su intelligenza artificiale, tra cui la trascrizione del parlato. Attualmente, il set di impostazioni supporta l'elaborazione del contenuto con una singola traccia audio che contiene il parlato in una sola lingua. Specificare la lingua per il payload audio nell'input usando il formato BCP-47 di 'language tag-region'. Per i codici linguistici disponibili, vedere l'elenco delle lingue supportate di seguito. Il rilevamento automatico della lingua sceglie la prima lingua rilevata e continua con la lingua selezionata per l'intero file se non è impostata o impostata su Null. La funzionalità di rilevamento automatico della lingua supporta attualmente: inglese, cinese, francese, tedesco, italiano, giapponese, spagnolo, russo e portoghese brasiliano. Non supporta il passaggio dinamico tra le lingue dopo che viene rilevata la prima lingua. La funzionalità di rilevamento automatico della lingua funziona in modo ottimale con registrazioni audio con parlato facilmente comprensibile. Se il rilevamento automatico della lingua non riesce a trovare la lingua, la trascrizione torna all'inglese.
AudioAnalyzerPreset Analisi della modalità di base audio Questa modalità predefinita esegue la trascrizione vocale e la generazione di un file di sottotitolo/didascalia VTT. L'output di questa modalità include un file JSON insights, inclusi solo le parole chiave, la trascrizione e le informazioni sulla tempistica. Il rilevamento automatico della lingua e la diarizzazione dell'altoparlante non sono inclusi in questa modalità. L'elenco delle lingue supportate è identico alla modalità Standard precedente.
VideoAnalyzerPreset Analisi di audio e video Estrae informazioni cognitive dettagliate (metadati avanzati) da audio e video e restituisce un file in formato JSON. È possibile specificare se si vogliono estrarre solo informazioni dettagliate sull'audio durante l'elaborazione di un file video.
FaceDetectorPreset Rilevamento dei visi presenti nel video Descrive le impostazioni da usare durante l'analisi di un video per rilevare tutti i visi presenti.

Nota

AudioAnalyzerPreset non è supportato se l'account di archiviazione non ha accesso alla rete pubblica.

Linguaggi supportati

  • Arabo ('ar-BH', 'ar-EG', 'ar-IQ', 'ar-JO', 'ar-KW', 'ar-LB', 'ar-OM', 'ar-QA', 'ar-SA' e 'ar-SY')
  • Portoghese brasiliano ('pt-BR')
  • Cinese ('zh-CN')
  • Danese('da-DK')
  • Inglese ('en-US', 'en-GB' e 'en-AU')
  • Finlandese ('fi-FI')
  • Francese ('fr-FR' e 'fr-CA')
  • Tedesco ('de-DE')
  • Ebraico (he-IL)
  • Hindi ('hi-IN'), coreano ('ko-KR')
  • Italiano ('it-IT')
  • Giapponese ('ja-JP')
  • Norvegese ('nb-NO')
  • Persiano ('fa-IR')
  • Portogallo portoghese ('pt-PT')
  • Russo ('ru-UR')
  • Spagnolo ('es-ES' e 'es-MX')
  • Svedese ('sv-SE')
  • Thai ('th-TH')
  • Turco ('tr-TR')

Nota

AudioAnalyzerPreset non è supportato se l'account di archiviazione non ha accesso alla rete pubblica.

Modalità standard AudioAnalyzerPreset

Il set di impostazioni consente di estrarre informazioni dettagliate sui contenuti audio da un file audio o video.

L'output include un file in formato JSON, con tutte le informazioni dettagliate, e un file in formato VTT per la trascrizione dell'audio. Questo set di impostazioni accetta una proprietà che specifica la lingua del file di input sotto forma di stringa BCP47. Le informazioni dettagliate sui contenuti audio includono:

  • Trascrizione audio: trascrizione delle parole pronunciate con timestamp. Sono supportate più lingue.
  • Parole chiave: parole chiave estratte dalla trascrizione audio.

Modalità di base AudioAnalyzerPreset

Il set di impostazioni consente di estrarre informazioni dettagliate sui contenuti audio da un file audio o video.

L'output include un file JSON e un file VTT per la trascrizione audio. Questo set di impostazioni accetta una proprietà che specifica la lingua del file di input sotto forma di stringa BCP47. L'output include:

  • Trascrizione audio: trascrizione delle parole pronunciate con timestamp. Sono supportate più lingue, ma il rilevamento automatico della lingua e la diarizzazione dell'altoparlante non sono inclusi.
  • Parole chiave: parole chiave estratte dalla trascrizione audio.

VideoAnalyzerPreset

Il set di impostazioni consente di estrarre da un file video più informazioni dettagliate sui contenuti audio e video. L'output include un file in formato JSON, con tutte le informazioni dettagliate, un file in formato VTT per la trascrizione del video e una raccolta di anteprime. Anche questo set di impostazioni accetta come proprietà una stringa BCP47 che rappresenta la lingua del video. Le informazioni dettagliate video includono tutte le informazioni dettagliate audio menzionate in precedenza e gli elementi aggiuntivi seguenti:

  • Rilevamento viso: tempo durante il quale i visi sono presenti nel video. Ogni viso ha un ID viso e una raccolta corrispondente di anteprime.
  • Testo visivo: il testo rilevato tramite il riconoscimento ottico dei caratteri. Il testo viene timestampato e usato anche per estrarre parole chiave (oltre alla trascrizione audio).
  • Fotogrammi chiave: raccolta di fotogrammi chiave estratti dal video.
  • Moderazione del contenuto visivo: parte dei video contrassegnati come adulti o racy in natura.
  • Annotazione: risultato dell'annotazione dei video in base a un modello a oggetti pre-definito

Elementi di insights.json

L'output include un file JSON (insights.json) con tutte le informazioni dettagliate trovate nel video o nell'audio. Il codice JSON può contenere gli elementi seguenti:

transcript

Nome Descrizione
id ID della riga.
text Testo della trascrizione.
Linguaggio Lingua della trascrizione. Questo elemento è stato progettato per supportare trascrizioni in cui ogni riga può avere una lingua diversa.
instances Elenco degli intervalli di tempo in cui è presente la riga. Se l'istanza è trascrizione, avrà solo un'istanza.

Esempio:

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
]

ocr

Nome Descrizione
id ID della riga di riconoscimento ottico dei caratteri.
text Testo risultante dal riconoscimento ottico dei caratteri.
confidence Grado di attendibilità del riconoscimento.
Linguaggio Lingua del riconoscimento ottico dei caratteri.
instances Elenco degli intervalli di tempo in cui è presente la riga di riconoscimento ottico dei caratteri. La stessa riga può apparire più volte.
"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

faces

Nome Descrizione
id ID del volto.
name Nome del volto. Può essere "Sconosciuto #0", una celebrità identificata o una persona a cui è stato eseguito il training di un cliente.
confidence Grado di attendibilità dell'identificazione del volto.
description Descrizione del personaggio noto.
thumbnailId ID dell'anteprima del volto.
knownPersonId ID interno (se è una persona nota).
referenceId ID Bing (se è una celebrità Bing).
referenceType Attualmente solo Bing.
title Titolo (se è una celebrità, ad esempio "CEO di Microsoft").
imageUrl URL immagine, se è una celebrità.
instances Istanze in cui il viso è apparso nell'intervallo di tempo specificato. Ogni istanza è associata anche un thumbnailsId.
"faces": [{
	"id": 2002,
	"name": "Xam 007",
	"confidence": 0.93844,
	"description": null,
	"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
	"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
	"referenceId": null,
	"title": null,
	"imageUrl": null,
	"instances": [{
		"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
		"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
		"adjustedStart": "00:00:07.2400000",
		"adjustedEnd": "00:00:45.6780000",
		"start": "00:00:07.2400000",
		"end": "00:00:45.6780000"
	},
	{
		"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
		"adjustedStart": "00:10:23.9570000",
		"adjustedEnd": "00:10:39.2390000",
		"start": "00:10:23.9570000",
		"end": "00:10:39.2390000"
	}]
}]

shots

Nome Descrizione
id ID dello scatto.
keyFrames Elenco dei fotogrammi chiave inclusi nello scatto, ciascuno con un ID e un elenco degli intervalli di tempo delle istanze. Le istanze dei fotogrammi chiave hanno un campo thumbnailId con l'ID anteprima del fotogramma chiave.
instances Elenco di intervalli di tempo di questo colpo (i colpi hanno solo un'istanza).
"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
	        "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

statistiche

Nome Descrizione
CorrespondenceCount Numero di corrispondenze nel video.
WordCount Numero di parole per ogni voce.
SpeakerNumberOfFragments Quantità di frammenti della voce in un video.
SpeakerLongestMonolog Monologo più lungo della voce. Se l'altoparlante ha silenzio all'interno del monolog è incluso. I periodi di silenzio all'inizio e alla fine del monologo vengono rimossi.
SpeakerTalkToListenRatio Il calcolo è basato sul tempo impiegato per il monologo della voce (senza i periodi di silenzio intermedi) diviso per il tempo totale del video. Il tempo viene arrotondato alla terza posizione decimale.

Etichette

Nome Descrizione
id ID dell'etichetta.
name Nome dell'etichetta, ad esempio 'Computer' o 'TV'.
Linguaggio Lingua del nome dell'etichetta, quando tradotto. BCP-47
instances Elenco degli intervalli di tempo in cui è presente l'etichetta. La stessa etichetta può apparire più volte. Ogni istanza ha un campo che indica il grado di attendibilità.
"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

keywords

Nome Descrizione
id ID della parola chiave.
text Testo della parola chiave.
confidence Grado di attendibilità del riconoscimento della parola chiave.
Linguaggio Lingua della parola chiave, quando tradotta.
instances Elenco degli intervalli di tempo in cui è presente la parola chiave. La stessa parola chiave può apparire più volte.
"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
]

visualContentModeration

Il blocco visualContentModeration contiene gli intervalli di tempo in cui Video Indexer ha rilevato contenuti potenzialmente per adulti. Se visualContentModeration è vuoto, non è presente alcun contenuto per adulti identificato.

I video in cui vengono rilevati contenuti per adulti o spinti potrebbero essere disponibili solo per la visualizzazione privata. Gli utenti possono inviare una richiesta per una revisione umana del contenuto, nel qual caso l'attributo IsAdult conterrà il risultato della revisione umana.

Nome Descrizione
id ID della moderazione dei contenuti visivi.
adultScore Punteggio contenuti per adulti (dalla moderazione del contenuto).
racyScore Punteggio contenuti spinti (dalla moderazione del contenuto).
instances Elenco degli intervalli di tempo in cui è presente questa moderazione dei contenuti visivi.
"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

Guida e supporto tecnico

È possibile contattare Servizi multimediali con domande o seguire gli aggiornamenti in base a uno dei metodi seguenti: