Analizzare file video e audio con Servizi multimediali di Azure
Avvertimento
Servizi multimediali di Azure verrà ritirato il 30 giugno 2024. Per altre informazioni, vedere la Guida al ritiro di AMS .
Importante
Poiché microsoft standard di intelligenza artificiale responsabile delinea, Microsoft si impegna a garantire equità, privacy, sicurezza e trasparenza rispetto ai sistemi di intelligenza artificiale. Per allinearsi a questi standard, Servizi multimediali di Azure ritira il set di impostazioni Video Analyzer il 14 settembre 2023. Questo set di impostazioni consente attualmente di estrarre più informazioni dettagliate video e audio da un file video. I clienti possono sostituire i flussi di lavoro correnti usando il set di funzionalità più avanzato offerto da Azure Video Indexer.
Servizi multimediali consente di estrarre informazioni dettagliate dai file video e audio usando i set di impostazioni dell'analizzatore audio e video. Questo articolo descrive i set di impostazioni dell'analizzatore usati per estrarre informazioni dettagliate. Per ottenere informazioni più dettagliate dai video, usare il servizio Azure Video Indexer. Per comprendere quando usare Video Indexer e i set di impostazioni dell'analizzatore di Servizi multimediali, vedere il documento di confronto .
Sono disponibili due modalità per il set di impostazioni dell'analizzatore audio, di base e standard. Vedere la descrizione delle differenze nella tabella seguente.
Per analizzare il contenuto usando i set di impostazioni di Servizi multimediali v3, creare un Transform di
Nota
AudioAnalyzerPreset non è supportato se l'account di archiviazione non dispone dell'accesso alla rete pubblica.
Conformità, privacy e sicurezza
È necessario rispettare tutte le leggi applicabili nell'uso di Video Indexer e non è possibile usare Video Indexer o qualsiasi altro servizio di Azure in modo che viola i diritti di altri utenti o possa essere dannoso per altri utenti. Prima di caricare tutti i video, inclusi i dati biometrici, nel servizio Video Indexer per l'elaborazione e l'archiviazione, è necessario disporre di tutti i diritti appropriati, inclusi tutti i consenso appropriati, dai singoli utenti nel video. Per informazioni sulla conformità, la privacy e la sicurezza in Video Indexer, le condizioni di Servizi cognitivi di Azure . Per gli obblighi di privacy e la gestione dei dati di Microsoft, vedere l'informativa sulla privacy
Set di impostazioni predefiniti
Servizi multimediali supporta attualmente i set di impostazioni di analizzatore predefiniti seguenti:
nome preimpostato | scenario /modalità | dettagli |
---|---|---|
AudioAnalyzerPreset | Analisi della modalità standard audio | Il set di impostazioni applica un set predefinito di operazioni di analisi basate su intelligenza artificiale, inclusa la trascrizione vocale. Attualmente, il set di impostazioni supporta l'elaborazione del contenuto con una singola traccia audio che contiene la voce in una singola lingua. Specificare la lingua per il payload audio nell'input usando il formato BCP-47 di 'language tag-region'. Vedere l'elenco delle lingue supportate di seguito per i codici linguistici disponibili. Il rilevamento automatico della lingua sceglie la prima lingua rilevata e continua con la lingua selezionata per l'intero file, se non impostata o impostata su Null. La funzionalità di rilevamento automatico della lingua supporta attualmente: inglese, cinese, francese, tedesco, italiano, giapponese, spagnolo, russo e portoghese brasiliano. Non supporta il passaggio dinamico tra le lingue dopo che è stata rilevata la prima lingua. La funzionalità di rilevamento automatico della lingua funziona meglio con le registrazioni audio con riconoscimento vocale chiaramente riconoscibile. Se il rilevamento automatico della lingua non riesce a trovare la lingua, la trascrizione restituisce l'inglese. |
AudioAnalyzerPreset | Analisi della modalità Audio Basic | Questa modalità predefinita esegue la trascrizione vocale e la generazione di un file di sottotitoli/sottotitoli VTT. L'output di questa modalità include un file JSON di Insights che include solo le parole chiave, la trascrizione e le informazioni sulla tempistica. Il rilevamento automatico della lingua e la diarizzazione del parlante non sono inclusi in questa modalità. L'elenco delle lingue supportate è identico alla modalità Standard precedente. |
VideoAnalyzerPreset | Analisi di audio e video | Estrae informazioni dettagliate (metadati avanzati) sia dall'audio che dal video e restituisce un file di formato JSON. È possibile specificare se si vogliono estrarre informazioni dettagliate audio solo durante l'elaborazione di un file video. |
FaceDetectorPreset | Rilevamento dei visi presenti nel video | Descrive le impostazioni da usare durante l'analisi di un video per rilevare tutti i visi presenti. |
Nota
AudioAnalyzerPreset non è supportato se l'account di archiviazione non dispone dell'accesso alla rete pubblica.
Lingue supportate
- Arabo ('ar-BH', 'ar-EG', 'ar-IQ', 'ar-JO', 'ar-KW', 'ar-LB', 'ar-OM', 'ar-QA', 'ar-SA' e 'ar-SY')
- Portoghese brasiliano ('pt-BR')
- Cinese ('zh-CN')
- Danese('da-DK')
- Inglese ('en-US', 'en-GB' e 'en-AU')
- Finlandese ('fi-FI')
- Francese ('fr-FR' e 'fr-CA')
- Tedesco ('de-DE')
- Ebraico (he-IL)
- Hindi ('hi-IN'), coreano ('ko-KR')
- Italiano ('it-IT')
- Giapponese ('ja-JP')
- Norvegese ('nb-NO')
- Persiano ('fa-IR')
- Portoghese portoghese ('pt-PT')
- Russo ('ru-RU')
- Spagnolo ('es-ES' e 'es-MX')
- Svedese ('sv-SE')
- Thai ('th-TH')
- Turco ('tr-TR')
Nota
AudioAnalyzerPreset non è supportato se l'account di archiviazione non dispone dell'accesso alla rete pubblica.
Modalità standard AudioAnalyzerPreset
Il set di impostazioni consente di estrarre più informazioni dettagliate audio da un file audio o video.
L'output include un file JSON (con tutte le informazioni dettagliate) e un file VTT per la trascrizione audio. Questo set di impostazioni accetta una proprietà che specifica la lingua del file di input sotto forma di stringa BCP47. Le informazioni dettagliate audio includono:
- trascrizione audio: trascrizione delle parole pronunciate con timestamp. Sono supportate più lingue.
- Parole chiave: parole chiave estratte dalla trascrizione audio.
Modalità di base AudioAnalyzerPreset
Il set di impostazioni consente di estrarre più informazioni dettagliate audio da un file audio o video.
L'output include un file JSON e un file VTT per la trascrizione audio. Questo set di impostazioni accetta una proprietà che specifica la lingua del file di input sotto forma di stringa BCP47. L'output include:
- trascrizione audio: trascrizione delle parole pronunciate con timestamp. Sono supportate più lingue, ma il rilevamento automatico della lingua e la diarizzazione del parlante non sono inclusi.
- Parole chiave: parole chiave estratte dalla trascrizione audio.
VideoAnalyzerPreset
Il set di impostazioni consente di estrarre più informazioni dettagliate audio e video da un file video. L'output include un file JSON (con tutte le informazioni dettagliate), un file VTT per la trascrizione video e una raccolta di anteprime. Questo set di impostazioni accetta anche una stringa BCP47 (che rappresenta la lingua del video) come proprietà. Le informazioni dettagliate video includono tutte le informazioni dettagliate audio indicate in precedenza e gli elementi aggiuntivi seguenti:
- rilevamento viso: l'ora in cui i visi sono presenti nel video. Ogni viso ha un ID viso e una raccolta corrispondente di anteprime.
- Testo visivo: testo rilevato tramite riconoscimento ottico dei caratteri. Il testo viene timestampato e usato anche per estrarre parole chiave (oltre alla trascrizione audio).
- fotogrammi chiave: raccolta di fotogrammi chiave estratti dal video.
- moderazione del contenuto visivo: parte dei video contrassegnati come adulti o ghiacciati in natura.
- 'annotazione: risultato dell'annotazione dei video in base a un modello a oggetti predefinito
elementi insights.json
L'output include un file JSON (insights.json) con tutte le informazioni dettagliate trovate nel video o nell'audio. Il codice JSON può contenere gli elementi seguenti:
trascrizione
Nome | Descrizione |
---|---|
Id | ID riga. |
Testo | Trascrizione stessa. |
Lingua | Linguaggio di trascrizione. Progettato per supportare la trascrizione in cui ogni riga può avere una lingua diversa. |
Istanze | Elenco di intervalli di tempo in cui è presente questa riga. Se l'istanza è transcript, avrà una sola istanza. |
Esempio:
"transcript": [
{
"id": 0,
"text": "Hi I'm Doug from office.",
"language": "en-US",
"instances": [
{
"start": "00:00:00.5100000",
"end": "00:00:02.7200000"
}
]
},
{
"id": 1,
"text": "I have a guest. It's Michelle.",
"language": "en-US",
"instances": [
{
"start": "00:00:02.7200000",
"end": "00:00:03.9600000"
}
]
}
]
Ocr
Nome | Descrizione |
---|---|
Id | ID riga OCR. |
Testo | Testo OCR. |
fiducia | Attendibilità del riconoscimento. |
Lingua | Linguaggio OCR. |
Istanze | Elenco di intervalli di tempo in cui è presente questo OCR (lo stesso OCR può essere visualizzato più volte). |
"ocr": [
{
"id": 0,
"text": "LIVE FROM NEW YORK",
"confidence": 0.91,
"language": "en-US",
"instances": [
{
"start": "00:00:26",
"end": "00:00:52"
}
]
},
{
"id": 1,
"text": "NOTICIAS EN VIVO",
"confidence": 0.9,
"language": "es-ES",
"instances": [
{
"start": "00:00:26",
"end": "00:00:28"
},
{
"start": "00:00:32",
"end": "00:00:38"
}
]
}
],
Facce
Nome | Descrizione |
---|---|
Id | ID viso. |
nome | Nome del viso. Può essere "Sconosciuto #0", una celebrità identificata o una persona con training da parte di un cliente. |
fiducia | Attendibilità dell'identificazione del viso. |
descrizione | Descrizione della celebrità. |
thumbnailId | ID dell'anteprima del viso. |
knownPersonId | ID interno (se si tratta di una persona nota). |
referenceId | ID Bing (se si tratta di una celebrità Bing). |
referenceType | Attualmente è solo Bing. |
titolo | Titolo (se si tratta di una celebrità, ad esempio "CEO di Microsoft"). |
imageUrl | URL dell'immagine, se si tratta di una celebrità. |
Istanze | Istanze in cui il viso è apparso nell'intervallo di tempo specificato. Ogni istanza ha anche un thumbnailsId. |
"faces": [{
"id": 2002,
"name": "Xam 007",
"confidence": 0.93844,
"description": null,
"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
"referenceId": null,
"title": null,
"imageUrl": null,
"instances": [{
"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
"adjustedStart": "00:00:07.2400000",
"adjustedEnd": "00:00:45.6780000",
"start": "00:00:07.2400000",
"end": "00:00:45.6780000"
},
{
"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
"adjustedStart": "00:10:23.9570000",
"adjustedEnd": "00:10:39.2390000",
"start": "00:10:23.9570000",
"end": "00:10:39.2390000"
}]
}]
Colpi
Nome | Descrizione |
---|---|
Id | ID colpo. |
fotogrammi chiave | Elenco di fotogrammi chiave all'interno dello scatto (ognuno ha un ID e un elenco di intervalli di tempo delle istanze). Le istanze dei fotogrammi chiave hanno un campo thumbnailId con l'ID anteprima del fotogramma chiave. |
Istanze | Un elenco di intervalli di tempo di questo colpo (le riprese hanno una sola istanza). |
"Shots": [
{
"id": 0,
"keyFrames": [
{
"id": 0,
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 00.1670000",
"end": "00: 00: 00.2000000"
}
]
}
],
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 00.2000000",
"end": "00: 00: 05.0330000"
}
]
},
{
"id": 1,
"keyFrames": [
{
"id": 1,
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 05.2670000",
"end": "00: 00: 05.3000000"
}
]
}
],
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 05.2670000",
"end": "00: 00: 10.3000000"
}
]
}
]
statistica
Nome | Descrizione |
---|---|
CorrispondenzaCount | Numero di corrispondenze nel video. |
WordCount | Numero di parole per voce. |
SpeakerNumberOfFragments | Quantità di frammenti che l'altoparlante ha in un video. |
SpeakerLongestMonolog | Monologo più lungo dell'altoparlante. Se l'altoparlante ha silenzi all'interno del monologo, è incluso. Il silenzio all'inizio e la fine del monologo viene rimosso. |
SpeakerTalkToListenRatio | Il calcolo si basa sul tempo trascorso sul monologo dell'altoparlante (senza il silenzio tra) diviso per il tempo totale del video. L'ora viene arrotondata al terzo separatore decimale. |
Etichette
Nome | Descrizione |
---|---|
Id | ID etichetta. |
nome | Nome dell'etichetta (ad esempio, 'Computer', 'TV'). |
Lingua | Lingua del nome dell'etichetta (se tradotta). BCP-47 |
Istanze | Elenco di intervalli di tempo in cui è presente questa etichetta (un'etichetta può essere visualizzata più volte). Ogni istanza ha un campo di confidenza. |
"labels": [
{
"id": 0,
"name": "person",
"language": "en-US",
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 00.0000000",
"end": "00: 00: 25.6000000"
},
{
"confidence": 1.0,
"start": "00: 01: 33.8670000",
"end": "00: 01: 39.2000000"
}
]
},
{
"name": "indoor",
"language": "en-US",
"id": 1,
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 06.4000000",
"end": "00: 00: 07.4670000"
},
{
"confidence": 1.0,
"start": "00: 00: 09.6000000",
"end": "00: 00: 10.6670000"
},
{
"confidence": 1.0,
"start": "00: 00: 11.7330000",
"end": "00: 00: 20.2670000"
},
{
"confidence": 1.0,
"start": "00: 00: 21.3330000",
"end": "00: 00: 25.6000000"
}
]
}
]
Parole chiavi
Nome | Descrizione |
---|---|
Id | ID parola chiave. |
Testo | Testo della parola chiave. |
fiducia | Attendibilità del riconoscimento della parola chiave. |
Lingua | Lingua della parola chiave (se tradotta). |
Istanze | Elenco di intervalli di tempo in cui è presente questa parola chiave (una parola chiave può essere visualizzata più volte). |
"keywords": [
{
"id": 0,
"text": "office",
"confidence": 1.6666666666666667,
"language": "en-US",
"instances": [
{
"start": "00:00:00.5100000",
"end": "00:00:02.7200000"
},
{
"start": "00:00:03.9600000",
"end": "00:00:12.2700000"
}
]
},
{
"id": 1,
"text": "icons",
"confidence": 1.4,
"language": "en-US",
"instances": [
{
"start": "00:00:03.9600000",
"end": "00:00:12.2700000"
},
{
"start": "00:00:13.9900000",
"end": "00:00:15.6100000"
}
]
}
]
visualContentModeration
Il blocco visualContentModeration contiene intervalli di tempo rilevati da Video Indexer per avere potenzialmente contenuto per adulti. Se visualContentModeration è vuoto, non è presente alcun contenuto per adulti identificato.
I video che contengono contenuti per adulti o ghiacciati potrebbero essere disponibili solo per la visualizzazione privata. Gli utenti possono inviare una richiesta di revisione umana del contenuto, nel qual caso l'attributo IsAdult
conterrà il risultato della revisione umana.
Nome | Descrizione |
---|---|
Id | ID di moderazione del contenuto visivo. |
adultScore | Punteggio per adulti (dal moderatore del contenuto). |
racyScore | Punteggio racy (dalla moderazione del contenuto). |
Istanze | Elenco di intervalli di tempo in cui è apparsa la moderazione del contenuto visivo. |
"VisualContentModeration": [
{
"id": 0,
"adultScore": 0.00069,
"racyScore": 0.91129,
"instances": [
{
"start": "00:00:25.4840000",
"end": "00:00:25.5260000"
}
]
},
{
"id": 1,
"adultScore": 0.99231,
"racyScore": 0.99912,
"instances": [
{
"start": "00:00:35.5360000",
"end": "00:00:35.5780000"
}
]
}
]
Ottenere assistenza e supporto tecnico
È possibile contattare Servizi multimediali con domande o seguire gli aggiornamenti in uno dei metodi seguenti:
- Q & A
-
stack overflow. Contrassegna le domande con
azure-media-services
. - @MSFTAzureMedia o usare @AzureSupport per richiedere supporto.
- Aprire un ticket di supporto tramite il portale di Azure.