Analizzare i file video e audio con Servizi multimediali di Azure
Avviso
Servizi multimediali di Azure verrà ritirato il 30 giugno 2024. Per altre informazioni, vedere la Guida al ritiro di AMS.
Importante
Come descrive gli standard di intelligenza artificiale responsabili di Microsoft, Microsoft si impegna a garantire l'equità, la privacy, la sicurezza e la trasparenza rispetto ai sistemi di intelligenza artificiale. Per allinearsi a questi standard, Servizi multimediali di Azure ritira il set di impostazioni di Analizzatore video il 14 settembre 2023. Questo set di impostazioni consente attualmente di estrarre più informazioni video e audio da un file video. I clienti possono sostituire i flussi di lavoro correnti usando il set di funzionalità più avanzato offerto da Azure Video Indexer.
Servizi multimediali consente di estrarre informazioni dettagliate dai file video e audio usando i set di impostazioni di analizzatore audio e video. Questo articolo descrive i set di impostazioni di analizzatore usati per estrarre informazioni dettagliate. Per informazioni dettagliate sui video, usare il servizio Azure Video Indexer. Per comprendere quando usare Gli analizzatori di Video Indexer e Media Services, vedere il documento di confronto.
Esistono due modalità per il set di impostazioni di Audio Analyzer, basic e standard. Vedere la descrizione delle differenze nella tabella seguente.
Per analizzare il contenuto usando i set di impostazioni di Servizi multimediali v3, creare un processo e inviare un processo che usa uno di questi set di impostazioni: VideoAnalyzerPreset o AudioAnalyzerPreset.
Nota
AudioAnalyzerPreset non è supportato se l'account di archiviazione non ha accesso alla rete pubblica.
Conformità, privacy e sicurezza
È necessario rispettare tutte le leggi applicabili nell'uso di Video Indexer e non è possibile usare Video Indexer o qualsiasi altro servizio di Azure in modo che viola i diritti di altri utenti o possa essere dannoso per altri utenti. Per poter caricare video, inclusi dati biometrici, nel servizio Video Indexer per elaborarli e archiviarli, è necessario disporre di tutti i diritti appropriati, inclusi tutti i consensi appropriati delle persone che compaiono nel video. Per informazioni sulla conformità, la privacy e la sicurezza in Video Indexer, le condizioni di Servizi cognitivi di Azure. Per gli obblighi di privacy e la gestione dei dati di Microsoft, esaminare l'informativa sulla privacy di Microsoft, le condizioni dei servizi online ("OST") e l'addendum per l'elaborazione dei dati ("DPA"). Altre informazioni sulla privacy, tra cui la conservazione dei dati, l'eliminazione/distruzione, sono disponibili nell'OST. Usando Video Indexer, si accetta di essere vincolato dalle condizioni dei servizi cognitivi, dall'OST, dalla DPA e dall'informativa sulla privacy.
Set di impostazioni predefiniti
Attualmente Servizi multimediali supporta i set di impostazioni di analisi predefiniti seguenti:
Nome set di impostazioni | Scenario/modalità | Dettagli |
---|---|---|
AudioAnalyzerPreset | Analisi della modalità audio Standard | Il set di impostazioni applica un set predefinito di operazioni di analisi basate su intelligenza artificiale, tra cui la trascrizione del parlato. Attualmente, il set di impostazioni supporta l'elaborazione del contenuto con una singola traccia audio che contiene il parlato in una sola lingua. Specificare la lingua per il payload audio nell'input usando il formato BCP-47 di 'language tag-region'. Per i codici linguistici disponibili, vedere l'elenco delle lingue supportate di seguito. Il rilevamento automatico della lingua sceglie la prima lingua rilevata e continua con la lingua selezionata per l'intero file se non è impostata o impostata su Null. La funzionalità di rilevamento automatico della lingua supporta attualmente: inglese, cinese, francese, tedesco, italiano, giapponese, spagnolo, russo e portoghese brasiliano. Non supporta il passaggio dinamico tra le lingue dopo che viene rilevata la prima lingua. La funzionalità di rilevamento automatico della lingua funziona in modo ottimale con registrazioni audio con parlato facilmente comprensibile. Se il rilevamento automatico della lingua non riesce a trovare la lingua, la trascrizione torna all'inglese. |
AudioAnalyzerPreset | Analisi della modalità di base audio | Questa modalità predefinita esegue la trascrizione vocale e la generazione di un file di sottotitolo/didascalia VTT. L'output di questa modalità include un file JSON insights, inclusi solo le parole chiave, la trascrizione e le informazioni sulla tempistica. Il rilevamento automatico della lingua e la diarizzazione dell'altoparlante non sono inclusi in questa modalità. L'elenco delle lingue supportate è identico alla modalità Standard precedente. |
VideoAnalyzerPreset | Analisi di audio e video | Estrae informazioni cognitive dettagliate (metadati avanzati) da audio e video e restituisce un file in formato JSON. È possibile specificare se si vogliono estrarre solo informazioni dettagliate sull'audio durante l'elaborazione di un file video. |
FaceDetectorPreset | Rilevamento dei visi presenti nel video | Descrive le impostazioni da usare durante l'analisi di un video per rilevare tutti i visi presenti. |
Nota
AudioAnalyzerPreset non è supportato se l'account di archiviazione non ha accesso alla rete pubblica.
Linguaggi supportati
- Arabo ('ar-BH', 'ar-EG', 'ar-IQ', 'ar-JO', 'ar-KW', 'ar-LB', 'ar-OM', 'ar-QA', 'ar-SA' e 'ar-SY')
- Portoghese brasiliano ('pt-BR')
- Cinese ('zh-CN')
- Danese('da-DK')
- Inglese ('en-US', 'en-GB' e 'en-AU')
- Finlandese ('fi-FI')
- Francese ('fr-FR' e 'fr-CA')
- Tedesco ('de-DE')
- Ebraico (he-IL)
- Hindi ('hi-IN'), coreano ('ko-KR')
- Italiano ('it-IT')
- Giapponese ('ja-JP')
- Norvegese ('nb-NO')
- Persiano ('fa-IR')
- Portogallo portoghese ('pt-PT')
- Russo ('ru-UR')
- Spagnolo ('es-ES' e 'es-MX')
- Svedese ('sv-SE')
- Thai ('th-TH')
- Turco ('tr-TR')
Nota
AudioAnalyzerPreset non è supportato se l'account di archiviazione non ha accesso alla rete pubblica.
Modalità standard AudioAnalyzerPreset
Il set di impostazioni consente di estrarre informazioni dettagliate sui contenuti audio da un file audio o video.
L'output include un file in formato JSON, con tutte le informazioni dettagliate, e un file in formato VTT per la trascrizione dell'audio. Questo set di impostazioni accetta una proprietà che specifica la lingua del file di input sotto forma di stringa BCP47. Le informazioni dettagliate sui contenuti audio includono:
- Trascrizione audio: trascrizione delle parole pronunciate con timestamp. Sono supportate più lingue.
- Parole chiave: parole chiave estratte dalla trascrizione audio.
Modalità di base AudioAnalyzerPreset
Il set di impostazioni consente di estrarre informazioni dettagliate sui contenuti audio da un file audio o video.
L'output include un file JSON e un file VTT per la trascrizione audio. Questo set di impostazioni accetta una proprietà che specifica la lingua del file di input sotto forma di stringa BCP47. L'output include:
- Trascrizione audio: trascrizione delle parole pronunciate con timestamp. Sono supportate più lingue, ma il rilevamento automatico della lingua e la diarizzazione dell'altoparlante non sono inclusi.
- Parole chiave: parole chiave estratte dalla trascrizione audio.
VideoAnalyzerPreset
Il set di impostazioni consente di estrarre da un file video più informazioni dettagliate sui contenuti audio e video. L'output include un file in formato JSON, con tutte le informazioni dettagliate, un file in formato VTT per la trascrizione del video e una raccolta di anteprime. Anche questo set di impostazioni accetta come proprietà una stringa BCP47 che rappresenta la lingua del video. Le informazioni dettagliate video includono tutte le informazioni dettagliate audio menzionate in precedenza e gli elementi aggiuntivi seguenti:
- Rilevamento viso: tempo durante il quale i visi sono presenti nel video. Ogni viso ha un ID viso e una raccolta corrispondente di anteprime.
- Testo visivo: il testo rilevato tramite il riconoscimento ottico dei caratteri. Il testo viene timestampato e usato anche per estrarre parole chiave (oltre alla trascrizione audio).
- Fotogrammi chiave: raccolta di fotogrammi chiave estratti dal video.
- Moderazione del contenuto visivo: parte dei video contrassegnati come adulti o racy in natura.
- Annotazione: risultato dell'annotazione dei video in base a un modello a oggetti pre-definito
Elementi di insights.json
L'output include un file JSON (insights.json) con tutte le informazioni dettagliate trovate nel video o nell'audio. Il codice JSON può contenere gli elementi seguenti:
transcript
Nome | Descrizione |
---|---|
id | ID della riga. |
text | Testo della trascrizione. |
Linguaggio | Lingua della trascrizione. Questo elemento è stato progettato per supportare trascrizioni in cui ogni riga può avere una lingua diversa. |
instances | Elenco degli intervalli di tempo in cui è presente la riga. Se l'istanza è trascrizione, avrà solo un'istanza. |
Esempio:
"transcript": [
{
"id": 0,
"text": "Hi I'm Doug from office.",
"language": "en-US",
"instances": [
{
"start": "00:00:00.5100000",
"end": "00:00:02.7200000"
}
]
},
{
"id": 1,
"text": "I have a guest. It's Michelle.",
"language": "en-US",
"instances": [
{
"start": "00:00:02.7200000",
"end": "00:00:03.9600000"
}
]
}
]
ocr
Nome | Descrizione |
---|---|
id | ID della riga di riconoscimento ottico dei caratteri. |
text | Testo risultante dal riconoscimento ottico dei caratteri. |
confidence | Grado di attendibilità del riconoscimento. |
Linguaggio | Lingua del riconoscimento ottico dei caratteri. |
instances | Elenco degli intervalli di tempo in cui è presente la riga di riconoscimento ottico dei caratteri. La stessa riga può apparire più volte. |
"ocr": [
{
"id": 0,
"text": "LIVE FROM NEW YORK",
"confidence": 0.91,
"language": "en-US",
"instances": [
{
"start": "00:00:26",
"end": "00:00:52"
}
]
},
{
"id": 1,
"text": "NOTICIAS EN VIVO",
"confidence": 0.9,
"language": "es-ES",
"instances": [
{
"start": "00:00:26",
"end": "00:00:28"
},
{
"start": "00:00:32",
"end": "00:00:38"
}
]
}
],
faces
Nome | Descrizione |
---|---|
id | ID del volto. |
name | Nome del volto. Può essere "Sconosciuto #0", una celebrità identificata o una persona a cui è stato eseguito il training di un cliente. |
confidence | Grado di attendibilità dell'identificazione del volto. |
description | Descrizione del personaggio noto. |
thumbnailId | ID dell'anteprima del volto. |
knownPersonId | ID interno (se è una persona nota). |
referenceId | ID Bing (se è una celebrità Bing). |
referenceType | Attualmente solo Bing. |
title | Titolo (se è una celebrità, ad esempio "CEO di Microsoft"). |
imageUrl | URL immagine, se è una celebrità. |
instances | Istanze in cui il viso è apparso nell'intervallo di tempo specificato. Ogni istanza è associata anche un thumbnailsId. |
"faces": [{
"id": 2002,
"name": "Xam 007",
"confidence": 0.93844,
"description": null,
"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
"referenceId": null,
"title": null,
"imageUrl": null,
"instances": [{
"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
"adjustedStart": "00:00:07.2400000",
"adjustedEnd": "00:00:45.6780000",
"start": "00:00:07.2400000",
"end": "00:00:45.6780000"
},
{
"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
"adjustedStart": "00:10:23.9570000",
"adjustedEnd": "00:10:39.2390000",
"start": "00:10:23.9570000",
"end": "00:10:39.2390000"
}]
}]
shots
Nome | Descrizione |
---|---|
id | ID dello scatto. |
keyFrames | Elenco dei fotogrammi chiave inclusi nello scatto, ciascuno con un ID e un elenco degli intervalli di tempo delle istanze. Le istanze dei fotogrammi chiave hanno un campo thumbnailId con l'ID anteprima del fotogramma chiave. |
instances | Elenco di intervalli di tempo di questo colpo (i colpi hanno solo un'istanza). |
"Shots": [
{
"id": 0,
"keyFrames": [
{
"id": 0,
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 00.1670000",
"end": "00: 00: 00.2000000"
}
]
}
],
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 00.2000000",
"end": "00: 00: 05.0330000"
}
]
},
{
"id": 1,
"keyFrames": [
{
"id": 1,
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 05.2670000",
"end": "00: 00: 05.3000000"
}
]
}
],
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 05.2670000",
"end": "00: 00: 10.3000000"
}
]
}
]
statistiche
Nome | Descrizione |
---|---|
CorrespondenceCount | Numero di corrispondenze nel video. |
WordCount | Numero di parole per ogni voce. |
SpeakerNumberOfFragments | Quantità di frammenti della voce in un video. |
SpeakerLongestMonolog | Monologo più lungo della voce. Se l'altoparlante ha silenzio all'interno del monolog è incluso. I periodi di silenzio all'inizio e alla fine del monologo vengono rimossi. |
SpeakerTalkToListenRatio | Il calcolo è basato sul tempo impiegato per il monologo della voce (senza i periodi di silenzio intermedi) diviso per il tempo totale del video. Il tempo viene arrotondato alla terza posizione decimale. |
Etichette
Nome | Descrizione |
---|---|
id | ID dell'etichetta. |
name | Nome dell'etichetta, ad esempio 'Computer' o 'TV'. |
Linguaggio | Lingua del nome dell'etichetta, quando tradotto. BCP-47 |
instances | Elenco degli intervalli di tempo in cui è presente l'etichetta. La stessa etichetta può apparire più volte. Ogni istanza ha un campo che indica il grado di attendibilità. |
"labels": [
{
"id": 0,
"name": "person",
"language": "en-US",
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 00.0000000",
"end": "00: 00: 25.6000000"
},
{
"confidence": 1.0,
"start": "00: 01: 33.8670000",
"end": "00: 01: 39.2000000"
}
]
},
{
"name": "indoor",
"language": "en-US",
"id": 1,
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 06.4000000",
"end": "00: 00: 07.4670000"
},
{
"confidence": 1.0,
"start": "00: 00: 09.6000000",
"end": "00: 00: 10.6670000"
},
{
"confidence": 1.0,
"start": "00: 00: 11.7330000",
"end": "00: 00: 20.2670000"
},
{
"confidence": 1.0,
"start": "00: 00: 21.3330000",
"end": "00: 00: 25.6000000"
}
]
}
]
keywords
Nome | Descrizione |
---|---|
id | ID della parola chiave. |
text | Testo della parola chiave. |
confidence | Grado di attendibilità del riconoscimento della parola chiave. |
Linguaggio | Lingua della parola chiave, quando tradotta. |
instances | Elenco degli intervalli di tempo in cui è presente la parola chiave. La stessa parola chiave può apparire più volte. |
"keywords": [
{
"id": 0,
"text": "office",
"confidence": 1.6666666666666667,
"language": "en-US",
"instances": [
{
"start": "00:00:00.5100000",
"end": "00:00:02.7200000"
},
{
"start": "00:00:03.9600000",
"end": "00:00:12.2700000"
}
]
},
{
"id": 1,
"text": "icons",
"confidence": 1.4,
"language": "en-US",
"instances": [
{
"start": "00:00:03.9600000",
"end": "00:00:12.2700000"
},
{
"start": "00:00:13.9900000",
"end": "00:00:15.6100000"
}
]
}
]
visualContentModeration
Il blocco visualContentModeration contiene gli intervalli di tempo in cui Video Indexer ha rilevato contenuti potenzialmente per adulti. Se visualContentModeration è vuoto, non è presente alcun contenuto per adulti identificato.
I video in cui vengono rilevati contenuti per adulti o spinti potrebbero essere disponibili solo per la visualizzazione privata. Gli utenti possono inviare una richiesta per una revisione umana del contenuto, nel qual caso l'attributo IsAdult
conterrà il risultato della revisione umana.
Nome | Descrizione |
---|---|
id | ID della moderazione dei contenuti visivi. |
adultScore | Punteggio contenuti per adulti (dalla moderazione del contenuto). |
racyScore | Punteggio contenuti spinti (dalla moderazione del contenuto). |
instances | Elenco degli intervalli di tempo in cui è presente questa moderazione dei contenuti visivi. |
"VisualContentModeration": [
{
"id": 0,
"adultScore": 0.00069,
"racyScore": 0.91129,
"instances": [
{
"start": "00:00:25.4840000",
"end": "00:00:25.5260000"
}
]
},
{
"id": 1,
"adultScore": 0.99231,
"racyScore": 0.99912,
"instances": [
{
"start": "00:00:35.5360000",
"end": "00:00:35.5780000"
}
]
}
]
Guida e supporto tecnico
È possibile contattare Servizi multimediali con domande o seguire gli aggiornamenti in base a uno dei metodi seguenti:
- DOMANDE E RISPOSTE
-
Stack Overflow. Contrassegna le domande con
azure-media-services
. - @MSFTAzureMedia o usare @AzureSupport per richiedere supporto.
- Aprire un ticket di supporto tramite il portale di Azure.