Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Questo articolo illustra come ottenere informazioni dettagliate sull'estrazione di parole chiave da Azure AI Video Indexer (VI). L'estrazione di parole chiave trova parole chiave importanti nei file multimediali e fornisce informazioni dettagliate sia nei file multimediali in linguaggio singolo che in file multimediali multilingue.
Casi d'uso di estrazione di parole chiave
- Personalizzazione delle parole chiave in base agli interessi dei clienti. Ad esempio, i siti Web relativi all'Inghilterra pubblicano promozioni su film o festival inglesi.
- Ricerca approfondita degli archivi per ottenere informazioni dettagliate su parole chiave specifiche al fine di creare articoli di approfondimento su aziende, personaggi o tecnologie, ad esempio attraverso un'agenzia di stampa.
Visualizzare il codice JSON di informazioni dettagliate con il portale Web
Dopo aver caricato e indicizzato un video, scaricare informazioni dettagliate in formato JSON dal portale Web.
- Selezionare la scheda Libreria .
- Seleziona il supporto che desideri.
- Selezionare Download e quindi Insights (JSON). Il file JSON viene aperto in una nuova scheda del browser.
- Trovare la coppia di chiavi descritta nella risposta di esempio.
Usare l'API
- Usare una richiesta di Get Video Index. Passare
&includeSummarizedInsights=false
. - Trovare le coppie chiave descritte nella risposta di esempio.
Esempio di risposta
"keywords": [
{
"id": 1,
"text": "office insider",
"confidence": 1,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:00:00",
"adjustedEnd": "0:00:05.75",
"start": "0:00:00",
"end": "0:00:05.75"
},
{
"adjustedStart": "0:01:21.82",
"adjustedEnd": "0:01:24.7",
"start": "0:01:21.82",
"end": "0:01:24.7"
},
{
"adjustedStart": "0:01:31.32",
"adjustedEnd": "0:01:32.76",
"start": "0:01:31.32",
"end": "0:01:32.76"
},
{
"adjustedStart": "0:01:35.8",
"adjustedEnd": "0:01:37.84",
"start": "0:01:35.8",
"end": "0:01:37.84"
}
]
},
{
"id": 2,
"text": "insider tip",
"confidence": 0.9975,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:01:14.91",
"adjustedEnd": "0:01:19.51",
"start": "0:01:14.91",
"end": "0:01:19.51"
}
]
}
Importante
Leggi la panoramica della nota di trasparenza per tutte le funzionalità VI. Ogni approfondimento ha anche una propria nota sulla trasparenza.
Note di estrazione di parole chiave
Caricare sempre contenuti audio e video di alta qualità. La dimensione massima consigliata dei fotogrammi è HD e la frequenza dei fotogrammi è di 30 FPS. Un frame non deve contenere più di 10 persone. Quando si generano fotogrammi da video a modelli di intelligenza artificiale, inviare solo circa 2 o 3 fotogrammi al secondo. L'elaborazione di 10 e più fotogrammi potrebbero ritardare il risultato dell'intelligenza artificiale. Per eseguire l'analisi è necessario almeno 1 minuto di parlato colloquiale spontaneo. Gli effetti audio vengono rilevati solo in segmenti non vocali. La durata minima di una sezione non vocale è di 2 secondi. I comandi vocali e il canto non sono supportati.
Componenti di estrazione di parole chiave
Durante la procedura Parole chiave, vengono elaborati audio e immagini in un file multimediale, come indicato di seguito:
Componente | Definizione |
---|---|
Lingua di origine | L'utente carica il file di origine per l'indicizzazione. |
API di trascrizione | Il file audio viene inviato ai servizi di intelligenza artificiale di Azure e viene restituito l'output trascritto tradotto. Se è stata specificata una lingua, viene elaborata. |
OCR del video | Le immagini in un file multimediale vengono elaborate usando l'API di lettura di Visione artificiale di Azure per estrarre testo, posizione e altre informazioni dettagliate. |
Estrazione di parole chiave | Un algoritmo di estrazione elabora l'audio trascritto. I risultati vengono quindi combinati con le informazioni dettagliate rilevate nel video durante il processo OCR. Le parole chiave e il luogo in cui compaiono nei media vengono poi rilevate e identificate. |
Livello di attendibilità | Il livello di attendibilità stimato di ogni parola chiave viene calcolato come intervallo compreso tra 0 e 1. Il punteggio di attendibilità rappresenta la certezza nell'accuratezza del risultato. Ad esempio, una certezza dell'82% è rappresentata come punteggio di 0,82. |
Codice di esempio
Vedere tutti gli esempi per VI