Estrarre informazioni multimodali con Azure Content Understanding
Azure Content Understanding usa modelli di intelligenza artificiale all'avanguardia per analizzare il contenuto in più formati, tra cui:
- Moduli e documenti basati su testo
- Audio
- Immagini
- Video
Analisi di moduli e documenti
Le funzionalità di analisi dei documenti di Azure Content Understanding vanno oltre la semplice estrazione di testo basata su OCR per includere l'estrazione basata su schema dei campi e i relativi valori.
Si supponga, ad esempio, di definire uno schema che includa i campi comuni in genere presenti in una fattura, ad esempio:
- Nome del fornitore
- Numero fattura
- Data di fattura
- Nome cliente
- Indirizzo personalizzato
- Elementi: gli elementi ordinati, ognuno dei quali include:
- Descrizione elemento
- Prezzo unitario
- Quantità ordinata
- Totale voce
- Subtotale fattura
- Imposta
- Addebito di spedizione
- Totale fattura
Si supponga ora di dover estrarre queste informazioni dalla fattura seguente:
Azure Content Understanding può applicare lo schema della fattura alla fattura e identificare i campi corrispondenti, anche quando vengono etichettati con nomi diversi (o non etichettati affatto). L'analisi risultante produce un risultato simile al seguente:
Per ogni campo rilevato, il valore viene estratto dalla fattura:
- Nome fornitore: Adventure Works Cycles
- Numero fattura: 1234
- Data della fattura: 03/07/2025
- Nome cliente: John Smith
- Indirizzo personalizzato: 123 River Street, Marshtown, Inghilterra, GL1 234
-
Elementi:
- Elemento 1:
- Descrizione articolo: 38" Racing Bike (Rosso)
- Prezzo unitario: 1299,00
- Quantità ordinata: 1
- Totale voce: 1299,00
- Elemento 2:
- Descrizione dell'elemento: Casco ciclistico (nero)
- Prezzo unitario: 25,99
- Quantità ordinata: 1
- Totale voce: 25,99
- Elemento 3:
- Descrizione dell'elemento: Camicia ciclistica (L)
- Prezzo unitario: 42,50
- Quantità ordinata: 2
- Totale voce: 85.00
- Elemento 1:
- Subtotale fattura: 1409.99
- Imposta: 140,99
- Addebito di spedizione: 35.00
- Totale fattura: 1585,98
Analisi dell'audio
Oltre ai documenti basati su testo, Azure Content Understanding è in grado di analizzare i file audio per fornire trascrizioni, riepiloghi e altre informazioni chiave.
Si supponga di voler fare in modo che l'intelligenza artificiale riepiloghi la segreteria telefonica. È possibile definire uno schema di informazioni dettagliate chiave da estrarre da ogni chiamata registrata, come illustrato di seguito:
- Chiamante
- Riepilogo messaggi
- Azioni richieste
- Numero di callback
- Dettagli contatto alternativi
Si supponga ora che un chiamante lasci il messaggio vocale seguente:
Hi, this is Ava from Contoso.
Just calling to follow up on our meeting last week.
I wanted to let you know that I've run the numbers and I think we can meet your price expectations.
Please call me back on 555-12345 or send me an e-mail at Ava@contoso.com and we'll discuss next steps.
Thanks, bye!
L'uso di Azure Content Understanding per analizzare la registrazione audio e applicare lo schema produce i risultati seguenti:
- Chiamante: Ava di Contoso
- Riepilogo del messaggio: Ava di Contoso ha chiamato per seguire una riunione e ha menzionato che possono soddisfare le aspettative di prezzo. Ha richiesto un callback o un messaggio di posta elettronica per discutere i passaggi successivi.
- Azioni richieste: eseguire il callback o inviare un messaggio di posta elettronica per discutere i passaggi successivi.
- Numero di callback: 555-12345
- Dettagli contatto alternativo: Ava@contoso.com
Analisi di immagini e video
Azure Content Understanding supporta l'analisi di immagini e video per estrarre informazioni basate su uno schema personalizzato. Ad esempio, è possibile analizzare le immagini di una videoconferenza per estrarre i dettagli di partecipazione, posizione e altre informazioni.
Si supponga di aver definito lo schema seguente per un'immagine acquisita da un sistema di messaggistica collaborativa che combina partecipanti in sala e partecipanti remoti in un sistema di conferenza telefonica:
- Posizione
- Partecipanti in presenza
- Partecipanti remoti
- Totale partecipanti
È possibile usare Informazioni sul contenuto di Azure per analizzare l'immagine seguente dalla fotocamera della sala riunioni:
Quando si applica lo schema precedente a questa immagine, Azure Content Understanding produce i risultati seguenti:
- Posizione: Sala riunioni
- Partecipanti in presenza: 1
- Partecipanti remoti: 3
- Totale partecipanti: 4
Se invece di analizzare l'immagine statica, si dovesse creare un analizzatore per il video registrato della chiamata; il modello potrebbe includere i conteggi delle presenze a vari intervalli di tempo, i dettagli di chi ha parlato durante la chiamata e ciò che hanno detto, un riepilogo della discussione e un elenco di azioni assegnate durante la riunione.