Estrarre informazioni multimodali con Azure Content Understanding

Completato

Azure Content Understanding usa modelli di intelligenza artificiale all'avanguardia per analizzare il contenuto in più formati, tra cui:

  • Moduli e documenti basati su testo
  • Audio
  • Immagini
  • Video

Analisi di moduli e documenti

Le funzionalità di analisi dei documenti di Azure Content Understanding vanno oltre la semplice estrazione di testo basata su OCR per includere l'estrazione basata su schema dei campi e i relativi valori.

Si supponga, ad esempio, di definire uno schema che includa i campi comuni in genere presenti in una fattura, ad esempio:

  • Nome del fornitore
  • Numero fattura
  • Data di fattura
  • Nome cliente
  • Indirizzo personalizzato
  • Elementi: gli elementi ordinati, ognuno dei quali include:
    • Descrizione elemento
    • Prezzo unitario
    • Quantità ordinata
    • Totale voce
  • Subtotale fattura
  • Imposta
  • Addebito di spedizione
  • Totale fattura

Si supponga ora di dover estrarre queste informazioni dalla fattura seguente:

Fotografia di una fattura.

Azure Content Understanding può applicare lo schema della fattura alla fattura e identificare i campi corrispondenti, anche quando vengono etichettati con nomi diversi (o non etichettati affatto). L'analisi risultante produce un risultato simile al seguente:

Fotografia di una fattura analizzata con i campi rilevati evidenziati.

Per ogni campo rilevato, il valore viene estratto dalla fattura:

  • Nome fornitore: Adventure Works Cycles
  • Numero fattura: 1234
  • Data della fattura: 03/07/2025
  • Nome cliente: John Smith
  • Indirizzo personalizzato: 123 River Street, Marshtown, Inghilterra, GL1 234
  • Elementi:
    • Elemento 1:
      • Descrizione articolo: 38" Racing Bike (Rosso)
      • Prezzo unitario: 1299,00
      • Quantità ordinata: 1
      • Totale voce: 1299,00
    • Elemento 2:
      • Descrizione dell'elemento: Casco ciclistico (nero)
      • Prezzo unitario: 25,99
      • Quantità ordinata: 1
      • Totale voce: 25,99
    • Elemento 3:
      • Descrizione dell'elemento: Camicia ciclistica (L)
      • Prezzo unitario: 42,50
      • Quantità ordinata: 2
      • Totale voce: 85.00
  • Subtotale fattura: 1409.99
  • Imposta: 140,99
  • Addebito di spedizione: 35.00
  • Totale fattura: 1585,98

Analisi dell'audio

Oltre ai documenti basati su testo, Azure Content Understanding è in grado di analizzare i file audio per fornire trascrizioni, riepiloghi e altre informazioni chiave.

Si supponga di voler fare in modo che l'intelligenza artificiale riepiloghi la segreteria telefonica. È possibile definire uno schema di informazioni dettagliate chiave da estrarre da ogni chiamata registrata, come illustrato di seguito:

  • Chiamante
  • Riepilogo messaggi
  • Azioni richieste
  • Numero di callback
  • Dettagli contatto alternativi

Si supponga ora che un chiamante lasci il messaggio vocale seguente:

Hi, this is Ava from Contoso.

Just calling to follow up on our meeting last week.

I wanted to let you know that I've run the numbers and I think we can meet your price expectations.

Please call me back on 555-12345 or send me an e-mail at Ava@contoso.com and we'll discuss next steps.

Thanks, bye!

L'uso di Azure Content Understanding per analizzare la registrazione audio e applicare lo schema produce i risultati seguenti:

  • Chiamante: Ava di Contoso
  • Riepilogo del messaggio: Ava di Contoso ha chiamato per seguire una riunione e ha menzionato che possono soddisfare le aspettative di prezzo. Ha richiesto un callback o un messaggio di posta elettronica per discutere i passaggi successivi.
  • Azioni richieste: eseguire il callback o inviare un messaggio di posta elettronica per discutere i passaggi successivi.
  • Numero di callback: 555-12345
  • Dettagli contatto alternativo: Ava@contoso.com

Analisi di immagini e video

Azure Content Understanding supporta l'analisi di immagini e video per estrarre informazioni basate su uno schema personalizzato. Ad esempio, è possibile analizzare le immagini di una videoconferenza per estrarre i dettagli di partecipazione, posizione e altre informazioni.

Si supponga di aver definito lo schema seguente per un'immagine acquisita da un sistema di messaggistica collaborativa che combina partecipanti in sala e partecipanti remoti in un sistema di conferenza telefonica:

  • Posizione
  • Partecipanti in presenza
  • Partecipanti remoti
  • Totale partecipanti

È possibile usare Informazioni sul contenuto di Azure per analizzare l'immagine seguente dalla fotocamera della sala riunioni:

Fotografia di una persona in una sala riunioni che partecipa a una chiamata con tre partecipanti remoti.

Quando si applica lo schema precedente a questa immagine, Azure Content Understanding produce i risultati seguenti:

  • Posizione: Sala riunioni
  • Partecipanti in presenza: 1
  • Partecipanti remoti: 3
  • Totale partecipanti: 4

Se invece di analizzare l'immagine statica, si dovesse creare un analizzatore per il video registrato della chiamata; il modello potrebbe includere i conteggi delle presenze a vari intervalli di tempo, i dettagli di chi ha parlato durante la chiamata e ciò che hanno detto, un riepilogo della discussione e un elenco di azioni assegnate durante la riunione.