Visione di Azure AI

Completato

Anche se è possibile eseguire il training dei modelli di Machine Learning per la visione artificiale, l'architettura di tali modelli può essere complessa e sono necessari volumi significativi di immagini di training e potenza di calcolo per eseguire il processo di training.

Il servizio Visione di Azure AI di Microsoft offre modelli di visione artificiale predefiniti e personalizzabili basati sul modello di base Florence e varie funzionalità avanzate. Con Visione di Azure AI è possibile creare soluzioni di visione artificiale sofisticate in modo rapido e semplice, sfruttando le funzionalità "off-the-shelf" per molti scenari di visione artificiale comuni, pur mantenendo la possibilità di creare modelli personalizzati usando le proprie immagini.

Risorse di Azure per il servizio Visione di Azure AI

Per usare Visione di Azure AI, è necessario creare una risorsa per il servizio nella sottoscrizione di Azure. È possibile usare uno dei tipi di risorse seguenti:

  • Visione di Azure AI: risorsa specifica per il servizio Visione di Azure AI. Usare questo tipo di risorsa se non si prevede di usare altri servizi di Azure AI o se si vuole tenere traccia separatamente dell'utilizzo e dei costi per la risorsa Visione di Azure AI.
  • Servizi di Azure AI: risorsa generale che include Visione di Azure AI insieme a molti altri servizi di Azure AI, ad esempio Lingua di Azure AI, Visione personalizzata di Azure AI, Traduttore per Azure AI e altri. Usare questo tipo di risorsa se si prevede di usare più servizi di intelligenza artificiale e si vogliono semplificare l'amministrazione e lo sviluppo.

Analisi delle immagini con il servizio Visione di Azure AI

Dopo aver creato una risorsa appropriata nella sottoscrizione, è possibile inviare immagini al servizio Visione di Azure AI per eseguire un'ampia gamma di attività analitiche.

Visione di Azure AI supporta più funzionalità di analisi delle immagini, tra cui:

  • Riconoscimento ottico dei caratteri (OCR): estrazione di testo dalle immagini.
  • Generazione di didascalie e descrizioni delle immagini.
  • Rilevamento di migliaia di oggetti comuni nelle immagini.
  • Aggiunta di tag alle funzionalità visive nelle immagini

Queste attività e altro ancora possono essere eseguite in Studio di Visione di Azure AI.

Screenshot of Vision Studio.

Riconoscimento ottico dei caratteri

Il servizio Visione di Azure AI è in grado di usare le funzionalità di riconoscimento ottico dei caratteri (OCR) per rilevare il testo nelle immagini. Si consideri, ad esempio, l'immagine seguente di un'etichetta nutrizionale su un prodotto in un negozio di alimentari:

Diagram of a nutrition label.

Il servizio Visione di Azure AI è in grado di analizzare questa immagine ed estrarre il testo seguente:

Nutrition Facts Amount Per Serving
Serving size:1 bar (40g)
Serving Per Package: 4
Total Fat 13g
Saturated Fat 1.5g
Amount Per Serving
Trans Fat 0g
calories 190
Cholesterol 0mg
ories from Fat 110
Sodium 20mg
ntDaily Values are based on
Vitamin A 50
calorie diet

Suggerimento

È possibile approfondire la conoscenza delle funzionalità OCR di Visione di Azure AI nel modulo Leggere un testo con Visione di Azure AI in Microsoft Learn.

Descrizione di un'immagine con didascalie

Visione di Azure AI è in grado di analizzare un'immagine, valutare gli oggetti rilevati e generare una frase leggibile che può descrivere ciò che è stato rilevato nell'immagine. Ad esempio, si consideri l'immagine seguente:

Diagram of a man on a skateboard.

Visione di Azure AI restituisce la didascalia seguente per questa immagine:

Un uomo che salta su uno skateboard

Rilevamento di oggetti comuni in un'immagine

Visione di Azure AI è in grado d identificare migliaia di oggetti comuni nelle immagini. Ad esempio, quando viene usato per rilevare gli oggetti nell'immagine dello skateboarder descritta in precedenza, Visione di Azure AI restituisce le stime seguenti:

  • Skateboard (90,40%)
  • Persona (95,5%)

Le previsioni includono un punteggio di attendibilità che indica la probabilità calcolata dal modello per gli oggetti stimati.

Oltre alle etichette degli oggetti rilevati e alle relative probabilità, Visione di Azure AI restituisce le coordinate del rettangolo di selezione che indicano parte superiore, sinistra, larghezza e altezza dell'oggetto rilevato. È possibile usare queste coordinate per determinare la posizione nell'immagine di ciascun oggetto rilevato, come nel caso seguente:

Diagram of a skateboarder with bounding boxes around detected objects.

Assegnazione di tag alle funzionalità visive

Visione di Azure AI è in grado di suggerire tag per un'immagine in base al relativo contenuto. Questi tag possono essere associati all'immagine come metadati che riassumono gli attributi dell'immagine e possono essere utili se si vuole indicizzare un'immagine insieme a un set di termini chiave che potrebbero essere usati per cercare immagini con attributi o contenuti specifici.

Ad esempio, tra i tag restituiti per l'immagine dello skateboarder (con i relativi punteggi di attendibilità) sono inclusi:

  • sport (99,60%)
  • persona (99,56%)
  • calzature (98,05%)
  • pattinare (96,27%)
  • boardsport (95,58%)
  • attrezzature per skateboard (94,43%)
  • abbigliamento (94,02%)
  • parete (93,81%)
  • andare sullo skateboard (93,78%)
  • skateboarder (93,25%)
  • sport individuali (92,80%)
  • acrobazie in strada (90,81%)
  • equilibrio (90,81%)
  • salto (89,87%)
  • attrezzature sportive (88,61%)
  • sport estremo (88,35%)
  • kickflip (88,18%)
  • acrobazia (87,27%)
  • skateboard (86,87%)
  • acrobata (85,83%)
  • ginocchio (85,30%)
  • sport (85,24%)
  • longboard (84,61%)
  • andare sul longboard (84,45%)
  • cavalcare (73,37%)
  • pattinare (67,27%)
  • aria (64,83%)
  • giovane (63,29%)
  • all’aperto (61,39%)

Eseguire il training di modelli personalizzati

Se i modelli predefiniti forniti da Visione di Azure AI non soddisfano le proprie esigenze, è possibile usare il servizio per eseguire il training di un modello personalizzato per la classificazione delle immagini o il rilevamento di oggetti. Visione di Azure AI crea modelli personalizzati a partire dal modello di base con training preliminare, il che significa che è possibile eseguire il training di modelli sofisticati usando un numero relativamente basso di immagini di training.

Classificazione immagini

Un modello di classificazione delle immagini viene usato per stimare la categoria o la classe di un'immagine. Ad esempio, è possibile eseguire il training di un modello per determinare il tipo di frutta visualizzato in un'immagine, come illustrato di seguito:

Apple Banana Orange
Diagram of an apple. Diagram of a banana. Diagram of an orange.

Rilevamento oggetti

I modelli di rilevamento oggetti rilevano e classificano gli oggetti in un'immagine, restituendo le coordinate del rettangolo di selezione per individuare ogni oggetto. In aggiunta alle funzionalità predefinite di rilevamento degli oggetti in Visione di Azure AI, è possibile eseguire il training di un modello di rilevamento oggetti personalizzato con le proprie immagini. Ad esempio, è possibile usare fotografie di frutta per eseguire il training di un modello che rileva più frutti in un'immagine, come illustrato di seguito:

Diagram of multiple detected fruits in an image.

Nota

I dettagli su come usare Visione di Azure AI per eseguire il training di un modello personalizzato non rientrano nell'ambito di questo modulo. È possibile trovare informazioni sul training di modelli personalizzati nella documentazione di Visione di Azure AI.