Informazioni sulle funzionalità di analisi delle immagini di Visione di Azure
Le funzionalità di analisi delle immagini di Visione di Azure possono essere usate con o senza personalizzazione. Alcune delle funzionalità che non richiedono la personalizzazione includono:
- Descrizione di un'immagine con didascalie
- Rilevamento di oggetti comuni in un'immagine
- Assegnazione di tag alle funzionalità visive
- Riconoscimento ottico dei caratteri
Descrizione di un'immagine con didascalie
Visione di Azure ha la possibilità di analizzare un'immagine, valutarne gli oggetti e generare una descrizione leggibile dell'immagine. Si consideri ad esempio l'immagine seguente:
Azure Vision restituisce la seguente didascalia per quest'immagine.
Una persona che salta su uno skateboard
Rilevamento di oggetti comuni in un'immagine
Visione di Azure può identificare migliaia di oggetti comuni nelle immagini. Ad esempio, quando viene usato per rilevare gli oggetti nell'immagine dello skateboarder illustrata in precedenza, Visione di Azure restituisce le stime seguenti:
- Skateboard (90,40%)
- Persona (95,5%)
Le stime includono un punteggio di attendibilità che indica in che modo il modello è sicuro che ciò che descrive è ciò che è effettivamente nell'immagine.
Oltre alle etichette degli oggetti rilevate e alle relative probabilità, Visione di Azure restituisce le coordinate del rettangolo di delimitazione che indicano la parte superiore, sinistra, larghezza e altezza dell'oggetto rilevato. È possibile usare queste coordinate per determinare dove è stato rilevato ogni oggetto nell'immagine, come illustrato di seguito:
Assegnazione di tag alle funzionalità visive
Visione di Azure può suggerire tag per un'immagine in base al relativo contenuto. I tag sono associati alle immagini come metadati. I tag riepilogano gli attributi dell'immagine. È possibile usare i tag per indicizzare un'immagine insieme a un set di termini chiave per una soluzione di ricerca.
Ad esempio, i tag restituiti per l'immagine dello skateboarder (con punteggi di attendibilità associati) includono:
- sport (99,60%)
- persona (99,56%)
- calzature (98,05%)
- pattinare (96,27%)
- boardsport (95,58%)
- attrezzature per skateboard (94,43%)
- abbigliamento (94.02%)
- muro (93.81%)
- skateboarding (93,78%)
- skateboarder (93,25%)
- sport individuali (92.80%)
- acrobazie su strada (90.81%)
- saldo (90,81%)
- salto (89,87%)
- attrezzature sportive (88,61%)
- sport estremo (88,35%)
- kickflip (88,18%)
- acrobazia (87,27%)
- skateboard (86,87%)
- acrobata (85,83%)
- ginocchio (85,30%)
- sport (85,24%)
- longboard (84,61%)
- andare sul longboard (84,45%)
- cavalcare (73,37%)
- pattinare (67,27%)
- aria (64,83%)
- giovane (63,29%)
- all’aperto (61,39%)
Riconoscimento ottico dei caratteri
Il servizio Visione di Azure può usare funzionalità di riconoscimento ottico dei caratteri (OCR) per rilevare il testo nelle immagini. Si consideri, ad esempio, l'immagine seguente di un'etichetta nutrizionale su un prodotto in un negozio di alimentari:
Il servizio Visione di Azure può analizzare questa immagine ed estrarre il testo seguente:
Nutrition Facts Amount Per Serving
Serving size:1 bar (40g)
Serving Per Package: 4
Total Fat 13g
Saturated Fat 1.5g
Amount Per Serving
Trans Fat 0g
calories 190
Cholesterol 0mg
ories from Fat 110
Sodium 20mg
ntDaily Values are based on
Vitamin A 50
calorie diet
Training di modelli personalizzati
Se i modelli predefiniti forniti da Visione di Azure non soddisfano le proprie esigenze, è possibile usare il servizio per eseguire il training di un modello personalizzato per la classificazione delle immagini o il rilevamento di oggetti. Azure Visione crea modelli personalizzati sul modello di base pre-addestrato, il che significa che è possibile addestrare modelli sofisticati utilizzando relativamente poche immagini di addestramento.
Classificazione delle immagini
Un modello di classificazione delle immagini viene usato per stimare la categoria o la classe di un'immagine. Ad esempio, è possibile eseguire il training di un modello per determinare il tipo di frutta visualizzato in un'immagine, come illustrato di seguito:
| Mela | Banana | Arancione |
|---|---|---|
|
|
|
Rilevamento oggetti
I modelli di rilevamento oggetti rilevano e classificano gli oggetti in un'immagine, restituendo le coordinate del rettangolo di selezione per individuare ogni oggetto. Oltre alle funzionalità predefinite di rilevamento degli oggetti in Visione di Azure, è possibile eseguire il training di un modello di rilevamento oggetti personalizzato con le proprie immagini. Ad esempio, è possibile usare fotografie di frutta per eseguire il training di un modello che rileva più frutti in un'immagine, come illustrato di seguito:
Annotazioni
I dettagli su come usare Visione di Azure per eseguire il training di un modello personalizzato non rientrano nell'ambito di questo modulo. È possibile trovare informazioni sul training di modelli personalizzati nella documentazione di Visione di Azure.
Ora, concentriamoci sulle funzionalità specifiche del servizio Face di Azure Vision.