Guida introduttiva: Creare un modello di classificazione delle immagini con il portale di Visione personalizzata

Articolo
01/21/2024

In questo argomento di avvio rapido si apprenderà come usare il portale Web di Visione personalizzata per creare un modello di classificazione delle immagini. Dopo aver compilato un modello, è possibile testarlo con nuove immagini e infine integrarlo nell'app di riconoscimento delle immagini.

Se non si ha una sottoscrizione di Azure, creare un account gratuito prima di iniziare.

Prerequisiti

Set di immagini con cui eseguire il training del modello di classificazione. È possibile usare il set di immagini di esempio in GitHub. In alternativa, è possibile scegliere immagini personalizzate usando i suggerimenti seguenti.
Un Web browser supportato

Creare risorse di Visione personalizzata

Per usare il servizio Visione personalizzata, è necessario creare le risorse Training visione personalizzata e Previsioni visione personalizzata in Azure. A questo scopo, nel portale di Azure completare la finestra di dialogo nella pagina Create Custom Vision (Crea visione personalizzata) per creare una risorsa di training e di previsione.

Crea un nuovo progetto

Nel Web browser passare alla pagina web Visione personalizzata e selezionare Accedi. Accedere con lo stesso account usato per accedere al portale di Azure.

Image of the sign-in page

Per creare il primo progetto, selezionare New Project (Nuovo progetto). Verrà visualizzata la finestra di dialogo Crea nuovo progetto .
Immettere un nome e una descrizione per il progetto. Selezionare quindi la risorsa di training Visione personalizzata. Se l'account connesso è associato a un account Azure, nell'elenco a discesa Risorsa vengono visualizzate tutte le risorse di Azure compatibili.

Nota

Se non è disponibile alcuna risorsa, verificare di aver eseguito l'accesso a customvision.ai con lo stesso account usato per accedere al portale di Azure. Verificare inoltre di aver selezionato nel sito Web di Visione personalizzata la stessa "Directory" corrispondente alla directory del portale di Azure in cui si trovano le risorse di Visione personalizzata. In entrambi i siti è possibile selezionare la directory nel menu a discesa dell'account nell'angolo superiore destro dello schermo.
Selezionare Classificazione in Project Types (Tipi di progetto). In Classification Types (Tipi di classificazione) scegliere quindi Multilabel (Multietichetta) o Multiclass (Multiclasse), a seconda del caso d'uso. La classificazione multietichetta applica un numero qualsiasi di tag a un'immagine (zero o più), mentre la classificazione multiclasse ordina le immagini in categorie singole (ogni immagine inviata verrà ordinata nel tag più probabile). Sarà possibile modificare il tipo di classificazione in un secondo momento, se si desidera.

Selezionare quindi uno dei domini disponibili. Ogni dominio ottimizza il modello per tipi specifici di immagini, come descritto nella tabella seguente. Se lo si desidera, è possibile modificare il dominio in un secondo momento.

Domain	Scopo
Domande generiche	Ottimizzato per un'ampia gamma di attività di classificazione di immagini. Se nessuno degli altri domini risulta appropriato o si è in dubbio sul dominio da scegliere, selezionare il dominio generico.
Food (Cibo)	Ottimizzato per fotografie di piatti come nel menù di un ristorante. Se si vogliono classificare fotografie di singoli frutti o verdure, usare il dominio Food (Cibo).
Landmarks (Luoghi di interesse)	Ottimizzato per i luoghi di interesse riconoscibili, sia naturali che artificiali. Il dominio offre i migliori risultati quando il luogo di interesse è chiaramente visibile nella fotografia. Il dominio è efficace anche se il luogo è leggermente nascosto da utenti posti davanti.
Vendita al dettaglio	Ottimizzato per le immagini che si trovano in un catalogo di vendita o in un sito Web di vendita. Se si vogliono classificare con alta precisione vestiti, pantaloni e magliette o camicie, usare questo dominio.
Domini compatti	Ottimizzati per i vincoli di classificazione in tempo reale su dispositivi mobili. I modelli generati da domini compatti possono essere esportati per l'esecuzione in locale.

Selezionare infine Crea progetto.

Scegliere le immagini di training

Come minimo, è consigliabile usare almeno 30 immagini per ogni tag nel set di training iniziale. È anche opportuno raccogliere alcune immagini aggiuntive per testare il modello dopo il training.

Per eseguire il training del modello in modo efficace, usare le immagini con diversi oggetti visivi. Selezionare immagini diverse per:

angolazione
illuminazione
background
stile visivo
soggetti singoli/raggruppati
size
type

Assicurarsi anche che tutte le immagini di training soddisfino i criteri seguenti:

formato JPG, PNG, BMP o GIF
dimensioni massime pari a 6 MB (4 MB per le immagini per la previsione)
almeno 256 pixel sul bordo più corto. Le immagini più piccole verranno automaticamente ingrandite dal Servizio visione artificiale personalizzato

Caricare e contrassegnare le immagini

In questa sezione si caricano e si assegnano manualmente tag alle immagini per eseguire il training del classificatore.

Per aggiungere immagini, selezionare Aggiungi immagini e quindi selezionare Sfoglia file locali. Selezionare Open (Apri) per passare all'assegnazione di tag. La selezione dei tag viene applicata all'intero gruppo di immagini che hai selezionato per il caricamento, quindi è più facile caricare immagini in gruppi separati in base ai tag applicati. È anche possibile modificare i tag per le singole immagini dopo il caricamento.
Per creare un tag, immettere il testo nel campo My Tags (Tag personali) e premere INVIO. Se il tag esiste già, viene visualizzato in un menu a discesa. In un progetto multietichetta è possibile aggiungere più di un tag alle immagini, ma in un progetto multiclasse è possibile aggiungerne solo uno. Per completare il caricamento delle immagini e contrassegnarle, usare il pulsante Upload [number] files (Carica [numero] file).
Selezionare Fine dopo il caricamento delle immagini.

Per caricare un altro set di immagini, tornare all'inizio di questa sezione e ripetere i passaggi.

Training del classificatore

Per eseguire il training del classificatore, selezionare il pulsante Train (Esegui training). Il classificatore usa tutte le immagini correnti per creare un modello che identifica le qualità visive di ogni tag. Questo processo può richiedere alcuni minuti.

The train button in the top right of the web page's header toolbar

Il processo di training dovrebbe richiedere solo alcuni minuti. Durante questo periodo, vengono visualizzate informazioni sul processo di training nella scheda Prestazioni.

The browser window with a training dialog in the main section

Valutare il classificatore

Al termine del training, le prestazioni del modello vengono stimate e visualizzate. Il servizio Visione personalizzata usa le immagini inviate per il training per calcolare la precisione e il richiamo. Precisione e recupero sono due misure diverse dell'efficacia di un classificatore:

La precisione indica la frazione delle classificazioni identificate corrette. Se ad esempio il modello identificasse 100 immagini come cani e 99 di essi fossero effettivamente cani, la precisione sarebbe del 99%.
Il recupero indica la frazione delle classificazioni effettive identificate correttamente. Se ad esempio fossero effettivamente presenti 100 immagini di mele e il modello ne identificasse 80 come mele, il recupero sarebbe dell'80%.

The training results show the overall precision and recall, and the precision and recall for each tag in the classifier.

Soglia di probabilità

Si noti il dispositivo di scorrimento Probabilità soglia nel riquadro sinistro della scheda Prestazioni . Questo è il livello di attendibilità che una stima deve avere per essere considerata corretta (ai fini del calcolo della precisione e del richiamo).

Quando si interpretano le chiamate di stima con una soglia di probabilità elevata, tendono a restituire risultati con precisione elevata a scapito del richiamo, ovvero le classificazioni rilevate sono corrette, ma molte rimangono non rilevate. Una soglia di probabilità bassa fa l'opposto: la maggior parte delle classificazioni effettive viene rilevata, ma sono presenti più falsi positivi all'interno di tale set. Tenendo presente questo aspetto, è consigliabile impostare la soglia di probabilità in base alle esigenze specifiche del progetto. In seguito, quando si ricevono i risultati della stima sul lato client, è consigliabile usare lo stesso valore di soglia di probabilità usato qui.

Gestire le iterazioni di training

Ogni volta che si esegue il training del classificatore, si crea una nuova iterazione con le metriche delle prestazioni aggiornate. È possibile visualizzare tutte le iterazioni nel riquadro sinistro della scheda Prestazioni . Troverai anche il pulsante Elimina , che puoi usare per eliminare un'iterazione se è obsoleta. Quando si elimina un'iterazione, vengono eliminate anche tutte le immagini associate in modo univoco a tale iterazione.

Per informazioni su come accedere ai modelli sottoposti a training a livello di codice, vedere Usare il modello con l'API Previsioni.

Passaggi successivi

In questa guida introduttiva si è appreso come creare ed eseguire il training di un modello di classificazione delle immagini usando il portale Web di Visione personalizzata. È ora possibile ottenere altre informazioni sul processo iterativo per migliorare il modello.

Testare un modello e ripeterne il training

Che cos'è Visione personalizzata?