Condividi tramite


Esercitazione: Eseguire il training di un modello di classificazione senza codice AutoML in studio di Azure Machine Learning

Questa esercitazione descrive come eseguire il training di un modello di classificazione con Machine Learning automatizzato senza codice (AutoML) usando Azure Machine Learning in studio di Azure Machine Learning. Questo modello di classificazione prevede se un cliente sottoscriverà un deposito a termine con un istituto finanziario.

Con ML automatizzato è possibile automatizzare le attività che richiedono molto tempo. L'apprendimento automatico automatizzato esegue rapidamente l'iterazione su numerose combinazioni di algoritmi e iperparametri per aiutare a trovare il modello migliore in base a una metrica di riuscita di propria scelta.

In questa esercitazione non è prevista la scrittura di codice. Usare l'interfaccia di Studio per eseguire il training. Si apprenderà come eseguire le attività seguenti:

  • Creare un'area di lavoro di Machine Learning di Azure
  • Eseguire un esperimento di Machine Learning automatizzato
  • Esplorare i dettagli del modello
  • Distribuire il modello consigliato

Prerequisiti

  • Una sottoscrizione di Azure. Se non si ha una sottoscrizione di Azure, creare un account gratuito.

  • Scaricare il file di dati bank+marketing.zip . Verrà usato il filebank-full.csv . La colonna y indica se un cliente ha effettuato la sottoscrizione di un deposito a termine fisso, che in seguito viene identificata come colonna di destinazione per le stime in questa esercitazione.

    Note

    Questo set di dati Bank Marketing viene reso disponibile con la Licenza Internazionale Creative Commons 4.0. Questo set di dati è disponibile come parte del database di Machine Learning UCI.

    Moro, S., P. Rita, e P. Cortez. 2014. Marketing Bancario. UCI Machine Learning Repository. https://doi.org/10.24432/C5K306.

Creare un'area di lavoro

Un'area di lavoro di Machine Learning è una risorsa cloud fondamentale usata per eseguire gli esperimenti, il training e la distribuzione di modelli di Machine Learning. Collega la sottoscrizione e il gruppo di risorse di Azure a un oggetto di facile utilizzo nel servizio.

Completare la procedura seguente per creare un'area di lavoro e continuare l'esercitazione.

  1. Accedere ad Azure Machine Learning Studio.

  2. Selezionare Crea area di lavoro.

  3. Specificare le informazioni seguenti per configurare la nuova area di lavoro:

    Campo Descrizione
    Nome dell'area di lavoro Immettere un nome univoco che identifichi l'area di lavoro. I nomi devono essere univoci all'interno del gruppo di risorse. Usare un nome facile da ricordare e da distinguere dai nomi delle aree di lavoro create da altri utenti. Il nome dell'area di lavoro non rileva la distinzione tra maiuscole e minuscole.
    Subscription Selezionare la sottoscrizione di Azure da usare.
    Gruppo di risorse Usare un gruppo di risorse esistente nella sottoscrizione oppure immettere un nome per creare un nuovo gruppo di risorse. Un gruppo di risorse include risorse correlate per una soluzione Azure. Per usare un gruppo di risorse esistente, è necessario avere il ruolo di collaboratore o proprietario. Per altre informazioni, vedere Gestire l'accesso a un'area di lavoro di Azure Machine Learning.
    Region Selezionare l'area di Azure più vicina agli utenti e alle risorse di dati in cui creare l'area di lavoro.
  4. Selezionare Crea per creare l'area di lavoro.

Per altre informazioni sulle risorse di Azure, vedere Creare l'area di lavoro.

Per altri modi di creare un'area di lavoro in Azure, Gestire le aree di lavoro di Azure Machine Learning nel portale o con Python SDK (v2).

Creare un processo di Machine Learning automatizzato

Completare la procedura di configurazione ed esecuzione dell'esperimento seguente usando studio di Azure Machine Learning in https://ml.azure.com. Machine Learning Studio è un'interfaccia Web consolidata che include strumenti di Machine Learning per eseguire scenari di data science per i professionisti di data science di tutti i livelli di competenza. Lo studio non è supportato nei browser Internet Explorer.

  1. Selezionare la sottoscrizione e l'area di lavoro create.

  2. Nel riquadro di spostamento, selezionare Creazione>ML automatizzato.

    Poiché questa esercitazione è il primo esperimento di ML automatizzato, vengono visualizzati un elenco vuoto e collegamenti alla documentazione.

    Screenshot che mostra la pagina ML automatizzato in cui è possibile creare un nuovo processo di ML automatizzato.

  3. Selezionare Nuovo processo ML automatizzato.

  4. Nel Metodo di training, selezionare Esegui training automatico, quindi selezionare Avvia configurazione processo.

  5. Nelle Impostazioni di base, selezionare Crea nuovo, quindi per Nome esperimento, immettere my-1st-automl-experiment.

  6. Selezionare Avanti per caricare il set di dati.

Creare e caricare un set di dati come asset di dati

Prima di configurare l'esperimento, caricare il file di dati nell'area di lavoro sotto forma di asset di dati di Azure Machine Learning. Per questa esercitazione, è possibile considerare un asset di dati come un set di dati per il processo di ML automatizzato. In questo modo è possibile assicurarsi che i dati siano formattati in modo appropriato per l'esperimento.

  1. In Tipo di attività e dati, per Seleziona tipo di attività, scegliere Classificazione.

  2. In Seleziona datiscegliere Crea.

    1. Nel modulo Tipo di dati assegnare un nome all'asset di dati e fornire una descrizione facoltativa.

    2. Per Tiposelezionare Tabulare. Attualmente l'interfaccia ML automatizzata supporta solo TabularDatasets.

    3. Selezionare Avanti.

    4. Nel modulo Origine dati selezionare Da file locali. Selezionare Avanti.

    5. Nel tipo di archiviazione di destinazioneselezionare l'archivio dati predefinito configurato automaticamente durante la creazione dell'area di lavoro: workspaceblobstore. Caricare il file di dati in questo percorso per renderlo disponibile nell'area di lavoro.

    6. Selezionare Avanti.

    7. In Selezione di file o cartelle, selezionareCarica file o cartella >Carica file.

    8. Scegliere il file bankmarketing_train.csv nel computer locale. Il file è stato scaricato come prerequisito.

    9. Selezionare Avanti.

      Al termine del caricamento, l'area Anteprima dati viene popolata in base al tipo di file.

    10. Nel modulo Impostazioni esaminare i valori per i dati. Fare quindi clic su Avanti.

      Campo Descrizione Valore per l'esercitazione
      Formato del file Definisce il layout e il tipo di dati archiviati in un file. Delimitato
      Delimitatore Uno o più caratteri per specificare il limite tra aree distinte indipendenti in testo normale o altri flussi di dati. Punto e virgola
      Codifica Identifica la tabella dello schema bit-carattere da usare per leggere il set di dati. UTF-8
      Intestazioni di colonna Indica come verranno considerate le intestazioni del set di dati, se presenti. Tutti i file hanno le stesse intestazioni
      Ignora righe Indica quante righe vengono eventualmente ignorate nel set di dati. Nessuno
    11. Il modulo Schema consente di configurare ulteriormente i dati per questo esperimento. Per questo esempio, selezionare l'interruttore relativo a day_of_week in modo da non includerlo. Selezionare Avanti.

      Screenshot che mostra il modulo Schema in cui è possibile escludere colonne dai dati.

    12. Nel modulo Revisione verificare le informazioni, quindi selezionare Crea.

  3. Selezionare il set di dati dall'elenco.

  4. Esaminare i dati selezionando l'asset di dati e visualizzando la scheda di anteprima. Assicurarsi che non includa day_of_week e selezionare Chiudi.

  5. Selezionare Avanti per passare alle impostazioni dell'attività.

Configurazione del processo

Dopo aver caricato e configurato i dati, è possibile configurare l'esperimento. Questa configurazione include attività di progettazione dell'esperimento, ad esempio la selezione delle dimensioni dell'ambiente di calcolo e la specifica della colonna da stimare.

  1. Popolare il modulo Impostazioni attività come indicato di seguito:

    1. Selezionare y (Stringa) come colonna di destinazione, ovvero l'elemento da stimare. Questa colonna indica se il client ha sottoscritto o meno un deposito a termine.

    2. Selezionare View additional configuration settings (Visualizza altre impostazioni di configurazione) e popolare i campi come indicato di seguito. Queste impostazioni consentono un maggior controllo del processo di training. Altrimenti, vengono applicate le impostazioni predefinite in base alla selezione dell'esperimento e ai dati.

      Configurazioni aggiuntive Descrizione Valore per l'esercitazione
      Primary metric (Metrica principale) Metrica di valutazione usata per misurare l'algoritmo di Machine Learning. AUCWeighted
      Modello esplicativo migliore Mostra automaticamente il modello esplicativo migliore creato da ML automatizzato. Abilitare
      Modelli bloccati Algoritmi da escludere dal processo di training Nessuno
    3. Selezionare Salva.

  2. In Convalida e test:

    1. Per Tipo di convalida, selezionare convalida incrociata k-fold.
    2. Per Numero di convalide incrociate, selezionare 2.
  3. Selezionare Avanti.

  4. Selezionare Cluster di elaborazione come tipo di risorsa di calcolo.

    Una destinazione di calcolo è un ambiente di risorse locale o basato sul cloud usato per eseguire lo script di training o per ospitare la distribuzione del servizio. Per questo esperimento, è possibile provare un ambiente di elaborazione serverless basato sul cloud (anteprima) o creare un ambiente di elaborazione basato sul cloud personalizzato.

    Note

    Per usare l'ambiente di calcolo serverless, abilitare la funzionalità di anteprima, selezionare Serverlesse ignorare questa procedura.

  5. Per creare una destinazione di calcolo personalizzata, in Seleziona tipo di calcolo selezionareCluster di calcolo per configurare la destinazione di calcolo.

  6. Popolare il modulo Macchina virtuale per configurare l'ambiente di calcolo. Selezionare Nuovo.

    Campo Descrizione Valore per l'esercitazione
    Location Area da cui si vuole eseguire il computer West US 2 (Regione Ovest degli Stati Uniti 2)
    Livello macchina virtuale Selezionare la priorità dell'esperimento Dedicato
    Tipo di macchina virtuale Selezionare il tipo di macchina virtuale per il contesto di calcolo. CPU (unità di elaborazione centrale)
    Dimensioni della macchina virtuale Selezionare le dimensioni della macchina virtuale per il contesto di calcolo. È disponibile un elenco di dimensioni consigliate in base al tipo di dati e di esperimento. Standard_DS12_V2
  7. Selezionare Avanti per passare al modulo Impostazioni avanzate.

    Screenshot che mostra la pagina Impostazioni avanzate, in cui si immettono i valori per il cluster di calcolo.

    Campo Descrizione Valore per l'esercitazione
    Nome del calcolo Un nome univoco che identifica il contesto di calcolo. automl-compute
    Nodi min/max Per profilare i dati, è necessario specificare almeno un nodo. Numero minimo di nodi: 1
    Numero massimo di nodi: 6
    Secondi di inattività prima della riduzione Tempo di inattività prima del ridimensionamento automatico del cluster al numero minimo di nodi. 120 (impostazione predefinita)
    Impostazioni avanzate Impostazioni per la configurazione e l'autorizzazione di una rete virtuale per l'esperimento. Nessuno
  8. Selezionare Crea.

    Il completamento della creazione di un ambiente di calcolo può richiedere minuti.

  9. Dopo la creazione, selezionare la nuova destinazione di calcolo dall'elenco. Selezionare Avanti.

  10. Selezionare Invia processo di training per eseguire l'esperimento. All'apertura della schermata Panoramica, lo Stato viene visualizzato nella parte superiore all'inizio la preparazione dell'esperimento. Questo stato viene aggiornato man mano che l'esperimento procede. Le notifiche vengono visualizzate anche in Studio per informare l'utente sullo stato dell'esperimento.

Importante

La preparazione dell'esecuzione dell'esperimento richiede 10-15 minuti. Dopo l'avvio, ogni iterazione richiede almeno 2-3 minuti.

In produzione, è probabile che nell'attesa ci si allontani. Per questa esercitazione, tuttavia, è possibile iniziare a esplorare gli algoritmi testati nella scheda Modelli man mano che vengono completati mentre gli altri continuano a essere eseguiti.

Esplorare i modelli

Passare alla scheda Modelli e processi figlio per visualizzare gli algoritmi (modelli) testati. Per impostazione predefinita, il processo ordina i modelli in base al punteggio delle metriche man mano che vengono completati. Per questa esercitazione, il modello che assegna il punteggio più alto in base alla metrica AUCWeighted scelta è all'inizio dell'elenco.

Mentre si aspetta il completamento di tutti i modelli dell'esperimento, selezionare il nome di algoritmo di un modello completato per esplorare i dettagli delle relative prestazioni. Selezionare le schede Panoramica e Metriche per informazioni sul processo.

L'animazione seguente visualizza le proprietà, le metriche e i grafici delle prestazioni del modello selezionato.

Animazione che mostra diverse visualizzazioni disponibili per un processo figlio.

Visualizzare le spiegazioni del modello

Mentre si attende il completamento dei modelli, è anche possibile esaminare le spiegazioni del modello e vedere quali funzionalità dei dati (non elaborate o progettate) hanno influenzato le stime di un determinato modello.

Queste spiegazioni del modello possono essere generate su richiesta. Il dashboard delle spiegazioni del modello che fa parte della scheda Spiegazioni (anteprima) riepiloga queste spiegazioni.

Per generare spiegazioni del modello:

  1. Nei collegamenti di spostamento nella parte superiore della pagina, selezionare il nome del processo per tornare alla schermata Modelli.

  2. Selezionare la scheda Modelli e processi figlio.

  3. Per questa esercitazione selezionare il primo modello MaxAbsScaler, LightGBM.

  4. Selezionare Spiega modello. A destra viene visualizzato il riquadro Spiegare il modello.

  5. Selezionare il tipo di calcolo, quindi selezionare l'istanza o il cluster: automl-compute creato in precedenza. Questo calcolo avvia un processo figlio per generare le spiegazioni del modello.

  6. Selezionare Crea. Viene visualizzato un messaggio di operazione completata.

    Note

    Il completamento del processo di spiegazione richiede circa 2-5 minuti.

  7. Selezionare Spiegazioni (anteprima). Questa scheda viene popolata al termine dell'esecuzione della spiegazione.

  8. A sinistra, espandere il riquadro. In Funzionalitàselezionare la riga non elaborata.

  9. Selezionare la scheda Importanza della caratteristica di aggregazione. Questo grafico mostra quali caratteristiche dei dati hanno influenzato le previsioni del modello selezionato.

    Screenshot che mostra il dashboard di spiegazione del modello, che mostra un grafico di importanza della caratteristica di aggregazione.

    In questo esempio, la durata sembra avere la maggiore influenza sulle stime di questo modello.

Distribuire il modello migliore

L'interfaccia automatizzata di Machine Learning consente di distribuire il modello migliore come servizio Web. Distribuzione è l'integrazione del modello per consentire la stima su nuovi dati e identificare le potenziali aree di opportunità. Per questo esperimento, attraverso la distribuzione a un servizio Web l'istituto finanziario ha ora una soluzione Web iterativa e scalabile per l'identificazione dei potenziali clienti con deposito a termine fisso.

Verificare se l'esecuzione dell'esperimento è completata. A tale scopo, tornare alla pagina del processo padre selezionando il nome del processo nella parte superiore dello schermo. Viene visualizzato lo stato Completato nella parte superiore sinistra della schermata.

Al termine dell'esecuzione dell'esperimento, la pagina Dettagli viene popolata con una sezione di Riepilogo del modello migliore. In questo contesto di esperimento, VotingEnsemble è considerato il modello migliore, in base alla metrica AUCWeighted.

Distribuire questo modello. Il completamento della distribuzione richiede circa 20 minuti. Il processo di distribuzione comporta diversi passaggi, tra cui la registrazione del modello, la generazione delle risorse e la relativa configurazione per il servizio Web.

  1. Selezionare VotingEnsemble per aprire la pagina specifica del modello.

  2. Selezionare Distribuisci>servizio Web.

  3. Immettere i dati nel riquadro Deploy a model (Distribuisci un modello) in questo modo:

    Campo Valore
    Nome my-automl-deploy
    Descrizione Distribuzione del primo esperimento automatizzato di apprendimento automatico
    Tipo di calcolo Seleziona Istanze di Azure Container
    Abilita autenticazione Disabilitare.
    Usa asset di distribuzione personalizzati Disabilitare. Consente di generare automaticamente il file di driver predefinito (script di assegnazione dei punteggi) e il file dell'ambiente.

    Per questo esempio, usare le impostazioni predefinite fornite nel menu Avanzate.

  4. Selezionare Distribuisci.

    Un messaggio di operazione completata in verde appare nella parte superiore della schermata Processo. Nel riquadro di Riepilogo modello viene visualizzato un messaggio di stato in Stato di distribuzione. Selezionare a intervalli regolari Aggiorna per controllare lo stato della distribuzione.

È disponibile un servizio Web operativo per generare stime.

Passare al Contenuto correlato per altre informazioni su come utilizzare il nuovo servizio Web e testare le previsioni sfruttando il supporto predefinito di Power BI per Azure Machine Learning.

Pulire le risorse

I file di distribuzione sono più grandi dei file di dati e di esperimento e di conseguenza più costosi da archiviare. Se si vuole mantenere l'area di lavoro e i file dell'esperimento, eliminare solo i file di distribuzione per ridurre al minimo i costi per l'account. Se non si prevede di usare alcun file, eliminare l'intero gruppo di risorse.

Eliminare l'istanza di distribuzione

Eliminare solo l'istanza di distribuzione da Azure Machine Learning in https://ml.azure.com/.

  1. Passare ad Azure Machine Learning. Passare all'area di lavoro e nel riquadro Asset selezionare Endpoint.

  2. Selezionare la distribuzione che si vuole eliminare e scegliere Elimina.

  3. Selezionare Continua.

Eliminare il gruppo di risorse.

Importante

Le risorse create possono essere usate come prerequisiti per altre esercitazioni e articoli esplicativi per Azure Machine Learning.

Se non si prevede di usare le risorse create, eliminarle per evitare addebiti:

  1. Nella casella di ricerca del portale di Azure, immettere Gruppi di risorse e selezionarlo nei risultati.

  2. Dell'elenco, selezionare il gruppo di risorse creato.

  3. Nella pagina Panoramica, selezionare Elimina gruppo di risorse.

    Screenshot delle selezioni per l'eliminazione di un gruppo di risorse nel portale di Azure.

  4. Immettere il nome del gruppo di risorse. Selezionare Elimina.

In questa esercitazione di Machine Learning automatizzato è stata usata l'interfaccia di ML automatizzato di Azure Machine Learning per creare e distribuire un modello di classificazione. Per altre informazioni e i passaggi successivi, vedere queste risorse:

Provare Machine Learning automatizzato anche per questi altri tipi di modello: