Configurare il training AutoML senza codice con l'interfaccia utente di Studio
Questo articolo illustra come configurare i processi di training AutoML senza una singola riga di codice usando Machine Learning automatizzato ml nella studio di Azure Machine Learning.
Machine Learning automatizzato, AutoML, è un processo in cui è selezionato automaticamente l'algoritmo di Machine Learning migliore da usare per i dati specifici. Questo processo consente di generare rapidamente modelli di Machine Learning. Altre informazioni su come Azure Machine Learning implementa l'apprendimento automatico.
Per un esempio end-to-end, provare l'esercitazione: AutoML- eseguire il training di modelli di classificazione senza codice.
Per un'esperienza basata su codice Python, configurare gli esperimenti di Machine Learning automatizzato con l'SDK di Azure Machine Learning.
Prerequisiti
Una sottoscrizione di Azure. Se non si ha una sottoscrizione di Azure, creare un account gratuito prima di iniziare. Provare la versione gratuita o a pagamento di Azure Machine Learning.
Un'area di lavoro di Azure Machine Learning. Vedere Creare risorse dell'area di lavoro.
Introduzione
Accedere ad Azure Machine Learning Studio.
Selezionare la sottoscrizione e l’area di lavoro.
Passare al riquadro sinistro. Selezionare ML automatizzato nella sezione Autore.
Poiché si tratta del primo esperimento, verranno visualizzati un elenco vuoto e collegamenti alla documentazione.
In caso contrario, verrà visualizzato un elenco degli esperimenti di Machine Learning automatizzati recenti, inclusi quelli creati con l'SDK.
Creare ed eseguire l'esperimento
Selezionare + Nuovo processo di Machine Learning automatizzato e popolare il modulo.
Selezionare un asset di dati dal contenitore di archiviazione o creare un nuovo asset di dati. È possibile creare asset di dati da file locali, URL Web, archivi dati o set di dati aperti di Azure. Altre informazioni sulla creazione di asset di dati.
Importante
Requisiti per i dati di training:
- I dati devono essere in formato tabulare.
- Il valore che si desidera prevedere (colonna di destinazione) deve essere presente nei dati.
Per creare un nuovo set di dati da un file nel computer locale, selezionare +Crea set di dati e quindi selezionare Da file locale.
Nel modulo Informazioni di base assegnare al set di dati un nome univoco e fornire una descrizione facoltativa.
Selezionare Avanti per aprire il modulo di selezione file e archivio dati. In questo modulo è possibile selezionare la posizione in cui caricare il set di dati, il contenitore di archiviazione predefinito creato automaticamente con l'area di lavoro o scegliere un contenitore di archiviazione da usare per l'esperimento.
- Se i dati si trova dietro una rete virtuale, è necessario abilitare la funzione di convalida skip per assicurarsi che l'area di lavoro possa accedere ai dati. Per altre informazioni, vedere Usare studio di Azure Machine Learning in una rete virtuale di Azure.
Selezionare Sfoglia per caricare il file di dati per il set di dati.
Esaminare il modulo Impostazioni e anteprima per verificarne l'accuratezza. Il modulo viene popolato in modo intelligente in base al tipo di file.
Campo Descrizione Formato file Definisce il layout e il tipo di dati archiviati in un file. Delimitatore Uno o più caratteri per specificare il limite tra aree distinte indipendenti in testo normale o altri flussi di dati. Codifica Identifica la tabella dello schema bit-carattere da usare per leggere il set di dati. Intestazioni di colonna Indica come verranno considerate le intestazioni del set di dati, se presenti. Ignora righe Indica quante righe vengono eventualmente ignorate nel set di dati. Selezionare Avanti.
Il modulo Schema viene popolato in modo intelligente in base alle selezioni nel modulo Impostazioni e anteprima. Qui è possibile configurare il tipo di dati per ogni colonna, esaminare i nomi delle colonne e selezionare le colonne da non includere per l'esperimento.
Selezionare Avanti.
Il modulo Conferma dettagli è un riepilogo delle informazioni con cui sono stati precedentemente popolati i moduli Info di base e Impostazioni e anteprima. È inoltre possibile creare un profilo dati per il set di dati usando un ambiente di calcolo abilitato per la profilatura. Altre informazioni sulla profilatura dei dati.
Selezionare Avanti.
Selezionare il set di dati appena creato quando viene visualizzato. È anche possibile visualizzare un'anteprima del set di dati e delle statistiche di esempio.
Nel modulo Configura processo selezionareCrea nuovo e immettere Tutorial-automl-deploy per il nome dell'esperimento.
Selezionare una colonna di destinazione. Si tratta della colonna su cui si desidera eseguire le previsioni.
Selezionare un tipo di calcolo per il processo di profilatura e training dei dati. È possibile selezionare un cluster di calcolo o un'istanza di calcolo.
Selezionare un calcolo nell'elenco a discesa dei calcoli esistenti. Per creare un nuovo ambiente di calcolo, seguire le istruzioni riportate nel passaggio 8.
Selezionare Crea un nuovo ambiente di calcolo per configurare il contesto di calcolo per questo esperimento.
Campo Descrizione Nome del calcolo Immettere un nome univoco che identifichi il contesto di calcolo. Priorità della macchina virtuale Le macchine virtuali con priorità bassa sono più economiche, ma non garantiscono i nodi di calcolo. Tipo di macchina virtuale Selezionare CPU o GPU per il tipo di macchina virtuale. Dimensioni della macchina virtuale Selezionare le dimensioni della macchina virtuale per il contesto di calcolo. Nodi min/max Per profilare i dati, è necessario specificare almeno un nodo. Immettere il numero massimo di nodi per l’ambiente di calcolo. Il valore predefinito è 6 nodi per un ambiente di calcolo AzureML. Impostazioni avanzate Queste impostazioni consentono di configurare un account utente e una rete virtuale esistente per l'esperimento. Selezionare Create (Crea). La creazione di un nuovo ambiente di calcolo può richiedere alcuni minuti.
Nota
Il nome dell’ambiente di calcolo indicherà se l’ambiente di calcolo selezionato/creato è abilitato per la profilatura. Per ulteriori informazioni, vedere la sezione Profilatura dei dati.
Selezionare Avanti.
Nel modulo Tipo di attività e impostazioni selezionare il tipo di attività: classificazione, regressione o previsione. Per altre informazioni, vedere Tipi di attività supportati .
Per la classificazione, è anche possibile abilitare l'apprendimento avanzato.
Se l'apprendimento avanzato è abilitato, la convalida è limitata a train_validation divisione. Altre informazioni sulle opzioni di convalida.
Per le previsioni che è possibile,
Abilitare l'apprendimento avanzato.
Selezionare la colonna ora: questa colonna contiene i dati relativi all'ora da usare.
Selezionare l'orizzonte di previsione: indicare il numero di unità temporali (minuti/ore/giorni/settimane/mesi/anni) sarà in grado di prevedere il futuro. È necessario prevedere ulteriormente il modello in futuro, che diventa meno accurato. Altre informazioni sulla previsione e sull'orizzonte di previsione.
(Facoltativo) Visualizzare le impostazioni di configurazione aggiuntive: altre impostazioni che è possibile usare per controllare meglio il processo di training. Altrimenti, vengono applicate le impostazioni predefinite in base alla selezione dell'esperimento e ai dati.
Configurazioni aggiuntive Descrizione Primary metric (Metrica principale) Metrica principale usata per assegnare un punteggio al modello. Altre informazioni sulle metriche dei modelli. Modello esplicativo migliore Selezionare per abilitare o disabilitare, per visualizzare le spiegazioni per il modello consigliato.
Questa funzionalità non è attualmente disponibile per determinati algoritmi di previsione.Algoritmo bloccato Selezionare gli algoritmi da escludere dal processo di training.
L'autorizzazione degli algoritmi è disponibile solo per gli esperimenti SDK.
Vedere gli algoritmi supportati per ogni tipo di attività.Exit criterion (Esci da criterio) Quando uno di questi criteri viene soddisfatto, il processo di training viene arrestato.
Durata del processo di training (ore) : per quanto tempo consentire l'esecuzione del processo di training.
Soglia di punteggio metrica: punteggio minimo della metrica per tutte le pipeline. In questo modo si garantisce che, se si dispone di una metrica di destinazione definita che si desidera raggiungere, non si dedica più tempo del necessario al processo di training.Concorrenza Numero massimo di iterazioni simultanee: numero massimo di pipeline (iterazioni) da testare nel processo di training. Il processo non viene eseguito più volte del numero specificato di iterazioni. Altre informazioni su come machine learning automatizzato esegue più processi figlio nei cluster. (Facoltativo) Visualizzare le impostazioni di funzionalità: se si sceglie di abilitare la funzionalità automatica nel modulo Impostazioni di configurazione aggiuntive , vengono applicate le tecniche di funzionalità predefinite. Nelle impostazioni di funzionalità di visualizzazione è possibile modificare queste impostazioni predefinite e personalizzare di conseguenza. Informazioni su come personalizzare le funzionalità.
Il modulo [Facoltativo] Convalida e test consente di eseguire le operazioni seguenti.
Specificare il tipo di convalida da usare per il processo di training. Altre informazioni sulla convalida incrociata.
- Le attività di previsione supportano solo la convalida incrociata k-fold.
Specificare un set di dati di test (anteprima) per valutare il modello consigliato generato da MACHINE automatizzato alla fine dell'esperimento. Quando si forniscono dati di test, un processo di test viene attivato automaticamente alla fine dell'esperimento. Questo processo di test è solo il processo sul modello migliore consigliato da ML automatizzato. Informazioni su come ottenere i risultati del processo di test remoto.
Importante
Fornire un set di dati di test per valutare i modelli generati è una funzionalità di anteprima. Questa funzionalità è una funzionalità di anteprima sperimentale e può cambiare in qualsiasi momento.
- I dati di test sono considerati separati dal training e dalla convalida, in modo da non pregiudiziare i risultati del processo di test del modello consigliato. Altre informazioni sulla distorsione durante la convalida del modello.
- È possibile fornire un set di dati di test personalizzato o scegliere di usare una percentuale del set di dati di training. I dati di test devono essere sotto forma di un tabulare tabulare di Azure Machine Learning.
- Lo schema del set di dati di test deve corrispondere al set di dati di training. La colonna di destinazione è facoltativa, ma se non viene calcolata alcuna colonna di destinazione non viene calcolata alcuna metrica di test.
- Il set di dati di test non deve essere uguale al set di dati di training o al set di dati di convalida.
- I processi di previsione non supportano la suddivisione di training/test.
Personalizzare la funzionalità
Nel modulo Di funzionalità è possibile abilitare/disabilitare la funzionalità automatica e personalizzare le impostazioni di funzionalità automatiche per l'esperimento. Per aprire questo modulo, vedere il passaggio 10 nella sezione Crea ed eseguire l'esperimento .
La tabella seguente riepiloga le personalizzazioni attualmente disponibili tramite lo studio.
Colonna | Personalizzazione |
---|---|
Incluso | Specifica le colonne da includere per il training. |
Tipo di funzionalità | Modificare il tipo di valore per la colonna selezionata. |
Impute con | Selezionare il valore per imputare i valori mancanti con i dati. |
Eseguire l'esperimento e visualizzare i risultati
Selezionare Fine per eseguire l'esperimento. L'esperimento di preparazione del processo può richiedere fino a 10 minuti. Per completare l'esecuzione di ogni pipeline, i processi di training possono richiedere altri 2-3 minuti.
Nota
Gli algoritmi automatizzati di ML utilizzano una casualità intrinseca che può causare una leggera variazione nel punteggio delle metriche finali di un modello consigliato, ad esempio l'accuratezza. Machine Learning automatizzato esegue anche operazioni sui dati, ad esempio la suddivisione di training-test, la suddivisione della convalida del training o la convalida incrociata, quando necessario. Quindi, se si esegue un esperimento con le stesse impostazioni di configurazione e la metrica primaria più volte, è probabile che venga visualizzata una variazione in ogni punteggio delle metriche finali degli esperimenti a causa di questi fattori.
Visualizzare i dettagli sull'esperimento
La schermata Dettagli processo viene visualizzata nella scheda Dettagli . Questa schermata mostra un riepilogo del processo di esperimento, inclusa una barra di stato nella parte superiore accanto al numero di processo.
La scheda Modelli contiene un elenco dei modelli creati, ordinati in base al punteggio della metrica. Per impostazione predefinita, il modello che riceve il punteggio più alto in base alla metrica scelta si trova all'inizio dell'elenco. Man mano che il processo di training prova altri modelli, questi vengono aggiunti all'elenco. Usare questa procedura per ottenere un rapido confronto delle metriche per i modelli prodotti finora.
Visualizzare i dettagli del processo di training
Eseguire il drill-down su uno dei modelli completati per visualizzare i dettagli del processo di training. Nella scheda Modello vengono visualizzati dettagli come un riepilogo del modello e gli iperparametri usati per il modello selezionato.
È anche possibile visualizzare grafici delle metriche delle prestazioni specifici del modello nella scheda Metriche. Altre informazioni sui grafici.
Nella scheda Trasformazione dati è possibile visualizzare un diagramma delle pre-elaborazione dei dati, la progettazione delle funzionalità, le tecniche di ridimensionamento e l'algoritmo di Machine Learning applicati per generare questo modello.
Importante
La scheda Trasformazione dati è in anteprima. Questa funzionalità deve essere considerata sperimentale e può cambiare in qualsiasi momento.
Visualizzare i risultati del processo di test remoto (anteprima)
Se è stato specificato un set di dati di test o è stato scelto per una suddivisione di training/test durante la configurazione dell'esperimento, nel modulo Convalida e test , ml automatizzato verifica automaticamente il modello consigliato per impostazione predefinita. Di conseguenza, ml automatizzato calcola le metriche di test per determinare la qualità del modello consigliato e le relative stime.
Importante
Il test dei modelli con un set di dati di test per valutare i modelli generati è una funzionalità di anteprima. Questa funzionalità è una funzionalità di anteprima sperimentale e può cambiare in qualsiasi momento.
Avviso
Questa funzionalità non è disponibile per gli scenari di Machine Learning automatizzati seguenti
Per visualizzare le metriche del processo di test del modello consigliato,
- Passare alla pagina Modelli , selezionare il modello migliore.
- Selezionare la scheda Risultati test (anteprima).
- Selezionare il processo desiderato e visualizzare la scheda Metriche .
Per visualizzare le stime dei test usate per calcolare le metriche di test,
- Passare alla parte inferiore della pagina e selezionare il collegamento in Set di dati Outputs per aprire il set di dati.
- Nella pagina Set di dati selezionare la scheda Esplora per visualizzare le stime dal processo di test.
- In alternativa, il file di stima può essere visualizzato/scaricato dalla scheda Output e log , espandere la cartella Stime per individuare il
predicted.csv
file.
- In alternativa, il file di stima può essere visualizzato/scaricato dalla scheda Output e log , espandere la cartella Stime per individuare il
In alternativa, il file di stime può essere visualizzato/scaricato dalla scheda Output e log, espandere La cartella Stime per individuare il file predictions.csv.
Il processo di test del modello genera il file di predictions.csv archiviato nell'archivio dati predefinito creato con l'area di lavoro. Questo archivio dati è visibile a tutti gli utenti con la stessa sottoscrizione. I processi di test non sono consigliati per gli scenari se una delle informazioni usate per o creata dal processo di test deve rimanere privata.
Testare un modello di ML automatizzato esistente (anteprima)
Importante
Il test dei modelli con un set di dati di test per valutare i modelli generati è una funzionalità di anteprima. Questa funzionalità è una funzionalità di anteprima sperimentale e può cambiare in qualsiasi momento.
Avviso
Questa funzionalità non è disponibile per gli scenari di Machine Learning automatizzati seguenti
Al termine dell'esperimento, è possibile testare i modelli generati da Machine Learning automatizzati. Se si vuole testare un modello automatizzato generato da ML diverso, non il modello consigliato, è possibile eseguire questa operazione con la procedura seguente.
Selezionare un processo di esperimento di ML automatizzato esistente.
Passare alla scheda Modelli del processo e selezionare il modello completato da testare.
Nella pagina Dettagli modello selezionare il pulsante Modello di test(anteprima) per aprire il riquadro Modello di test .
Nel riquadro Modello di test selezionare il cluster di calcolo e un set di dati di test da usare per il processo di test.
Selezionare il pulsante Test. Lo schema del set di dati di test deve corrispondere al set di dati di training, ma la colonna di destinazione è facoltativa.
Al termine della creazione del processo di test del modello, nella pagina Dettagli viene visualizzato un messaggio di esito positivo. Selezionare la scheda Risultati test per visualizzare lo stato di avanzamento del processo.
Per visualizzare i risultati del processo di test, aprire la pagina Dettagli e seguire la procedura descritta nella sezione risultati della visualizzazione dei risultati del processo di test remoto .
Spiegazioni del modello (anteprima)
Per comprendere meglio il modello, è possibile visualizzare quali funzionalità dei dati (non elaborate o ingegneriate) hanno influenzato le stime del modello con il dashboard delle spiegazioni del modello.
Il dashboard delle spiegazioni del modello fornisce un'analisi complessiva del modello sottoposto a training insieme alle relative stime e spiegazioni. Consente inoltre di eseguire il drill-in un singolo punto dati e la relativa importanza singola. Altre informazioni sulle visualizzazioni del dashboard di spiegazione.
Per ottenere spiegazioni per un determinato modello,
Nella scheda Modelli selezionare il modello da comprendere.
Selezionare il pulsante Spiega modello e specificare un calcolo che può essere usato per generare le spiegazioni.
Controllare la scheda Processi figlio per lo stato.
Al termine, passare alla scheda Spiegazioni (anteprima) che contiene il dashboard delle spiegazioni.
Modificare e inviare processi (anteprima)
Importante
La possibilità di copiare, modificare e inviare un nuovo esperimento in base a un esperimento esistente è una funzionalità di anteprima. Questa funzionalità è una funzionalità di anteprima sperimentale e può cambiare in qualsiasi momento.
Negli scenari in cui si vuole creare un nuovo esperimento in base alle impostazioni di un esperimento esistente, ML automatizzato offre l'opzione per eseguire questa operazione con il pulsante Modifica e invio nell'interfaccia utente di studio.
Questa funzionalità è limitata agli esperimenti avviati dall'interfaccia utente di studio e richiede che lo schema dei dati per il nuovo esperimento corrisponda a quello dell'esperimento originale.
Il pulsante Modifica e invio apre la creazione guidata di un nuovo processo di Machine Learning automatizzato con i dati, il calcolo e le impostazioni dell'esperimento precompilato. È possibile passare attraverso ogni modulo e modificare le selezioni in base alle esigenze per il nuovo esperimento.
Distribuire il modello
Una volta ottenuto il modello migliore, è necessario distribuirlo come servizio Web per eseguire previsioni sui nuovi dati.
Suggerimento
Se si vuole distribuire un modello generato tramite il pacchetto con Python SDK, è necessario registrare ilautoml
modello nell'area di lavoro.
Dopo aver registrato il modello, trovarlo nello studio selezionando Modelli nel riquadro sinistro. Dopo aver aperto il modello, è possibile selezionare il pulsante Distribuisci nella parte superiore della schermata e quindi seguire le istruzioni descritte nel passaggio 2 della sezione Distribuisci modello .
ML automatizzato semplifica la distribuzione del modello senza scrivere codice:
Per la distribuzione sono disponibili due opzioni.
Opzione 1: distribuire il modello migliore in base ai criteri di metrica definiti.
- Al termine dell'esperimento, passare alla pagina del processo padre selezionando Processo 1 nella parte superiore della schermata.
- Selezionare il modello elencato nella sezione Riepilogo modello migliore .
- Selezionare Distribuisci nella parte superiore sinistra della finestra.
Opzione 2: per distribuire un'iterazione del modello specifica da questo esperimento.
- Selezionare il modello desiderato dalla scheda Modelli
- Selezionare Distribuisci nella parte superiore sinistra della finestra.
Inserire i dati nel riquadro Distribuisci modello.
Campo Valore Nome Specificare un nome univoco per la distribuzione. Descrizione Immettere una descrizione per identificare meglio le finalità della distribuzione. Tipo di calcolo Selezionare il tipo di endpoint da distribuire: servizio Azure Kubernetes (AKS) o Istanza di Azure Container (ACI). Nome del calcolo Solo per il servizio Azure Kubernetes: Selezionare il nome del cluster del servizio Azure Kubernetes in cui si vuole eseguire la distribuzione. Abilita autenticazione Selezionare questa impostazione per consentire l'autenticazione basata su token o basata su chiave. Usa asset di distribuzione personalizzati Abilitare questa funzionalità se si desidera caricare lo script di punteggio e il file di ambiente. In caso contrario, ML automatizzato fornisce questi asset per impostazione predefinita. Altre informazioni sugli script di punteggio. Importante
I nomi file devono essere inferiori a 32 caratteri e iniziare e terminare con caratteri alfanumerici. Possono includere trattini, caratteri di sottolineatura, punti e caratteri alfanumerici. Gli spazi non sono consentiti.
Il menu Avanzata offre funzionalità di distribuzione predefinite, quali la raccolta dati e le impostazioni di utilizzo delle risorse. Se si desidera eseguire l'override di queste impostazioni predefinite, effettuare questa operazione in questo menu.
Selezionare Distribuisci. Il completamento della distribuzione può richiedere circa 20 minuti. Una volta avviata la distribuzione, viene visualizzata la scheda Riepilogo modello. Vedere lo stato di avanzamento della distribuzione nella sezione Stato distribuzione.
A questo punto, è disponibile un servizio Web operativo per generare previsioni. Per eseguire il test delle previsioni, è possibile eseguire una query sul servizio dal supporto Azure Machine Learning incorporato di Power BI.