Esercitazione 2: Addestrare modelli di rischio di credito - Machine Learning Studio (versione classica)

SI APPLICA A: Questo è un segno di spunta, che significa che l'articolo si applica a Machine Learning Studio (versione classica). Machine Learning Studio (versione classica) Si tratta di una X, il che significa che questo articolo non si applica ad Azure Machine Learning. di Azure Machine Learning

Importante

Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.

A partire dal 1° dicembre 2021 non sarà possibile creare nuove risorse dello studio di Azure Machine Learning (versione classica). Fino al 31 agosto 2024 sarà possibile continuare a usare le risorse dello studio di Azure Machine Learning (versione classica).

Vedere le informazioni sullo spostamento di progetti di apprendimento automatico da ML Studio (versione classica) ad Azure Machine Learning.
Scoprire di più su Azure Machine Learning

La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.

In questa esercitazione si esamina il processo di sviluppo di una soluzione di analisi predittiva. Si svilupperà un modello semplice in Machine Learning Studio (versione classica). Il modello viene quindi distribuito come servizio Web di Machine Learning. Questo modello distribuito può creare previsioni usando nuovi dati. Questa esercitazione è la seconda di una serie in tre parti.

Si supponga di dover prevedere il rischio di credito di un soggetto in base alle informazioni fornite in una richiesta di credito.

La valutazione del rischio di credito è un problema complesso che verrà tuttavia semplificato con questa esercitazione. Verrà usato come esempio di come creare una soluzione di analisi predittiva usando Machine Learning Studio (versione classica). Si useranno Machine Learning Studio (versione classica) e un servizio Web di Machine Learning per questa soluzione.

In questa esercitazione in tre parti si inizia con dati sul rischio di credito disponibili pubblicamente. Verrà quindi sviluppato e addestrato un modello predittivo. Il modello verrà infine distribuito come servizio Web.

Nella prima parte dell'esercitazione è stata creata un'area di lavoro di Machine Learning Studio (versione classica), sono stati caricati i dati ed è stato creato un esperimento.

In questa parte dell'esercitazione verranno eseguite queste operazioni:

Addestrare vari modelli
Classificare e valutare i modelli

Nella terza parte dell'esercitazione si distribuirà il modello come servizio Web.

Prerequisiti

Completare la prima parte dell'esercitazione.

Addestrare più modelli

Uno dei vantaggi dell'uso di Machine Learning Studio (versione classica) per la creazione di modelli di Machine Learning è la possibilità di provare più di un tipo di modello alla volta in un singolo esperimento e confrontare i risultati. Questo tipo di esperimento consente di trovare la soluzione migliore per il problema che si desidera risolvere.

Nell'esperimento sviluppato in questa esercitazione verranno creati due tipi diversi di modello, quindi ne verranno confrontati i punteggi risultanti per decidere quale algoritmo usare nell'esperimento finale.

Sono disponibili diversi modelli tra cui scegliere. Per visualizzare i modelli disponibili, espandere il nodo Machine Learning nella tavolozza dei moduli, espandere Initialize Model (Inizializza modello) e quindi i nodi al suo interno. Ai fini di questo esperimento, selezionerai i moduli Two-Class Support Vector Machine (Macchina a vettori di supporto a due classi, o SVM) e Two-Class Boosted Decision Tree (Albero delle decisioni con boosting a due classi).

In questo esperimento, aggiungerai sia il modulo Two-Class Boosted Decision Tree (Albero delle decisioni con boosting a due classi) sia il modulo Two-Class Support Vector Machine (Macchina a vettori di supporto a due classi).

Albero delle decisioni potenziato a due classi

Per prima cosa, configura il modello potenziato di albero delle decisioni.

Trovare il modulo Two-Class Boosted Decision Tree (Albero delle decisioni con boosting a due classi) nel pannello dei moduli e trascinarlo nel canvas.
Trova il modulo Train Model (Modello di addestramento), trascinalo nel canvas, quindi collega l'output del modulo Two-Class Boosted Decision Tree (Albero delle decisioni con boosting a due classi) alla porta di input sinistra del modulo Train Model (Modello di addestramento).

Il modulo Two-Class Boosted Decision Tree (Albero delle decisioni con boosting a due classi) inizializza il modello generico, e Train Model (Modello di Addestramento) utilizza i dati di addestramento per addestrare il modello.
Connettere l'output sinistro del modulo Execute R Script alla porta di input destra del modulo Train Model. In questa esercitazione hai usato i dati provenienti dal lato sinistro del modulo Split Data per il training.

Suggerimento

Due degli input e uno degli output del modulo Execute R Script (Esecuzione script R) non sono necessari per questo esperimento, pertanto potranno rimanere scollegati.

Questa parte dell'esperimento avrà ora un aspetto analogo al seguente:

Addestrare un modello

A questo punto è necessario indicare al modulo Train Model che il modello dovrà prevedere il valore del Rischio di Credito.

Selezionare il modulo Train Model. Nel riquadro Proprietà, fare clic su Launch column selector (Avvia selettore colonne).
Nella finestra di dialogo Select a single column (Selezionare una singola colonna), digitare "rischio di credito" nel campo di ricerca in Colonne disponibili, selezionare "Rischio di credito" di seguito e fare clic sul pulsante freccia destra (>) per spostare "Rischio di credito" su Colonne selezionate.
Fare clic sul segno di spunta OK.

Macchina a Supporto Vettoriale di Due Classi

Successivamente si configura il modello SVM.

Innanzitutto, una breve spiegazione di SVM. Gli alberi delle decisioni con boosting funzionano bene con caratteristiche di qualsiasi tipo. Tuttavia, poiché il modulo SVM genera un classificatore lineare, il modello che genera ha l'errore di test migliore quando tutte le caratteristiche numeriche hanno la stessa scala. Per convertire tutte le funzioni numeriche nella stessa scala, usare una trasformazione "Tanh" con il modulo Normalize Data (Normalizza dati). In questo modo, vengono trasformati i numeri nell'intervallo [0,1]. I modulo SVM converte gli elementi stringa in elementi di categoria e quindi in elementi 0/1 binari, quindi non è necessario trasformare manualmente gli elementi stringa. Inoltre, non si deve trasformare la colonna Credit Risk (colonna 21). Si tratta di un valore numerico, ma è il valore che il modello deve prevedere, quindi deve rimanere invariato.

Per configurare il modello SVM, procedere come segue:

Trovare il modulo Two-Class Support Vector Machine (Macchina a vettori di supporto a due classi) nel pannello dei moduli e trascinarlo nel canvas.
Fare clic con il pulsante destro del mouse sul modulo Train Model, scegliere Copia, quindi fare clic con il pulsante destro del mouse sull'area di lavoro e scegliere Incolla. La copia del modulo Train Model presenta la stessa selezione di colonne dell'originale.
Connettere l'output del modulo Two-Class Support Vector Machine (Macchina a vettori di supporto a due classi) alla porta di input sinistra del secondo modulo Train Model (Training modello).
Trovare il modulo Normalize Data (Normalizza dati) e trascinarlo nel canvas.
Connetti l'output sinistro del modulo Execute R Script all'input di questo modulo (nota che la porta di output di un modulo può essere collegata a più di un altro modulo).
Connettere la porta di output sinistra del modulo Normalize Data alla porta di input destra del secondo modulo Train Model.

Questa parte dell'esperimento avrà ora un aspetto analogo al seguente:

Addestramento del secondo modello

Ora configurare il modulo Normalize Data (Normalizza dati):

Fare clic per selezionare il modulo Normalize Data (Normalizza dati). Nel riquadro Proprietà, selezionare Tanh per il parametro Metodo di trasformazione.
Fare clic su Launch column selector (Avvia selettore di colonna), selezionare "No columns" (Nessuna colonna) per Begin With (Inizia con), selezionare Include (Includi) nel primo elenco a discesa, selezionare column type (tipo di colonna) nel secondo elenco a discesa e infine selezionare Numeric (Numerico) nel terzo elenco a discesa. Questo specifica che verranno trasformate tutte le colonne numeriche e solo quelle numeriche.
Fare clic sul segno più (+) a destra di questa riga - questo crea una riga di elenchi a discesa. Selezionare Escludi nel primo elenco a discesa, selezionare column names (nomi colonna) nel secondo elenco a discesa e immettere "Rischio di credito" nel campo di testo. Questa impostazione specifica che la colonna Credit Risk deve essere ignorata. Ciò è necessario perché la colonna è numerica e verrebbe quindi trasformata se non venisse esclusa.
Fare clic sul segno di spunta OK.

Il modulo Normalize Data (Normalizza dati) è ora impostato per eseguire una trasformazione Tanh su tutte le colonne numeriche, a eccezione della colonna del rischio di credito.

Classificare e valutare i modelli

Si usano i dati di test che sono stati separati dal modulo Split Data per assegnare il punteggio ai modelli sottoposti a training. Sarà quindi possibile confrontare i risultati dei due modelli per stabilire quale ha generato i risultati migliori.

Aggiungere i moduli del Modello di Punteggio

Trova il modulo Score Model e trascinalo nell'area di lavoro.
Collega il modulo Addestra Modello connesso al modulo Two-Class Boosted Decision Tree (Albero delle decisioni con boosting a due classi) alla porta di input sinistra del modulo Scorifica Modello.
Connettere il modulo Execute R Script (il nostro set di dati di test) alla porta di input destra del modulo Score Model.

Il modulo Score Model (Punteggio modello) può ora prelevare le informazioni sul credito dai dati di test, eseguirle tramite il modello e confrontare le previsioni generate dal modello con la colonna relativa al rischio di credito dei dati di test.
Copiare e incollare il modulo Score Model per creare una seconda copia.
Connettere l'output del modello SVM, vale a dire la porta di output del modulo Train Model connessa al modulo Two-Class Support Vector Machine, alla porta di input del secondo modulo Score Model.
Per il modello SVM è necessario eseguire la stessa trasformazione sui dati di test eseguita in precedenza sui dati di training. Pertanto, copiare e incollare il modulo Normalize Data (Normalizza dati) per creare una seconda copia e connetterla al modulo Execute R Script (Esecuzione script R) destro.
Connettere l'uscita sinistra del secondo modulo Normalize Data alla porta di ingresso destra del secondo modulo Score Model.

Aggiungere il modulo Evaluate Model (Modello di valutazione)

Per valutare i due risultati di punteggio e confrontarli, viene usato il modulo Evaluate Model (Valutazione modello).

Trovare il modulo Evaluate Model (Valutazione modello) e trascinarlo nel canvas.
Connettere la porta di output del modulo Score Model associata al modulo di alberi di decisione con boosting alla porta di input sinistra del modulo Evaluate Model.
Connetti l'altro modulo Score Model alla porta destra di input.

Eseguire l'esperimento e controllare i risultati

Per eseguire l'esperimento, fare clic sul pulsante RUN (ESEGUI) sotto l'area di disegno. L'operazione potrebbe richiedere alcuni minuti. Su ogni modulo verrà visualizzato un indicatore rotante per indicare che il modulo è in esecuzione, quindi apparirà un segno di spunta verde al termine dell'esecuzione. Quando tutti i moduli presentano il segno di spunta, l'esecuzione dell'esperimento sarà completa.

L'esperimento avrà ora un aspetto analogo al seguente:

Valutazione di entrambi i modelli

Per verificare i risultati, fare clic sulla porta di output del modulo Evaluate Model (Valutazione modello) e selezionare Visualize (Visualizza).

Il modulo Evaluate Model (Valutazione modello) produce una coppia di curve e metriche che consentono di confrontare i risultati dei due modelli classificati. È possibile visualizzare i risultati come curve ROC (Receiver Operator Characteristic), curve di Precisione/Richiamo o curve Lift. Altri dati visualizzati includono una matrice di confusione, valori cumulativi per l'area nella curva (AUC) e altra metrica. È possibile modificare il valore soglia spostando il dispositivo di scorrimento a sinistra o a destra e vedere come ciò influisce sul set della metrica.

A destra del grafico fare clic su Scored dataset (Set di dati con punteggio) o Scored dataset to compare (Set di dati con punteggio da confrontare) per evidenziare la curva associata e visualizzare le metriche associate più sotto. Legenda delle curve: "Scored dataset" corrisponde alla porta di input sinistra del modulo Evaluate Model. Nel nostro caso, si tratta del modello di albero delle decisioni con boosting. "Dataset valutato da confrontare" corrisponde alla porta di input destra, in questo caso al modello SVM. Quando si fa clic su una di queste etichette, viene evidenziata la curva per il modello e viene visualizzata la metrica corrispondente, come mostrato dalla grafica seguente.

Curve ROC per i modelli

Esaminando questi valori, è possibile decidere quale sia il modello che più si avvicina ai risultati previsti. È possibile tornare indietro ed eseguire l'iterazione dell'esperimento modificando i valori di parametro dei vari modelli.

La scienza e l'arte di interpretare questi risultati e di ottimizzare le prestazioni del modello non rientrano nell'ambito di questa esercitazione. Per ulteriori informazioni, è possibile leggere gli articoli seguenti:

Suggerimento

Ogni volta che si esegue l'esperimento, viene conservato un record dell'iterazione nella cronologia di esecuzione. È possibile visualizzare le iterazioni e tornare a una qualsiasi di esse facendo clic su VISUALIZZA CRONOLOGIA ESECUZIONI sotto l'area di disegno. È anche possibile fare clic su Prior Run (Esecuzione precedente) nel riquadro Properties (Proprietà) per tornare all'iterazione immediatamente precedente a quella aperta.

Puoi copiare qualsiasi iterazione del tuo esperimento facendo clic su SALVA CON NOME sotto il canvas. Usare le proprietà Summary (Riepilogo) e Description (Descrizione) dell'esperimento per tenere traccia dei tentativi eseguiti nelle iterazioni dell'esperimento.

Per altre informazioni, vedere Gestire le iterazioni dell'esperimento in Machine Learning Studio (versione classica).

Pulire le risorse

Se le risorse create in questo articolo non sono più necessarie, eliminarle per evitare di incorrere in eventuali addebiti. Per altre informazioni, vedere l'articolo Esportare ed eliminare i dati utente interni al prodotto.

Passaggi successivi

In questa esercitazione sono stati completati i passaggi seguenti:

Creare un esperimento
Addestrare più modelli
Classificare e valutare i modelli

A questo punto si è pronti per implementare i modelli per questi dati.

Esercitazione 3 - Distribuire modelli

Last updated on 2019-02-11

Condividi tramite