Condividi tramite


Analizzare i dati con Azure Machine Learning

Questa esercitazione usa la finestra di progettazione di Azure Machine Learning per creare un modello di Machine Learning predittivo. Il modello si basa sui dati archiviati in Azure Synapse. Lo scenario per l'esercitazione consiste nel prevedere se è probabile che un cliente acquisti una bicicletta o meno, così che Adventure Works, il negozio di biciclette, possa creare una campagna di marketing mirata.

Prerequisiti

Per eseguire questa esercitazione, è necessario:

  • il pool SQL già caricato con i dati di esempio AdventureWorksDW. Per eseguire il provisioning di questo pool SQL, vedere Creare un pool SQL e scegliere di caricare i dati di esempio. Se si dispone già di un data warehouse ma non si dispone di dati di esempio, è possibile caricare manualmente i dati di esempio.
  • un'area di lavoro di Azure Machine Learning. Seguire questa esercitazione per crearne una nuova.

Ottieni i dati

I dati usati si trovano nella vista dbo.vTargetMail in AdventureWorksDW. Per usare l'archivio dati in questa esercitazione, i dati vengono prima esportati nell'account azure Data Lake Storage perché Azure Synapse attualmente non supporta i set di dati. Azure Data Factory può essere usato per esportare i dati dal data warehouse ad Azure Data Lake Storage usando l'attività di copia. Usare la query seguente per l'importazione:

SELECT [CustomerKey]
  ,[GeographyKey]
  ,[CustomerAlternateKey]
  ,[MaritalStatus]
  ,[Gender]
  ,cast ([YearlyIncome] as int) as SalaryYear
  ,[TotalChildren]
  ,[NumberChildrenAtHome]
  ,[EnglishEducation]
  ,[EnglishOccupation]
  ,[HouseOwnerFlag]
  ,[NumberCarsOwned]
  ,[CommuteDistance]
  ,[Region]
  ,[Age]
  ,[BikeBuyer]
FROM [dbo].[vTargetMail]

Quando i dati sono disponibili in Azure Data Lake Storage, gli archivi dati in Azure Machine Learning vengono usati per connettersi ai servizi di archiviazione di Azure. Seguire questa procedura per creare un archivio dati e un set di dati corrispondente:

  1. Avviare studio di Azure Machine Learning da portale di Azure o accedere al studio di Azure Machine Learning.

  2. Fare clic su Archivi dati nel riquadro sinistro nella sezione Gestisci e quindi fare clic su Nuovo archivio dati.

    Screenshot del riquadro sinistro dell'interfaccia di Azure Machine Learning

  3. Specificare un nome per l'archivio dati, selezionare il tipo "Archiviazione BLOB di Azure", specificare la posizione e le credenziali. Scegliere quindi Crea.

  4. Clicca su Set di dati nel riquadro sinistro nella sezione Assets. Selezionare Crea set di dati con l'opzione Da archivio dati.

  5. Specificare il nome del set di dati e selezionare il tipo da Tabulare. Fare quindi clic su Avanti per procedere.

  6. Nella sezione Selezionare o creare un archivio dati selezionare l'opzione Archivio dati creato in precedenza. Selezionare l'archivio dati creato in precedenza. Fare clic su Avanti e specificare il percorso e le impostazioni del file. Assicurarsi di specificare l'intestazione di colonna se i file ne contengono uno.

  7. Infine, fare clic su Crea per creare il set di dati.

Configurare l'esperimento del designer

Seguire quindi i passaggi seguenti per la configurazione della finestra di progettazione:

  1. Fare clic sulla scheda Progettazione nel riquadro sinistro nella sezione Autore .

  2. Selezionare Componenti predefiniti facili da usare per creare una nuova pipeline.

  3. Nel riquadro delle impostazioni a destra specificare il nome della pipeline.

  4. Selezionare anche un cluster di calcolo di destinazione per l'intero esperimento dal pulsante delle impostazioni, scegliendo un cluster già predisposto in precedenza. Chiudere il riquadro Impostazioni.

Importare i dati

  1. Selezionare la sottoscheda Datasets nel riquadro a sinistra, sotto la casella di ricerca.

  2. Trascinare il set di dati creato in precedenza nell'area di disegno.

    Screenshot del componente del set di dati nell'area di disegno.

Eseguire la pulizia dei dati

Per pulire i dati, eliminare colonne non pertinenti per il modello. Segui i passaggi riportati di seguito:

  1. Selezionare la sottoscheda Componenti nel riquadro sinistro.

  2. Trascinare Seleziona colonne nel set di dati sotto Manipolazione Trasformazione Dati nell'area di lavoro. Connettere questo componente al componente Set di dati .

    Screenshot del componente di selezione delle colonne sulla tela.

  3. Fare clic sul componente per aprire il riquadro delle proprietà. Fare clic su Modifica colonna per specificare le colonne da eliminare.

  4. Escludere due colonne: CustomerAlternateKey e GeographyKey. Cliccare su Salva

    Screenshot che mostra le colonne eliminate.

Creare il modello

I dati sono suddivisi 80-20: 80% per eseguire il training di un modello di Machine Learning e il 20% per testare il modello. Gli algoritmi "a due classi" vengono usati in questo problema di classificazione binaria.

  1. Trascina il componente Split Data nell'area di disegno.

  2. Nel riquadro delle proprietà immettere 0,8 per Frazione di righe nel primo dataset di output.

    Screenshot che mostra il rapporto di divisione pari a 0,8.

  3. Trascinare il componente Albero delle decisioni potenziato per due classi nell'area di disegno.

  4. Trascinare il componente Train Model (Esegui training modello ) nell'area di disegno. Specificare gli input collegandoli al componente Albero delle Decisioni Potenziato a Due Classi (algoritmo ML) e a Divisione dei Dati (dati su cui eseguire l'addestramento dell'algoritmo).

  5. Per il modello Train Model, nella colonna Etichetta nel riquadro Proprietà, selezionare Modifica colonna. Selezionare la colonna BikeBuyer come colonna da stimare e selezionare Salva.

    Screenshot che mostra la colonna etichetta BikeBuyer selezionata.

    Screenshot che mostra il componente Train Model connesso ai componenti Two-Class Boosted Decision Tree (Albero delle decisioni con boosting a due classi) e Split Data (Divisione Dati).

Assegnare un punteggio al modello

Testare come funziona ora il modello sui dati di test. Due algoritmi diversi verranno confrontati per vedere quali sono le prestazioni migliori. Segui i passaggi riportati di seguito:

  1. Trascina il componente Score Model nell'area di disegno e collegalo ai componenti Train Model e Split Data.

  2. Trascinare il Perceptron a due classi medio bayesiano nell'area di lavoro dell'esperimento. Confronterai le prestazioni di questo algoritmo rispetto all'Albero Decisionale Potenziato a Due Classi.

  3. Copiare e incollare i componenti Train Model e Score Model nell'area di disegno.

  4. Trascinare il componente Evaluate Model nell'area di disegno per confrontare i due algoritmi.

  5. Fare clic su Invia per configurare l'esecuzione della pipeline.

    Screenshot di tutti i componenti rimanenti nell'area di disegno.

  6. Al termine dell'esecuzione, fare clic con il pulsante destro del mouse sul componente Valuta modello e scegliere Visualizza risultati di valutazione.

    Screenshot dei risultati.

Le metriche fornite includono la curva ROC, il diagramma precisione-richiama e la curva di incremento. Esaminare queste metriche per vedere che il primo modello ha prestazioni migliori rispetto al secondo. Per esaminare le previsioni del primo modello, fare clic con il pulsante destro del mouse sul componente Score Model (Punteggio modello), quindi scegliere "Visualizza set di dati con punteggio" per visualizzare i risultati previsti.

Verranno visualizzate altre due colonne aggiunte al set di dati di test.

  • Probabilità Calcolate: la probabilità che un cliente sia un acquirente di biciclette.
  • Scored Labels: la classificazione eseguita dal modello – acquirente di biciclette (1) o non acquirente di biciclette (0). La soglia di probabilità per le etichette è impostata su 50% e può essere modificata.

Confrontare la colonna BikeBuyer (effettiva) con le etichette assegnate (stima) per vedere quanto bene ha eseguito il modello. A questo punto, è possibile usare questo modello per eseguire stime per i nuovi clienti. È possibile pubblicare questo modello come servizio Web o scrivere i risultati in Azure Synapse.

Passaggi successivi

Per altre informazioni su Azure Machine Learning, vedere Introduzione a Machine Learning in Azure.

Scopri il calcolo predefinito dei punteggi nel data warehouse, qui.