Condividi tramite


Scenario end-to-end di data science: introduzione e architettura

Questo set di esercitazioni illustra uno scenario end-to-end di esempio nell'esperienza di data science di Fabric. Si implementa ogni passaggio dall'inserimento, dalla pulizia e dalla preparazione dei dati, al training di modelli di Machine Learning e alla generazione di informazioni dettagliate e quindi si usano tali informazioni usando strumenti di visualizzazione come Power BI.

Se non si ha familiarità con Microsoft Fabric, vedere Che cos'è Microsoft Fabric?.

Introduzione

Il ciclo di vita di un progetto di data science include in genere (spesso, in modo iterativo) i passaggi seguenti:

  • Comprensione del business
  • Acquisizione dei dati
  • Esplorazione, pulizia, preparazione e visualizzazione dei dati
  • Training del modello e rilevamento dell'esperimento
  • Assegnazione dei punteggi al modello e generazione di informazioni dettagliate.

Gli obiettivi e i criteri di successo di ogni fase dipendono dalla collaborazione, dalla condivisione dei dati e dalla documentazione. L'esperienza di data science di Fabric è costituita da più funzionalità predefinite native che consentono la collaborazione, l'acquisizione dei dati, la condivisione e il consumo in modo semplice.

In queste esercitazioni si assume il ruolo di un data scientist che ha ricevuto l'attività di esplorare, pulire e trasformare un set di dati contenente lo stato di varianza di 10.000 clienti in una banca. Si creerà quindi un modello di Machine Learning per stimare quali clienti bancari potrebbero lasciare.

Si apprenderà come eseguire le attività seguenti:

  1. Usare i notebook di Fabric per scenari di data science.
  2. Inserire dati in un'infrastruttura lakehouse usando Apache Spark.
  3. Caricare i dati esistenti dalle tabelle delta lakehouse.
  4. Pulire e trasformare i dati usando gli strumenti basati su Apache Spark e Python.
  5. Creare esperimenti ed esecuzioni per eseguire il training di modelli di Machine Learning diversi.
  6. Registrare e tenere traccia dei modelli sottoposti a training usando MLflow e l'interfaccia utente di Fabric.
  7. Eseguire l'assegnazione dei punteggi su larga scala e salvare stime e risultati di inferenza nel lakehouse.
  8. Visualizzare le stime in Power BI usando DirectLake.

Architettura

In questa serie di esercitazioni viene illustrato uno scenario di data science end-to-end semplificato che prevede:

  1. Inserimento di dati da un'origine dati esterna.
  2. Esplorare e pulire i dati.
  3. Eseguire il training e registrare modelli di Machine Learning.
  4. Eseguire l'assegnazione dei punteggi batch e salvare le stime.
  5. Visualizzare i risultati della stima in Power BI.

Diagram of the Data science end-to-end scenario components.

Componenti diversi dello scenario di data science

Origini dati: l'infrastruttura semplifica e veloce la connessione a Servizi dati di Azure, ad altre piattaforme cloud e alle origini dati locali da cui inserire i dati. Usando i notebook di Fabric è possibile inserire dati da Lakehouse, Data Warehouse, modelli semantici e diverse origini dati personalizzate supportate da Apache Spark e Python. Questa serie di esercitazioni è incentrata sull'inserimento e il caricamento di dati da una lakehouse.

Esplorare, pulire e preparare : l'esperienza di data science in Fabric supporta la pulizia dei dati, la trasformazione, l'esplorazione e la definizione delle funzionalità usando esperienze predefinite in Spark e strumenti basati su Python come Data Wrangler e SemPy Library. Questa esercitazione illustra l'esplorazione dei dati usando la libreria seaborn Python e la pulizia e la preparazione dei dati con Apache Spark.

Modelli e esperimenti: Fabric consente di eseguire il training, valutare e assegnare punteggi ai modelli di Machine Learning usando gli elementi di esperimento e modello predefiniti con un'integrazione senza interruzioni con MLflow per il rilevamento dell'esperimento e la registrazione/distribuzione del modello. Fabric offre anche funzionalità per la stima del modello su larga scala (PREDICT) per ottenere e condividere informazioni aziendali dettagliate.

Archiviazione: l'infrastruttura standardizza in Delta Lake, il che significa che tutti i motori di Fabric possono interagire con lo stesso set di dati archiviato in una lakehouse. Questo livello di archiviazione consente di archiviare dati strutturati e non strutturati che supportano sia l'archiviazione basata su file che il formato tabulare. È possibile accedere facilmente ai set di dati e ai file archiviati tramite tutti gli elementi dell'esperienza infrastruttura, ad esempio notebook e pipeline.

Esporre analisi e informazioni dettagliate : i dati di un lakehouse possono essere utilizzati da Power BI, uno strumento di business intelligence leader del settore, per la creazione di report e la visualizzazione. I dati salvati in modo permanente nel lakehouse possono essere visualizzati anche nei notebook usando librerie di visualizzazione native Spark o Python come matplotlib, seaborn, plotlye altro ancora. I dati possono essere visualizzati anche usando la libreria SemPy che supporta visualizzazioni avanzate e specifiche delle attività predefinite per il modello di dati semantico, per le dipendenze e le relative violazioni e per i casi d'uso di classificazione e regressione.

Passaggio successivo