Scenario end-to-end di data science: introduzione e architettura

2025-04-30

Queste esercitazioni presentano uno scenario end-to-end completo nell'esperienza di data science di Fabric. Coprono ogni fase, da

Inserimento dati
Pulizia dei dati
Preparazione dei dati

Training del modello di Machine Learning
Generazione di informazioni dettagliate

e quindi coprire il consumo di tali informazioni dettagliate con gli strumenti di visualizzazione, ad esempio Power BI.

Le persone nuove a Microsoft Fabric devono visitare Che cos'è Microsoft Fabric?.

Introduzione

Un ciclo di vita di un progetto di data science include in genere questi passaggi:

Comprendere le regole aziendali
Acquisire i dati
Esplorare, pulire, preparare e visualizzare i dati
Addestrare il modello e monitorare l'esperimento
Assegnare un punteggio al modello e generare informazioni dettagliate

I passaggi spesso procedono in modo iterativo. Gli obiettivi e i criteri di successo di ogni fase dipendono dalla collaborazione, dalla condivisione dei dati e dalla documentazione. L'esperienza di data science di Fabric include più funzionalità predefinite che consentono una collaborazione trasparente, l'acquisizione dei dati, la condivisione e l'utilizzo.

Queste esercitazioni ti pongono nel ruolo di un data scientist che deve esplorare, pulire e trasformare un set di dati che contiene lo stato di abbandono di 10.000 clienti bancari. Si creerà quindi un modello di Machine Learning per stimare quali clienti bancari lasceranno probabilmente.

Nelle esercitazioni si eseguono le attività seguenti:

Usare i notebook di Fabric per scenari di data science
Usare Apache Spark per inserire dati in un Fabric lakehouse
Caricare i dati esistenti dalle tabelle delta lakehouse
Usare gli strumenti basati su Apache Spark e Python per pulire e trasformare i dati
Creare esperimenti ed esecuzioni per eseguire il training di modelli di Machine Learning diversi
Usare MLflow e l'interfaccia utente di Fabric per registrare e tenere traccia dei modelli sottoposti a training
Eseguire l'assegnazione dei punteggi su larga scala e salvare stime e risultati di inferenza nel lakehouse
Usare DirectLake per visualizzare le stime in Power BI

Architettura

Questa serie di esercitazioni illustra uno scenario di data science end-to-end semplificato che include:

Componenti diversi dello scenario di data science

Origini dati : per inserire dati con Fabric, è possibile connettersi facilmente e rapidamente a Servizi dati di Azure, ad altre piattaforme cloud e alle risorse dati locali. Con i notebook di Fabric è possibile inserire dati da queste risorse:

Lakehouse incorporati
Magazzini di Dati
Modelli semantici
Varie origini dati di Apache Spark
Varie origini dati che supportano Python

Questa serie di tutorial è incentrata sull'ingestione e il caricamento dei dati da un lakehouse.

Esplorare, pulire e preparare : l'esperienza di data science di Fabric supporta la pulizia dei dati, la trasformazione, l'esplorazione e la definizione delle funzionalità. Usa esperienze Spark predefinite e strumenti basati su Python, ad esempio Data Wrangler e SemPy Library. Questa esercitazione illustra l'esplorazione dei dati con la seaborn libreria Python e la pulizia e la preparazione dei dati con Apache Spark.

Modelli e esperimenti : con Fabric è possibile eseguire il training, valutare e assegnare punteggi ai modelli di Machine Learning con esperimenti predefiniti. Per registrare e distribuire i modelli e tenere traccia degli esperimenti, MLflow offre una perfetta integrazione con Fabric come modo per modellare gli elementi. Per creare e condividere informazioni dettagliate aziendali, Fabric offre altre funzionalità per la stima del modello su larga scala (PREDICT), per creare e condividere informazioni aziendali dettagliate.

Archiviazione - Fabric standardizza su Delta Lake, il che significa che tutti i motori Fabric possono interagire con lo stesso set di dati archiviato in un lakehouse. Con tale livello di archiviazione, è possibile archiviare dati strutturati e non strutturati che supportano sia l'archiviazione basata su file che il formato tabulare. È possibile accedere facilmente ai set di dati e ai file archiviati tramite tutti gli elementi dell'esperienza Fabric, come notebook e pipeline.

Esporre analisi e informazioni dettagliate : Power BI, uno strumento di business intelligence leader del settore, può usare i dati lakehouse per la generazione di report e visualizzazioni. Nelle risorse del notebook, librerie di visualizzazioni native Python o Spark

matplotlib
seaborn
plotly
E così via.

può visualizzare i dati salvati in un lakehouse. La libreria SemPy supporta anche la visualizzazione dei dati. Questa libreria supporta visualizzazioni ricche e specifiche per attività integrate

Modello di dati semantico
Dipendenze e violazioni
Casi d'uso di classificazione e regressione

Passaggio successivo

Preparare il sistema per l'esercitazione di data science

Condividi tramite

Scenario end-to-end di data science: introduzione e architettura

Introduzione

Architettura

Componenti diversi dello scenario di data science

Passaggio successivo

Commenti e suggerimenti

Risorse aggiuntive