Che cos'è Data Science in Microsoft Fabric?
Importante
Microsoft Fabric è in anteprima.
Microsoft Fabric offre esperienze di Data Science per consentire agli utenti di completare flussi di lavoro di data science end-to-end per lo scopo dell'arricchimento dei dati e delle informazioni aziendali. È possibile completare un'ampia gamma di attività nell'intero processo di data science, in tutto il modo dall'esplorazione dei dati, dalla preparazione e dalla pulizia alla sperimentazione, alla modellazione, al punteggio dei modelli e alla gestione di informazioni predittive ai report bi.
Gli utenti di Microsoft Fabric possono accedere a una home page di Data Science. Da qui possono individuare e accedere a varie risorse pertinenti. Ad esempio, possono creare esperimenti di Machine Learning, Modelli e Notebook. Possono anche importare notebook esistenti nella home page Data Science.
È possibile sapere come funziona un processo tipico di data science. Come processo noto, la maggior parte dei progetti di Machine Learning segue.
A livello generale, il processo prevede questi passaggi:
- Formulazione del problema e ideazione
- Individuazione dei dati e pre-elaborazione
- Sperimentazione e modellazione
- Arricchire e rendere operativi
- Ottenere informazioni dettagliate
Questo articolo descrive le funzionalità di Microsoft Fabric Data Science dal punto di vista del processo di data science. Per ogni passaggio del processo di data science, questo articolo riepiloga le funzionalità di Microsoft Fabric che possono essere utili.
Formulazione del problema e ideazione
Data Science gli utenti di Microsoft Fabric lavorano sulla stessa piattaforma degli utenti aziendali e degli analisti. Di conseguenza, la condivisione dei dati e la collaborazione diventano più semplici tra ruoli diversi. Gli analisti possono condividere facilmente report e set di dati di Power BI con professionisti dell'analisi scientifica dei dati. La facilità di collaborazione tra ruoli in Microsoft Fabric rende molto più semplice la fase di formulazione dei problemi.
Individuazione dei dati e pre-elaborazione
Gli utenti di Microsoft Fabric possono interagire con i dati in OneLake usando l'elemento Lakehouse. Lakehouse collega facilmente un notebook per esplorare e interagire con i dati.
Gli utenti possono leggere facilmente i dati da una Lakehouse direttamente in un dataframe Pandas. Per l'esplorazione, ciò rende possibili le letture di dati senza problemi da One Lake.
È disponibile un potente set di strumenti per l'inserimento dei dati e le pipeline di orchestrazione dei dati con pipeline di integrazione dei dati, una parte integrata in modo nativo di Microsoft Fabric. Le pipeline di dati facili da compilare possono accedere e trasformare i dati in un formato utilizzabile da Machine Learning.
Esplorazione dati
Una parte importante del processo di Machine Learning consiste nel comprendere i dati tramite l'esplorazione e la visualizzazione.
A seconda del percorso di archiviazione dati, Microsoft Fabric offre un set di strumenti diversi per esplorare e preparare i dati per l'analisi e l'apprendimento automatico. I notebook diventano uno dei modi più rapidi per iniziare a usare l'esplorazione dei dati.
Apache Spark e Python per la preparazione dei dati
Microsoft Fabric offre funzionalità per trasformare, preparare ed esplorare i dati su larga scala. Con Spark, gli utenti possono sfruttare gli strumenti PySpark/Python, Scala e SparkR/SparklyR per la pre-elaborazione dei dati su larga scala. Le potenti librerie di visualizzazioni open source possono migliorare l'esperienza di esplorazione dei dati per migliorare la comprensione dei dati.
Data Wrangler per la pulizia dei dati senza problemi
L'esperienza di Microsoft Fabric Notebook ha aggiunto una funzionalità per usare Data Wrangler, uno strumento di codice che prepara i dati e genera codice Python. Questa esperienza semplifica l'accelerazione delle attività noiose e mundane, ad esempio la pulizia dei dati e la ripetizione e l'automazione tramite codice generato. Altre informazioni su Data Wrangler nella sezione Data Wrangler di questo documento.
Sperimentazione e modellazione ml
Con strumenti come PySpark/Python, SparklyR/R, i notebook possono gestire il training dei modelli di Machine Learning.
Gli algoritmi e le librerie di Machine Learning possono aiutare a eseguire il training dei modelli di Machine Learning. Gli strumenti di gestione della libreria possono installare queste librerie e algoritmi. Gli utenti hanno quindi la possibilità di sfruttare una vasta gamma di librerie di Machine Learning popolari per completare il training del modello di Machine Learning in Microsoft Fabric.
Inoltre, le librerie popolari come Scikit Learn possono anche sviluppare modelli.
Gli esperimenti e le esecuzioni MLflow possono tenere traccia del training del modello ml. Microsoft Fabric offre un'esperienza MlFlow predefinita con cui gli utenti possono interagire, per registrare esperimenti e modelli. Altre informazioni su come usare MLflow per tenere traccia degli esperimenti e gestire i modelli in Microsoft Fabric.
SynapseML
La libreria open source di SynapseML (nota in precedenza come MMLSpark), proprietaria e gestita da Microsoft, semplifica la creazione di pipeline di Machine Learning scalabili enormemente scalabili. Come ecosistema di strumenti, espande il framework Apache Spark in diverse nuove direzioni. SynapseML unifica diversi framework di Machine Learning esistenti e nuovi algoritmi Microsoft in una singola API scalabile. La libreria SynapseML open source include un ricco ecosistema di strumenti di Machine Learning per lo sviluppo di modelli predittivi, oltre a sfruttare i modelli di intelligenza artificiale pre-sottoposti a training da Servizi cognitivi di Azure. Altre informazioni su SynapseML.
Arricchire e rendere operativi
I notebook possono gestire il punteggio batch del modello di Machine Learning con librerie open source per la stima o la funzione Spark Predict universale scalabile di Microsoft Fabric, che supporta i modelli pacchetti mlflow nel Registro modelli di Microsoft Fabric.
Ottenere informazioni dettagliate
In Microsoft Fabric i valori stimati possono essere scritti facilmente in OneLake e usati facilmente dai report di Power BI con la modalità di Direct Lake di Power BI. Ciò rende molto facile per i professionisti della data science condividere i risultati dal loro lavoro con gli stakeholder e semplifica anche l'operazionalizzazione.
I notebook che contengono punteggi batch possono essere pianificati per l'esecuzione usando le funzionalità di pianificazione del notebook. Il punteggio batch può essere pianificato anche come parte delle attività della pipeline di dati o dei processi Spark. Power BI ottiene automaticamente le stime più recenti senza dover caricare o aggiornare i dati, grazie alla modalità Direct lake in Microsoft Fabric.
Passaggi successivi
- Introduzione agli esempi di data science end-to-end, vedere esercitazioni Data Science
- Altre informazioni sulla preparazione e la pulizia dei dati con Data Wrangler, vedere Data Wrangler
- Altre informazioni sui test di rilevamento, vedere Esperimento di Machine Learning
- Altre informazioni sulla gestione dei modelli, vedere Modello di Machine Learning
- Altre informazioni sull'assegnazione dei punteggi batch con Predict, vedere Modelli di punteggio con PREDICT
- Gestire le stime da Lakehouse a Power BI con modalità Direct lake