Che cos'è l'analisi scientifica dei dati in Microsoft Fabric?

Microsoft Fabric offre esperienze di data science per consentire agli utenti di completare flussi di lavoro di data science end-to-end ai fini dell'arricchimento dei dati e delle informazioni aziendali. È possibile completare un'ampia gamma di attività nell'intero processo di analisi scientifica dei dati, dall'esplorazione dei dati, dalla preparazione e dalla pulizia alla sperimentazione, alla modellazione, al punteggio del modello e alla gestione di informazioni dettagliate predittive nei report bi.

Gli utenti di Microsoft Fabric possono accedere a una home page di data science. Da qui possono individuare e accedere a varie risorse pertinenti. Ad esempio, possono creare esperimenti, modelli e notebook di Machine Learning. Possono anche importare notebook esistenti nella home page di data science.

Screenshot della home page di data science.

Si potrebbe sapere come funziona un tipico processo di data science. Come processo noto, la maggior parte dei progetti di Machine Learning la seguono.

A livello generale, il processo prevede questi passaggi:

  • Formulazione e ideazione dei problemi
  • Individuazione e pre-elaborazione dei dati
  • Sperimentazione e modellazione
  • Arricchire e rendere operativi
  • Acquisizione di informazioni approfondite

Diagramma del processo di data science.

Questo articolo descrive le funzionalità di data science di Microsoft Fabric dal punto di vista del processo di data science. Per ogni passaggio del processo di data science, questo articolo riepiloga le funzionalità di Microsoft Fabric che possono essere utili.

Formulazione e ideazione dei problemi

Gli utenti di data science in Microsoft Fabric lavorano sulla stessa piattaforma degli utenti aziendali e degli analisti. La condivisione e la collaborazione dei dati diventano più semplici tra ruoli diversi, di conseguenza. Gli analisti possono condividere facilmente report e set di dati di Power BI con professionisti dell'analisi scientifica dei dati. La facilità di collaborazione tra i ruoli in Microsoft Fabric rende molto più semplice la fase di formulazione dei problemi.

Individuazione e pre-elaborazione dei dati

Gli utenti di Microsoft Fabric possono interagire con i dati in OneLake usando l'elemento Lakehouse. Lakehouse si collega facilmente a un notebook per esplorare e interagire con i dati.

Gli utenti possono leggere facilmente i dati da un Lakehouse direttamente in un dataframe Pandas. Per l'esplorazione, in questo modo è possibile leggere facilmente i dati da OneLake.

Un potente set di strumenti è disponibile per l'inserimento dati e le pipeline di orchestrazione dei dati con pipeline di integrazione dei dati, una parte integrata in modo nativo di Microsoft Fabric. Le pipeline di dati facili da compilare possono accedere e trasformare i dati in un formato utilizzabile da Machine Learning.

esplorazione dei dati

Una parte importante del processo di Machine Learning consiste nel comprendere i dati tramite l'esplorazione e la visualizzazione.

A seconda del percorso di archiviazione dei dati, Microsoft Fabric offre un set di strumenti diversi per esplorare e preparare i dati per l'analisi e l'apprendimento automatico. I notebook diventano uno dei modi più rapidi per iniziare a usare l'esplorazione dei dati.

Apache Spark e Python per la preparazione dei dati

Microsoft Fabric offre funzionalità per trasformare, preparare ed esplorare i dati su larga scala. Con Spark, gli utenti possono sfruttare gli strumenti PySpark/Python, Scala e SparkR/SparklyR per la pre-elaborazione dei dati su larga scala. Le potenti librerie di visualizzazione open source possono migliorare l'esperienza di esplorazione dei dati per comprendere meglio i dati.

Data Wrangler per la pulizia dei dati senza problemi

L'esperienza notebook di Microsoft Fabric ha aggiunto una funzionalità per l'uso di Data Wrangler, uno strumento di codice che prepara i dati e genera codice Python. Questa esperienza semplifica l'accelerazione di attività noiose e banali, ad esempio la pulizia dei dati e la ripetibilità e l'automazione tramite codice generato. Altre informazioni su Data Wrangler sono disponibili nella sezione Data Wrangler di questo documento.

Sperimentazione e modellazione ml

Con strumenti come PySpark/Python, SparklyR/R, i notebook possono gestire il training dei modelli di Machine Learning.

Gli algoritmi e le librerie di Machine Learning consentono di eseguire il training di modelli di Machine Learning. Gli strumenti di gestione delle librerie possono installare queste librerie e algoritmi. Gli utenti hanno quindi la possibilità di sfruttare un'ampia gamma di librerie di Machine Learning più diffuse per completare il training del modello di Machine Learning in Microsoft Fabric.

Inoltre, le librerie più diffuse come Scikit Learn possono anche sviluppare modelli.

Gli esperimenti e le esecuzioni di MLflow possono tenere traccia del training del modello di Machine Learning. Microsoft Fabric offre un'esperienza MLflow predefinita con cui gli utenti possono interagire, per registrare esperimenti e modelli. Altre informazioni su come usare MLflow per tenere traccia degli esperimenti e gestire i modelli in Microsoft Fabric.

SynapseML

La libreria open source SynapseML (nota in precedenza come MMLSpark), proprietaria e gestita da Microsoft, semplifica la creazione di pipeline di Machine Learning a scalabilità massiva. Come ecosistema di strumenti, espande il framework Apache Spark in diverse nuove direzioni. SynapseML unifica diversi framework di Machine Learning esistenti e nuovi algoritmi Microsoft in un'unica API scalabile. La libreria SynapseML open source include un ricco ecosistema di strumenti di Machine Learning per lo sviluppo di modelli predittivi, nonché l'uso di modelli di intelligenza artificiale con training preliminare dai servizi di intelligenza artificiale di Azure. Altre informazioni su SynapseML.

Arricchire e rendere operativi

I notebook possono gestire l'assegnazione dei punteggi batch del modello di Machine Learning con librerie open source per la stima o la funzione Spark Predict universale scalabile di Microsoft Fabric, che supporta i modelli in pacchetto MLflow nel registro dei modelli di Microsoft Fabric.

Acquisizione di informazioni approfondite

In Microsoft Fabric i valori stimati possono essere scritti facilmente in OneLake e usati facilmente dai report di Power BI con la modalità Power BI Direct Lake. Ciò rende molto semplice per i professionisti della data science condividere i risultati del loro lavoro con gli stakeholder e semplifica anche l'operazionalizzazione.

I notebook che contengono l'assegnazione dei punteggi batch possono essere pianificati per l'esecuzione usando le funzionalità di pianificazione dei notebook. L'assegnazione dei punteggi batch può anche essere pianificata come parte delle attività della pipeline di dati o dei processi Spark. Power BI ottiene automaticamente le stime più recenti senza la necessità di caricare o aggiornare i dati, grazie alla modalità Direct Lake in Microsoft Fabric.

Importante

Questa funzionalità è disponibile in anteprima.

I data scientist e gli analisti aziendali dedicano molto tempo a cercare di comprendere, pulire e trasformare i dati prima di poter avviare qualsiasi analisi significativa. Gli analisti aziendali mettono in genere a disposizione modelli semantici e codificano la conoscenza del dominio e la logica di business in misure di Power BI. D'altra parte, i data scientist possono lavorare con gli stessi dati, ma in genere in un ambiente di codice o in un linguaggio diverso.

Il collegamento semantico (anteprima) consente ai data scientist di stabilire una connessione tra i modelli semantici di Power BI e l'esperienza di data science synapse in Microsoft Fabric tramite la libreria SemPy Python. SemPy semplifica l'analisi dei dati acquisendo e sfruttando la semantica dei dati man mano che gli utenti eseguono varie trasformazioni sui modelli semantici. Sfruttando il collegamento semantico, i data scientist possono:

  • evitare la necessità di implementare nuovamente la logica di business e la conoscenza del dominio nel codice
  • accedere e usare facilmente le misure di Power BI nel codice
  • usare la semantica per creare nuove esperienze, ad esempio funzioni semantiche
  • esplorare e convalidare le dipendenze funzionali e le relazioni tra i dati

Grazie all'uso di SemPy, le organizzazioni possono aspettarsi di vedere:

  • maggiore produttività e maggiore collaborazione tra i team che operano sugli stessi set di dati
  • maggiore collaborazione incrociata tra team di business intelligence e intelligenza artificiale
  • riduzione dell'ambiguità e di una curva di apprendimento più semplice durante l'onboarding in un nuovo modello o set di dati

Per altre informazioni sul collegamento semantico, vedere Che cos'è il collegamento semantico (anteprima)?.