Eseguire il training di modelli di Machine Learning

Importante

Microsoft Fabric è disponibile in anteprima.

Apache Spark in Microsoft Fabric consente l'apprendimento automatico con Big Data, offrendo la possibilità di ottenere informazioni dettagliate preziose da grandi quantità di dati strutturati, non strutturati e in rapida evoluzione. Sono disponibili diverse opzioni per il training di modelli di Machine Learning usando Apache Spark in Microsoft Fabric: Apache Spark MLlib, SynapseML e varie altre librerie open source.

Apache SparkML e MLlib

Apache Spark in Microsoft Fabric offre un framework unificato e open source per l'elaborazione dei dati parallela che supporta l'elaborazione in memoria per migliorare l'analisi dei Big Data. Il motore di elaborazione Spark è costruito per la velocità, la semplicità d'uso e le analisi sofisticate. Le funzionalità di calcolo distribuite in memoria rendono Spark uno strumento valido per l'esecuzione di algoritmi iterativi utilizzati in calcoli grafici e di Machine Learning.

Sono disponibili due librerie di apprendimento automatico scalabili che integrano funzionalità di modellazione algoritmica nell'ambiente distribuito: MLlib e SparkML. MLlib contiene l'API originale basata su RDD. SparkML è un pacchetto più recente che contiene un'API di livello superiore basata su Spark DataFrames per la costruzione di pipeline di apprendimento automatico. SparkML non supporta ancora tutte le funzionalità di MLlib, ma sostituisce MLlib come libreria di Machine Learning standard di Spark.

Nota

Per altre informazioni sulla creazione di un modello SparkML, vedere l'articolo Eseguire il training dei modelli con Apache Spark MLlib.

Il runtime di Microsoft Fabric per Apache Spark include diversi pacchetti open source più diffusi per il training di modelli di Machine Learning. Queste librerie forniscono codice riutilizzabile da includere nei programmi o nei progetti. Alcune delle librerie di Machine Learning pertinenti incluse per impostazione predefinita includono:

  • Scikit-learn è una delle librerie di Machine Learning a nodo singolo più diffuse per algoritmi di Machine Learning classici. Scikit-learn supporta la maggior parte degli algoritmi di apprendimento supervisionati e non supervisionati e può essere usato anche per il data mining e l'analisi dei dati.

  • XGBoost è una popolare libreria di Machine Learning che contiene algoritmi ottimizzati per il training di alberi delle decisioni e foreste casuali.

  • PyTorch&Tensorflow sono potenti librerie di Deep Learning python. È possibile usare queste librerie per creare modelli a computer singolo impostando il numero di executor nel pool su zero. Anche se Apache Spark non funziona in questa configurazione, è un modo semplice ed economico per creare modelli a computer singolo.

SynapseML

SynapseML (precedentemente noto come MMLSpark) è una libreria open source che semplifica la creazione di pipeline di Machine Learning (ML) scalabili di grandi dimensioni. Questa libreria è progettata per rendere i data scientist più produttivi in Spark, aumentare il tasso di sperimentazione e sfruttare tecniche di Machine Learning all'avanguardia, tra cui deep learning, su set di dati di grandi dimensioni.

SynapseML fornisce un livello sopra le API di basso livello di SparkML durante la creazione di modelli di Machine Learning scalabili, ad esempio l'indicizzazione di stringhe, la creazione di dati in un layout previsto dagli algoritmi di Machine Learning e l'assemblaggio di vettori di funzionalità. La libreria SynapseML semplifica queste e altre attività comuni per la creazione di modelli in PySpark.

Passaggi successivi

Questo articolo offre una panoramica delle varie opzioni per eseguire il training di modelli di Machine Learning in Apache Spark in Microsoft Fabric. Per altre informazioni sul training dei modelli, seguire l'esercitazione seguente: