Condividi tramite


Eseguire il training di modelli di Machine Learning

Apache Spark, una parte di Microsoft Fabric, consente l'apprendimento automatico con Big Data. Con Apache Spark è possibile creare informazioni dettagliate preziose in grandi quantità di dati strutturati, non strutturati e in rapida evoluzione. Sono disponibili diverse opzioni di libreria open source quando si esegue il training di modelli di Machine Learning con Apache Spark in Microsoft Fabric: Apache Spark MLlib, SynapseML e altri.

Apache SparkML e MLlib

Apache Spark, una parte di Microsoft Fabric, offre un framework di elaborazione dati parallelo unificato e open source. Questo framework supporta l'elaborazione in memoria che migliora l'analisi dei Big Data. Il motore di elaborazione Spark è costruito per la velocità, la semplicità d'uso e le analisi sofisticate. Le funzionalità di calcolo distribuite in memoria di Spark lo rendono una scelta ottimale per gli algoritmi iterativi usati dai calcoli di Machine Learning e dei gragrafi.

Le librerie di Machine Learning scalabili MLlib e SparkML offrono funzionalità di modellazione algoritmica a questo ambiente distribuito. MLlib contiene l'API originale, basata su RDD. SparkML è un pacchetto più recente. Fornisce un'API di livello superiore basata sui dataframe per la costruzione di pipeline di Machine Learning. SparkML non supporta ancora tutte le funzionalità di MLlib, ma sostituisce MLlib come libreria di Machine Learning Spark standard.

Nota

Per altre informazioni sulla creazione del modello SparkML, vedere la risorsa Eseguire il training dei modelli con Apache Spark MLlib .

Il runtime di Microsoft Fabric per Apache Spark include diversi pacchetti open source diffusi per il training di modelli di Machine Learning. Queste librerie forniscono codice riutilizzabile che è possibile includere nei programmi o nei progetti. Il runtime include queste librerie di Machine Learning pertinenti e altre:

  • Scikit-learn : una delle librerie di Machine Learning a nodo singolo più diffuse per algoritmi di Machine Learning classici. Scikit-learn supporta la maggior parte degli algoritmi di apprendimento supervisionati e non supervisionati e può gestire il data mining e l'analisi dei dati.

  • XGBoost: una popolare libreria di Machine Learning che contiene algoritmi ottimizzati per il training di alberi delle decisioni e foreste casuali.

  • PyTorch e Tensorflow sono potenti librerie di Deep Learning python. Con queste librerie, è possibile impostare il numero di executor nel pool su zero per creare modelli a computer singolo. Anche se questa configurazione non supporta Apache Spark, è un modo semplice ed economico per creare modelli a computer singolo.

SynapseML

La libreria open source SynapseML (nota in precedenza come MMLSpark) semplifica la creazione di pipeline di Machine Learning (ML) scalabili massicce. Con esso, l'uso di Data Scientist di Spark diventa più produttivo perché la libreria aumenta la frequenza di sperimentazione e applica tecniche di Machine Learning all'avanguardia, incluso deep learning, su set di dati di grandi dimensioni.

SynapseML fornisce un livello sopra le API di basso livello SparkML durante la creazione di modelli di Machine Learning scalabili. Queste API riguardano l'indicizzazione di stringhe, l'assembly vettore di funzionalità, la coercizione dei dati in layout appropriati per gli algoritmi di Machine Learning e altro ancora. La libreria SynapseML semplifica queste e altre attività comuni per la creazione di modelli in PySpark.

Questo articolo offre una panoramica delle varie opzioni disponibili per eseguire il training di modelli di Machine Learning in Apache Spark in Microsoft Fabric. Per altre informazioni sul training dei modelli, vedere queste risorse: