Condividi tramite


Eseguire il training di modelli di Machine Learning

Apache Spark, parte di Microsoft Fabric, consente l'apprendimento automatico su larga scala. Usarlo per ottenere informazioni dettagliate da grandi volumi di dati strutturati, non strutturati e di streaming. Addestra modelli su Microsoft Fabric con librerie open source, ad esempio Apache Spark MLlib, SynapseML e altre.

Apache SparkML e MLlib

Apache Spark, parte di Microsoft Fabric, è un framework di elaborazione dati parallelo unificato e open source. Usa l'elaborazione in memoria per velocizzare l'analisi dei Big Data. Spark è progettato per velocità, facilità d'uso e analisi avanzate. Il calcolo distribuito in memoria di Spark si adatta ad algoritmi iterativi di Machine Learning e gragrafi.

Sono disponibili due librerie di apprendimento automatico scalabili che integrano funzionalità di modellazione algoritmica nell'ambiente distribuito: MLlib e SparkML. MLlib fornisce l'API basata su RDD originale. SparkML è un pacchetto più recente che fornisce un'API basata su dataframe di livello superiore per la compilazione di pipeline di Machine Learning. Contiene un'API di livello superiore basata su Spark DataFrames per la costruzione di pipeline di apprendimento automatico. SparkML non supporta ancora tutte le funzionalità MLlib, ma sostituisce MLlib come libreria di Machine Learning Spark standard.

Nota

Per altre informazioni, vedere Eseguire il training dei modelli con Apache Spark MLlib.

Il runtime di Microsoft Fabric per Apache Spark include diversi pacchetti open source più diffusi per il training di modelli di Machine Learning. Queste librerie forniscono codice riutilizzabile per i progetti. Il runtime include queste librerie di Machine Learning:

  • Scikit-learn : una popolare libreria a nodo singolo per algoritmi di Machine Learning classici. Supporta la maggior parte degli algoritmi supervisionati e non supervisionati e gestisce il data mining e l'analisi dei dati.

  • XGBoost : una libreria popolare con algoritmi ottimizzati per il training di alberi delle decisioni e foreste casuali.

  • PyTorch e Tensorflow sono librerie di Deep Learning Python efficienti. Con queste librerie, è possibile impostare il numero di executor nel pool su zero per creare modelli a computer singolo. Anche se questa configurazione non supporta Apache Spark, è un modo semplice ed economico per creare modelli a computer singolo.

SynapseML

La libreria open source SynapseML (nota in precedenza come MMLSpark) consente di creare pipeline di Machine Learning (ML) scalabili. Accelera la sperimentazione e consente di applicare tecniche avanzate, tra cui deep learning, a set di dati di grandi dimensioni.

SynapseML fornisce un livello sopra le API di basso livello SparkML durante la creazione di modelli di apprendimento automatico scalabili. Queste API riguardano l'indicizzazione di stringhe, l'assembly vettore di funzionalità, la coercizione dei dati in layout appropriati per gli algoritmi di apprendimento automatico e altro ancora. La libreria SynapseML semplifica queste e altre attività comuni per la creazione di modelli in PySpark.

Esplorare le opzioni per il training di modelli di Machine Learning in Apache Spark in Microsoft Fabric. Per altre informazioni, vedere: