Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Apache Spark in Azure Synapse Analytics permette di usare l'apprendimento automatico con Big Data, per ottenere informazioni approfondite di grande utilità da ingenti quantità di dati strutturati, non strutturati e che cambiano rapidamente. Sono disponibili diverse opzioni per il training di modelli di Machine Learning con Azure Spark in Azure Synapse Analytics: Apache Spark MLlib, Azure Machine Learning e altre librerie open source.
Nota
L'anteprima per i pool abilitati per la GPU di Azure Synapse è ora stata deprecata.
Pool di Apache Spark abilitati per GPU
Per semplificare il processo di creazione e gestione dei pool, Azure Synapse si occupa della preinstallazione di librerie di basso livello e della configurazione di tutti i requisiti di rete complessi tra i nodi di calcolo. Questa integrazione consente agli utenti di iniziare a usare pool con accelerazione GPU in pochi minuti.
Nota
- I pool con accelerazione GPU possono essere creati nelle aree di lavoro situate negli Stati Uniti orientali, nell’Australia orientale e nell’Europa settentrionale.
- I pool con accelerazione della GPU sono disponibili solo con Apache Spark 3.1 (deprecato) e il runtime 3.2 (deprecato).
- Potrebbe essere necessario richiedere un aumento limite per creare cluster abilitati per GPU.
Ambiente ML GPU
Azure Synapse Analytics offre il supporto integrato per l'infrastruttura di Deep Learning. I runtime di Azure Synapse Analytics per Apache Spark 3 includono il supporto per le librerie di Deep Learning più comuni, ad esempio TensorFlow e PyTorch. Il runtime di Azure Synapse include anche librerie di supporto come Petastorm e Horovod comunemente usate per il training distribuito.
TensorFlow
TensorFlow è un framework open source di Machine Learning per tutti gli sviluppatori. Viene usato per l'implementazione di applicazioni di Machine Learning e Deep Learning.
Per altre informazioni su TensorFlow, è possibile visitare la documentazione dell'API TensorFlow.
PyTorch
PyTorch è una libreria tensor ottimizzata per il Deep Learning tramite GPU e CPU.
Per altre informazioni su PyTorch, è possibile visitare la documentazione di PyTorch.
Horovod
Horovod è un framework di training di Deep Learning distribuito per TensorFlow, Keras e PyTorch. Horovod è stato sviluppato per rendere il Deep Learning distribuito veloce e facile da usare. Con questo framework, è possibile aumentare le prestazioni di uno script di training esistente per l'esecuzione su centinaia di GPU in poche righe di codice. Horovod può anche essere eseguito su Apache Spark, rendendo possibile unificare l'elaborazione dei dati e il training del modello in una singola pipeline.
Per altre informazioni su come eseguire processi di training distribuiti in Azure Synapse Analytics, vedere le esercitazioni seguenti: - Esercitazione: Training distribuito con Horovod e PyTorch - Tutorial: Distributed training with Horovod and TensorFlow (Esercitazione: Training distribuito con Horovod e TensorFlow)
Per altre informazioni su Horovod, è possibile visitare la documentazione di Horovod,
Petastorm
Petastorm è una libreria di accesso ai dati open source che consente il training a nodo singolo o distribuito di modelli di Deep Learning. Questa libreria consente il training direttamente dai set di dati in formato Apache Parquet e set di dati già caricati come DataFrame Apache Spark. Petastorm supporta framework di training comuni, ad esempio TensorFlow e PyTorch.
Per altre informazioni su Petastorm, è possibile visitare la pagina di GitHub Petastorm o la documentazione dell'API Petastorm.
Passaggi successivi
Questo articolo offre una panoramica delle varie opzioni per eseguire il training di modelli di Machine Learning nei pool di Apache Spark in Azure Synapse Analytics. Per saperne di più sull'addestramento del modello, segui l'esercitazione seguente.
- Eseguire esperimenti SparkML: esercitazione su Apache SparkML
- Accelerare i carichi di lavoro ETL con RAPIDS: Apache Spark Rapids