Condividi tramite


Deep Learning (deprecato)

Apache Spark in Azure Synapse Analytics permette di usare l'apprendimento automatico con Big Data, per ottenere informazioni approfondite di grande utilità da ingenti quantità di dati strutturati, non strutturati e che cambiano rapidamente. Sono disponibili diverse opzioni per il training di modelli di Machine Learning con Azure Spark in Azure Synapse Analytics: Apache Spark MLlib, Azure Machine Learning e altre librerie open source.

Nota

L'anteprima per i pool abilitati per la GPU di Azure Synapse è stata deprecata.

Attenzione

Notifica relativa alla deprecazione e disabilitazione per le GPU nel runtime di Azure Synapse per Apache Spark 3.1 e 3.2

  • L'anteprima con accelerazione della GPU è ora deprecata nel runtime di Apache Spark 3.2 (deprecato). Per i runtime deprecati non sono disponibili correzioni di bug e funzionalità. Questo runtime e l'anteprima con accelerazione della GPU corrispondente in Spark 3.2 sono stati ritirati e disabilitati a partire dall'8 luglio 2024.
  • L'anteprima accelerata della GPU è ora deprecata nel runtime di Azure Synapse 3.1 (deprecato). Il runtime di Azure Synapse per Apache Spark 3.1 ha raggiunto la fine del supporto lo scorso 26 gennaio 2023. Il supporto ufficiale è stato sospeso il 26 gennaio 2024 e a partire da tale data non sono stati più risolti i problemi relativi ai ticket di supporto né fornite correzioni ai bug o aggiornamenti della sicurezza.

Pool di Apache Spark abilitati per GPU

Per semplificare il processo di creazione e gestione dei pool, Azure Synapse si occupa della preinstallazione di librerie di basso livello e della configurazione di tutti i requisiti di rete complessi tra i nodi di calcolo. Questa integrazione consente agli utenti di iniziare a usare pool con accelerazione GPU in pochi minuti.

Nota

  • I pool con accelerazione GPU possono essere creati nelle aree di lavoro situate negli Stati Uniti orientali, nell’Australia orientale e nell’Europa settentrionale.
  • I pool con accelerazione della GPU sono disponibili solo con Apache Spark 3.1 (deprecato) e il runtime 3.2 (deprecato).
  • Potrebbe essere necessario richiedere un aumento limite per creare cluster abilitati per GPU.

Ambiente ML GPU

Azure Synapse Analytics offre il supporto integrato per l'infrastruttura di Deep Learning. I runtime di Azure Synapse Analytics per Apache Spark 3 includono il supporto per le librerie di Deep Learning più comuni, ad esempio TensorFlow e PyTorch. Il runtime di Azure Synapse include anche librerie di supporto come Petastorm e Horovod comunemente usate per il training distribuito.

TensorFlow

TensorFlow è un framework open source di Machine Learning per tutti gli sviluppatori. Viene usato per l'implementazione di applicazioni di Machine Learning e Deep Learning.

Per altre informazioni su Tensorflow, è possibile visitare la documentazione dell'API Tensorflow.

PyTorch

PyTorch è una libreria tensor ottimizzata per il Deep Learning tramite GPU e CPU.

Per altre informazioni su PyTorch, è possibile visitare la documentazione di PyTorch.

Horovod

Horovod è un framework di training di Deep Learning distribuito per TensorFlow, Keras e PyTorch. Horovod è stato sviluppato per rendere il Deep Learning distribuito veloce e facile da usare. Con questo framework, è possibile aumentare le prestazioni di uno script di training esistente per l'esecuzione su centinaia di GPU in poche righe di codice. Horovod può anche essere eseguito su Apache Spark, rendendo possibile unificare l'elaborazione dei dati e il training del modello in una singola pipeline.

Per altre informazioni su come eseguire processi di training distribuiti in Azure Synapse Analytics, vedere le esercitazioni seguenti: - Esercitazione: Training distribuito con Horovod e PyTorch - Esercitazione: Training distribuito con Horovod e Tensorflow

Per altre informazioni su Horovod, è possibile visitare la documentazione di Horovod,

Petastorm

Petastorm è una libreria di accesso ai dati open source che consente il training a nodo singolo o distribuito di modelli di Deep Learning. Questa libreria consente il training direttamente dai set di dati in formato Apache Parquet e set di dati già caricati come DataFrame Apache Spark. Petastorm supporta framework di training più diffusi, ad esempio Tensorflow e PyTorch.

Per altre informazioni su Petastorm, è possibile visitare la pagina di GitHub Petastorm o la documentazione dell'API Petastorm.

Passaggi successivi

Questo articolo offre una panoramica delle varie opzioni per eseguire il training di modelli di Machine Learning nei pool di Apache Spark in Azure Synapse Analytics. Per altre informazioni sul training del modello, vedere l'esercitazione seguente: