Prepararsi all'uso di Apache Spark

Completato

Apache Spark è un framework di elaborazione dati distribuito che consente l'analisi dei dati su larga scala coordinando il lavoro su più nodi di elaborazione in un cluster. Più semplicemente, Spark usa un approccio "divide et impera" per elaborare rapidamente grandi volumi di dati, distribuendo il lavoro su più computer. Il processo di distribuzione delle attività e di raccolta dei risultati viene gestito automaticamente da Spark. Si invia un processo di elaborazione dei dati sotto forma di codice che avvia un programma driver, che usa un oggetto di gestione del cluster denominato SparkContext per gestire la distribuzione dell'elaborazione nel cluster Spark. Nella maggior parte dei casi, questi dettagli sono astratti: è sufficiente scrivere il codice richiesto per eseguire le operazioni sui dati necessarie.

Spark può eseguire codice scritto in un'ampia gamma di linguaggi, tra cui Java, Scala (un linguaggio di scripting basato su Java), Spark R, Spark SQL e PySpark (una variante di Python specifica per Spark). La maggior parte dei carichi di lavoro di ingegneria e analisi dei dati viene eseguita usando una combinazione di PySpark e Spark SQL.

Impostazioni di Spark

In Microsoft Fabric a ogni area di lavoro viene assegnato un cluster Spark. Un amministratore può gestire le impostazioni per il cluster Spark nella sezione Ingegneria dei dati/Scienza delle impostazioni dell'area di lavoro.

Screenshot of the Spark settings page in Microsoft Fabric.

Le impostazioni di configurazione specifiche includono:

  • Famiglia di nodi: il tipo di macchine virtuali usate per i nodi del cluster Spark. Nella maggior parte dei casi, i nodi ottimizzati per la memoria offrono prestazioni ottimali.
  • Versione di runtime: la versione di Spark (e i sottocomponenti dipendenti) da eseguire nel cluster.
  • Proprietà di Spark: impostazioni specifiche di Spark che si desidera abilitare o di cui eseguire l'override nel cluster. È possibile visualizzare un elenco delle proprietà nella documentazione di Apache Spark.

Nota

Nella maggior parte degli scenari, le impostazioni predefinite forniscono una configurazione ottimale per Spark in Microsoft Fabric.

Librerie

L'ecosistema open source di Spark include un'ampia selezione di librerie di codice per attività comuni (e talvolta molto specializzate). Poiché gran parte dell'elaborazione di Spark viene eseguita con PySpark, l'ampia gamma di librerie Python garantisce che, qualunque sia l’attività da eseguire, è probabile che esista un'apposita libreria.

Per impostazione predefinita, i cluster Spark in Microsoft Fabric includono molte delle librerie più usate. Per impostare altre librerie predefinite o rendere persistenti le specifiche della libreria per gli elementi di codice, sono necessarie autorizzazioni di amministratore dell'area di lavoro per la creazione di un ambiente e l'impostazione dell'ambiente predefinito per l'area di lavoro.

Suggerimento

Per altre informazioni sulla gestione delle librerie, vedere Gestire le librerie di Apache Spark in Microsoft Fabric nella documentazione di Microsoft Fabric.