Condividi tramite


Come creare pool di Spark personalizzati in Microsoft Fabric

Questo articolo illustra come creare pool di Apache Spark personalizzati in Microsoft Fabric per i carichi di lavoro di analisi. I pool di Apache Spark consentono di creare ambienti di calcolo personalizzati in base ai requisiti, in modo da ottenere prestazioni ottimali e uso delle risorse.

Specificare i nodi minimo e massimo per la scalabilità automatica. Il sistema ottiene e ritira i nodi man mano che cambiano le esigenze di calcolo del processo, quindi la scalabilità è efficiente e le prestazioni migliorano. I pool di Spark regolano automaticamente il numero di executor, quindi non è necessario impostarli manualmente. Il sistema modifica i conteggi degli executor in base alle esigenze di calcolo del volume di dati e dei processi, in modo da potersi concentrare sui carichi di lavoro anziché sull'ottimizzazione delle prestazioni e sulla gestione delle risorse.

Suggerimento

Quando si configurano i pool di Spark, le dimensioni del nodo vengono determinate dalle unità di capacità (CU) che rappresentano la capacità di calcolo assegnata a ogni nodo. Per altre informazioni sulle dimensioni dei nodi e sul cu, vedere la sezione Opzioni relative alle dimensioni del nodo in questa guida.

Prerequisiti

Per creare un pool di Spark personalizzato, assicurarsi di avere accesso amministratore all'area di lavoro. L'amministratore della capacità abilita l'opzione Pool di aree di lavoro personalizzate nella sezione Calcolo Spark delle impostazioni di amministrazione della capacità. Per ulteriori informazioni, vedere Impostazioni di calcolo Spark per le capacità di Fabric.

Creare pool di Spark personalizzati

Per creare o gestire il pool di Spark associato all'area di lavoro:

  1. Andare all'area di lavoro e selezionare Impostazioni dell'area di lavoro.

  2. Selezionare l'opzione Data Engineering/Science per espandere il menu, quindi selezionare Impostazioni Spark.

    Screenshot che mostra la visualizzazione dei dettagli delle impostazioni di Spark.

  3. Selezionare l'opzione Nuovo pool. Nella schermata Crea pool, assegnare un nome al pool di Spark. Scegliere anche la famiglia di nodi e selezionare una dimensione del nodo dalle dimensioni disponibili (Piccolo, Medio, Grande, Grandissimo ed Enorme) in base ai requisiti di calcolo per i carichi di lavoro.

    Screenshot che mostra le opzioni di creazione del pool personalizzate.

  4. È possibile impostare la configurazione minima dei nodi per i pool personalizzati su 1. Poiché Fabric Spark offre una disponibilità ripristinabile per i cluster con un singolo nodo, non è necessario preoccuparsi degli errori dei processi, della perdita di sessione durante gli errori o del sovrappagamento per il calcolo di processi Spark più piccoli.

  5. È possibile abilitare o disabilitare la scalabilità automatica per i pool di Spark personalizzati. Quando la scalabilità automatica è abilitata, il pool acquisirà in modo dinamico nuovi nodi entro il limite massimo specificato dall'utente e poi li ritira dopo l'esecuzione del processo. Questa funzionalità garantisce prestazioni migliori adattando le risorse in base ai requisiti del processo. È possibile ridimensionare i nodi, i quali si adattano alle unità di capacità acquistate come parte dello SKU per la capacità di Fabric.

    Screenshot che mostra le opzioni di creazione del pool personalizzate per la scalabilità automatica e l'allocazione dinamica.

  6. È possibile regolare il numero di executor usando un dispositivo di scorrimento. Ogni executor è un processo Spark che esegue attività e contiene i dati in memoria. L'aumento degli executor può migliorare il parallelismo, ma aumenta anche le dimensioni e il tempo di avvio del cluster. È anche possibile scegliere di abilitare l'allocazione dinamica dell'executor per il pool di Spark, che determina automaticamente il numero ottimale di executor entro il limite massimo specificato dall'utente. Questa funzionalità adatta il numero di executor in base al volume dei dati, con conseguente miglioramento delle prestazioni e dell'utilizzo delle risorse.

Questi pool personalizzati hanno una durata predefinita di sospensione automatica di 2 minuti dopo la scadenza del periodo di tempo di inattività. Una volta raggiunta la durata della sospensione automatica, la sessione scade e i cluster non vengono allocati. Verrà effettuato l'addebito in base al numero di nodi e alla durata per cui vengono usati i pool di Spark personalizzati.

Nota

I pool di Spark personalizzati in Microsoft Fabric supportano attualmente un limite massimo di nodi pari a 200. Quando si configura la scalabilità automatica o si impostano conteggi manuali dei nodi, assicurarsi che i valori minimi e massimi rimangano entro questo limite. Il superamento di questo limite genererà errori di convalida durante la creazione o l'aggiornamento del pool.

Opzioni dimensioni nodo

Quando si configura un pool di Spark personalizzato, è possibile scegliere tra le dimensioni del nodo seguenti:

Dimensioni nodo Unità di capacità (CU) Memoria (GB) Descrizione
Piccola 4 32 Per processi di sviluppo e test leggeri.
Intermedio 8 64 Per carichi di lavoro generali e operazioni tipiche.
Grande 16 128 Per attività a elevato utilizzo di memoria o processi di elaborazione dati di grandi dimensioni.
X-Large 32 256 Per i carichi di lavoro Spark più impegnativi che necessitano di risorse significative.

Nota

Un'unità di capacità (CU) nei pool di Microsoft Fabric Spark rappresenta la capacità di calcolo assegnata a ogni nodo, non il consumo effettivo. Le unità di capacità differiscono da VCore (Virtual Core), usate nelle risorse di Azure basate su SQL. CU è il termine standard per i pool di Spark in Fabric, mentre VCore è più comune per i pool SQL. Quando si ridimensionano i nodi, usare CU per determinare la capacità assegnata per i carichi di lavoro Spark.