Come creare pool spark personalizzati in Microsoft Fabric

In questo documento viene illustrato come creare pool di Apache Spark personalizzati in Microsoft Fabric per i carichi di lavoro di analisi. I pool di Apache Spark consentono agli utenti di creare ambienti di calcolo personalizzati in base ai requisiti specifici, garantendo prestazioni ottimali e utilizzo delle risorse.

Specificare i nodi minimo e massimo per la scalabilità automatica. In base a questi valori, il sistema acquisisce e ritira dinamicamente i nodi man mano che cambiano i requisiti di calcolo del processo, il che comporta una scalabilità efficiente e prestazioni migliorate. L'allocazione dinamica degli executor nei pool di Spark riduce anche la necessità di una configurazione manuale dell'executor. Il sistema regola invece il numero di executor a seconda del volume di dati e delle esigenze di calcolo a livello di processo. Questo processo consente di concentrarsi sui carichi di lavoro senza doversi preoccupare dell'ottimizzazione delle prestazioni e della gestione delle risorse.

Nota

Per creare un pool di Spark personalizzato, è necessario l'accesso amministratore all'area di lavoro. L'amministratore della capacità deve abilitare l'opzione Pool di aree di lavoro personalizzate nella sezione Calcolo Spark delle impostazioni capacità Amministrazione. Per altre informazioni, vedere Spark Compute Impostazioni for Fabric Capacities (Impostazioni di calcolo Spark per le capacità di infrastruttura).

Creare pool di Spark personalizzati

Per creare o gestire il pool di Spark associato all'area di lavoro:

  1. Passare all'area di lavoro e selezionare Impostazioni dell'area di lavoro.

    Screenshot showing where to select Data Engineering in the Workspace settings menu.

  2. Selezionare l'opzione Ingegneria dei dati/Science per espandere il menu e quindi selezionare Calcolo Spark.

    Screenshot showing Spark Settings detail view.

  3. Selezionare l'opzione Nuovo pool . Nella schermata Crea pool assegnare un nome al pool di Spark. Scegliere anche la famiglia node e selezionare una dimensione del nodo dalle dimensioni disponibili (Small, Medium, Large, X-Large e XX-Large) in base ai requisiti di calcolo per i carichi di lavoro.

    Screenshot showing custom pool creation options.

  4. È possibile impostare la configurazione minima dei nodi per i pool personalizzati su 1. Poiché Fabric Spark offre disponibilità ripristinabile per i cluster con un singolo nodo, non è necessario preoccuparsi degli errori dei processi, della perdita di sessione durante gli errori o del pagamento in base al calcolo per processi Spark più piccoli.

  5. È possibile abilitare o disabilitare la scalabilità automatica per i pool di Spark personalizzati. Quando la scalabilità automatica è abilitata, il pool acquisirà dinamicamente nuovi nodi fino al limite massimo di nodi specificato dall'utente e quindi li ritirerà dopo l'esecuzione del processo. Questa funzionalità garantisce prestazioni migliori regolando le risorse in base ai requisiti del processo. È possibile ridimensionare i nodi, che rientrano nelle unità di capacità acquistate come parte dello SKU della capacità infrastruttura.

    Screenshot showing custom pool creation options for autoscaling and dynamic allocation.

  6. È anche possibile scegliere di abilitare l'allocazione dinamica dell'executor per il pool di Spark, che determina automaticamente il numero ottimale di executor entro il limite massimo specificato dall'utente. Questa funzionalità regola il numero di executor in base al volume di dati, con conseguente miglioramento delle prestazioni e dell'utilizzo delle risorse.

Questi pool personalizzati hanno una durata predefinita di sospensione automatica di 2 minuti. Una volta raggiunta la durata della sospensione automatica, la sessione scade e i cluster non vengono allocati. Vengono addebitati i costi in base al numero di nodi e alla durata per cui vengono usati i pool di Spark personalizzati.