Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Questa pagina contiene istruzioni per la configurazione del calcolo classico per le pipeline dichiarative di Lakeflow Spark. Per un riferimento allo schema JSON, vedere la clusters definizione nella guida di riferimento all'API pipeline.
Per creare una pipeline in esecuzione nel calcolo classico, gli utenti devono prima disporre dell'autorizzazione per distribuire il calcolo classico, ovvero l'autorizzazione di creazione senza restrizioni o l'accesso a un criterio di calcolo. Le pipeline serverless non richiedono autorizzazioni di creazione del calcolo. Per impostazione predefinita, tutti gli utenti dell'area di lavoro possono usare pipeline serverless.
Annotazioni
Poiché il runtime dichiarativo di Lakeflow Spark gestisce il ciclo di vita del calcolo della pipeline ed esegue una versione personalizzata di Databricks Runtime, non è possibile impostare manualmente alcune impostazioni di calcolo in una configurazione della pipeline, ad esempio i nomi della versione spark o del cluster. Vedere Attributi cluster che non sono impostabili dall'utente.
Selezionare il calcolo per la pipeline
Per configurare il calcolo classico per la pipeline dall'editor di Pipelines Lakeflow:
- Fare clic su Impostazioni.
- Nella sezione Calcolo delle impostazioni della pipeline fare clic
- Se è selezionata, deselezionare Serverless.
- Apportare altre modifiche alle impostazioni di calcolo, quindi fare clic su Salva.
In questo modo la pipeline viene configurata in modo da usare il calcolo classico e consente di modificare le impostazioni di calcolo, come descritto di seguito.
Per altre informazioni sull'editor delle pipeline di Lakeflow, vedere Sviluppare ed eseguire il debug di pipeline ETL con l'editor di pipeline di Lakeflow.
Selezionare un criterio di calcolo
Gli amministratori dell'area di lavoro possono configurare i criteri di calcolo per fornire agli utenti l'accesso alle risorse di calcolo classiche per le pipeline. I criteri di calcolo sono facoltativi. Contatta l'amministratore dello spazio di lavoro se non disponi dei privilegi di calcolo richiesti. Vedere Definire i limiti per il calcolo dichiarativo delle pipeline di Lakeflow Spark.
Quando si usa l'API Pipelines, per assicurarsi che i valori predefiniti dei criteri di calcolo siano applicati correttamente, impostare "apply_policy_default_values": true nella clusters definizione:
{
"clusters": [
{
"label": "default",
"policy_id": "<policy-id>",
"apply_policy_default_values": true
}
]
}
Configurare i tag di calcolo
È possibile aggiungere tag personalizzati alle risorse di calcolo classiche della pipeline. I tag consentono di monitorare il costo delle risorse di calcolo usate da vari gruppi nell'organizzazione. Databricks applica questi tag alle risorse cloud e ai log di utilizzo registrati nelle tabelle di sistema di utilizzo. È possibile aggiungere tag usando l'impostazione dell'interfaccia utente Tag cluster o modificando la configurazione JSON della pipeline.
Selezionare i tipi di istanza per eseguire una pipeline
Per impostazione predefinita, le pipeline dichiarative di Lakeflow Spark selezionano i tipi di istanza per i nodi driver e worker della pipeline. Facoltativamente, è possibile configurare i tipi di istanza. Ad esempio, selezionare i tipi di istanza per migliorare le prestazioni della pipeline o risolvere i problemi di memoria durante l'esecuzione della pipeline.
Per configurare i tipi di istanza quando si crea o si modifica una pipeline nell'editor delle pipeline di Lakeflow:
- Fare clic sul pulsante Impostazioni.
- Nella sezione Calcolo delle impostazioni della pipeline fare clic
- Nella sezione Impostazioni avanzate, selezionare i tipi di istanza Tipo di operatore e Tipo di driver per la pipeline.
Configurare impostazioni separate per i cluster di aggiornamento e manutenzione
Ogni pipeline dichiarativa ha due risorse di calcolo associate: un cluster di aggiornamento che elabora gli aggiornamenti della pipeline e un cluster di manutenzione che esegue attività di manutenzione giornaliere (inclusa l'ottimizzazione predittiva). Per impostazione predefinita, le configurazioni di calcolo si applicano a entrambi i cluster. L'uso delle stesse impostazioni per entrambi i cluster migliora l'affidabilità delle esecuzioni di manutenzione assicurandosi che le configurazioni necessarie, ad esempio le credenziali di accesso ai dati per un percorso di archiviazione, vengano applicate al cluster di manutenzione.
Per applicare le impostazioni solo a uno dei due cluster, aggiungere il label campo all'oggetto JSON di impostazione. Per il label campo sono disponibili tre valori possibili:
-
maintenance: applica l'impostazione solo al cluster di manutenzione. -
updates: applica l'impostazione solo al cluster di aggiornamento. -
default: applica l'impostazione sia ai cluster di aggiornamento che a quello di manutenzione. Questo è il valore predefinito se illabelcampo viene omesso.
Se è presente un'impostazione in conflitto, l'impostazione con updates o maintenance etichetta sostituisce l'impostazione definita con l'etichetta default .
Annotazioni
Il cluster di manutenzione giornaliero viene usato solo in determinati casi:
- Pipeline archiviate nel metastore Hive.
- Pipeline nelle aree di lavoro che non hanno accettato le condizioni di calcolo serverless del servizio. Se è necessaria assistenza per accettare le condizioni, contattare il rappresentante di Databricks.
- Pipeline nelle aree di lavoro che non hanno configurato correttamente il collegamento privato a serverless.
Esempio: Definire un'impostazione per il cluster di aggiornamento
L'esempio seguente definisce un parametro di configurazione Spark aggiunto solo alla configurazione per il cluster updates:
{
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
},
{
"label": "updates",
"spark_conf": {
"key": "value"
}
}
]
}
Esempio: Configurare i tipi di istanza per il cluster di aggiornamento
Per evitare di assegnare risorse non necessarie al cluster maintenance, in questo esempio viene usata l'etichetta updates per impostare i tipi di istanza solo per il cluster updates.
{
"clusters": [
{
"label": "updates",
"node_type_id": "Standard_D12_v2",
"driver_node_type_id": "Standard_D3_v2",
"...": "..."
}
]
}
Arresto ritardato della computazione
Per controllare il comportamento di arresto del cluster, è possibile usare la modalità di sviluppo o di produzione oppure usare l'impostazione pipelines.clusterShutdown.delay nella configurazione della pipeline. Nell'esempio seguente il valore pipelines.clusterShutdown.delay viene impostato su 60 secondi:
{
"configuration": {
"pipelines.clusterShutdown.delay": "60s"
}
}
Quando la modalità production è abilitata, il valore predefinito per pipelines.clusterShutdown.delay è 0 seconds. Quando development modalità è abilitata, il valore predefinito è 2 hours.
Annotazioni
Poiché la risorsa di calcolo dichiarativa di Lakeflow Spark si arresta automaticamente quando non è in uso, non è possibile usare criteri di calcolo che impostano autotermination_minutes. In questo modo si verifica un errore.
Creare un calcolo a nodo singolo
Un singolo nodo di calcolo ha un nodo driver che funge sia da master che da lavoratore. Questo è destinato ai carichi di lavoro che usano piccole quantità di dati o non vengono distribuiti.
Per creare un calcolo a nodo singolo, impostare num_workers su 0. Per esempio:
{
"clusters": [
{
"num_workers": 0
}
]
}