Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Importante
Le versioni dell'ambiente per SDP sono in versione beta.
Una versione dell'ambiente fissa la versione del linguaggio Python e l'insieme di librerie Python preinstallate a disposizione del codice Python della pipeline. Tutte le dipendenze esterne aggiunte alla pipeline vengono sovrapposte a questa base.
Le versioni dell'ambiente separano il runtime di Python della pipeline dalla versione di Databricks Runtime in cui viene eseguita la pipeline. Mentre è impostata una versione dell'ambiente, gli aggiornamenti di Databricks Runtime non modificano la versione della lingua Python o le versioni della libreria preinstallate. Il runtime Python è compatibile anche con job serverless e notebook che utilizzano la stessa versione dell'ambiente. Per trovare la versione corrente di Databricks Runtime per le pipeline dichiarative di Lakeflow Spark, vedere Le note sulla versione di Lakeflow Spark Declarative Pipelines e il processo di aggiornamento della versione.
Importante
Le pipeline con una versione dell'ambiente eseguono codice Python tramite Spark Connect. Spark Connect modifica il comportamento del codice della pipeline. Prima di abilitare una versione dell'ambiente in una pipeline esistente, vedere Compatibilità delle versioni dell'ambiente per limitazioni, modifiche del comportamento, analisi della compatibilità e flusso di lavoro di migrazione.
Requisiti
Le versioni dell'ambiente hanno i requisiti seguenti:
- La pipeline deve utilizzare Unity Catalog. Le pipeline del metastore Hive non sono supportate.
Versioni dell'ambiente supportate
SDP supporta le versioni dell'ambiente 3 e 4 sia nel calcolo serverless che in quello classico. Per la versione del linguaggio Python e l'elenco completo delle librerie Python preinstallate disponibili in ogni versione, consulta il riferimento alla versione dell'ambiente.
Abilitare una versione dell'ambiente in una pipeline
È possibile configurare una versione dell'ambiente tramite l'interfaccia utente dell'editor della pipeline, l'API REST Pipelines o i bundle di automazione dichiarativa.
Ricordarsi di verificare la compatibilità con Spark Connect prima di abilitare una versione dell'ambiente in una pipeline.
Abilitare tramite l'interfaccia utente
- Nell'editor della pipeline fare clic su Impostazioni.
- In Ambiente pipeline selezionare
Modificare l'ambiente.
- Selezionare una versione dell'ambiente dall'elenco a discesa.
- Salvare le impostazioni della pipeline.
Le dipendenze esterne aggiunte nella sezione Ambiente pipeline vengono sovrapposte alle librerie incluse nella versione dell'ambiente selezionata. Consulta Gestione delle dipendenze Python per le pipeline.
Abilitare tramite l'API
L'API REST Pipelines accetta un environment blocco per la creazione e l'aggiornamento della pipeline. L'autenticazione del token di accesso personale deve essere abilitata per l'area di lavoro.
Per creare una pipeline con una versione dell'ambiente:
curl --request POST \
--url 'https://<workspace-host>/api/2.0/pipelines' \
--header 'Authorization: Bearer <personal-access-token>' \
--header 'Content-Type: application/json' \
--data-raw '{
"name": "<pipeline-name>",
"catalog": "<catalog>",
"schema": "<schema>",
"channel": "CURRENT",
"environment": {
"environment_version": "4",
"dependencies": [
"simplejson==3.19.*"
]
}
}'
Per impostare la versione dell'ambiente in una pipeline esistente, inviare lo stesso environment blocco con PUT /api/2.0/pipelines/<pipeline-id>.
Abilitazione tramite pacchetti di automazione dichiarativa
Quando si crea una pipeline usando bundle di automazione dichiarativa, è possibile impostare una versione dell'ambiente nella definizione YAML della pipeline.
- Assicurarsi che l'interfaccia della riga di comando di Databricks sia disponibile nella versione 0.294.0 o successiva. In caso contrario, eseguire l'aggiornamento seguendo la guida all'installazione.
- Configura un bundle seguendo il tutorial del bundle delle pipeline.
- Individua il file YAML della pipeline nel bundle, in genere
<bundle-folder>/resources/<pipeline_name>_pipeline.yml. - Imposta i campi
environment_versionedependenciesnella pipeline YAML:
resources:
pipelines:
my_pipeline:
name: my_pipeline
catalog: ${var.catalog}
schema: ${var.schema}
root_path: '../src/my_pipeline'
libraries:
- glob:
include: ../src/my_pipeline/transformations/**
environment:
environment_version: 4
dependencies:
- --editable ${workspace.file_path}
Verificare la versione dell'ambiente in una pipeline
Per verificare se una versione dell'ambiente è configurata in una pipeline:
-
Interfaccia utente: aprire le impostazioni della pipeline e controllare la sezione Ambiente pipeline oppure esaminare il pannello JSON per il
environment.environment_versioncampo. -
API: chiamare
GET /api/2.0/pipelines/<pipeline-id>e cercareenvironment.environment_versionnella risposta. -
Registro eventi: Esamina l'evento
create_updateper il campoenvironment_version.
Disabilita la versione dell'ambiente in una pipeline
Rimuovi la versione dell'ambiente dalla sezione Ambiente della pipeline nelle impostazioni della pipeline, oppure rimuovi il campo environment_version dal blocco environment nella definizione dell'API o del bundle.
Quando la versione dell'ambiente viene rimossa, la pipeline torna alla configurazione di runtime Python precedente.
Vedere anche
- Compatibilità delle versioni dell'ambiente : limitazioni, modifiche del comportamento, analisi della compatibilità e flusso di lavoro di migrazione.
- Gestisci le dipendenze Python per le pipeline — ovvero dipendenze Python esterne sovrapposte a una versione dell'ambiente.