Nota
L'accesso a questa pagina richiede l'autorizzazione. Puoi provare ad accedere o a cambiare directory.
L'accesso a questa pagina richiede l'autorizzazione. Puoi provare a cambiare directory.
I bundle di risorse di Databricks consentono di specificare informazioni sulle risorse di Azure Databricks utilizzate dal bundle nella mappatura resources nella configurazione del bundle. Vedere le informazioni di riferimento sulle risorse.
Questa pagina fornisce informazioni di riferimento sulla configurazione per tutti i tipi di risorse supportati per i bundle e fornisce dettagli e un esempio per ogni tipo supportato. Per esempi aggiuntivi, vedere gli esempi di configurazione del bundle .
Lo schema JSON per i bundle usati per convalidare la configurazione YAML si trova nel repository GitHub dell'interfaccia della riga di comando di Databricks.
Tip
Per generare YAML per qualsiasi risorsa esistente, usare il comando databricks bundle generate. Vedere databricks bundle generate.
Risorse disponibili
La tabella seguente elenca i tipi di risorse supportati per i bundle (YAML e Python, se applicabile). Alcune risorse possono essere create definendole in un bundle e distribuendo il bundle e alcune risorse possono essere create solo facendo riferimento a un asset esistente da includere nel bundle.
La configurazione delle risorse definisce un oggetto Databricks che corrisponde a un oggetto API REST di Databricks . I campi di richiesta di creazione supportati dell'oggetto API REST, espressi come YAML, sono le chiavi supportate della risorsa. I collegamenti alla documentazione per l'oggetto corrispondente di ogni risorsa sono riportati nella tabella seguente.
Tip
Il comando databricks bundle validate restituisce avvisi se le proprietà sconosciute della risorsa vengono trovate nei file di configurazione del bundle.
vigile
Type: Map
La risorsa di avviso definisce un avviso SQL (v2).The alert resource define a SQL alert (v2).
Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.279.0
alerts:
<alert-name>:
<alert-field-name>: <alert-field-value>
| Key | Type | Description |
|---|---|---|
custom_description |
String | Optional. Descrizione personalizzata per l'avviso. Supporta il modello mustache. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.279.0 |
custom_summary |
String | Optional. Riepilogo personalizzato per l'avviso. Supporta il modello mustache. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.279.0 |
display_name |
String | Obbligatorio. Nome visualizzato dell'avviso, ad esempio Example alert.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.279.0 |
evaluation |
Map | Obbligatorio. Configurazione di valutazione per l'avviso. Vedere alert.evaluation. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.279.0 |
lifecycle |
Map | Contiene le impostazioni del ciclo di vita per una risorsa. Controlla il comportamento della risorsa quando viene distribuita o distrutta. Vedere ciclo di vita. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.279.0 |
parent_path |
String | Optional. Percorso dell'area di lavoro della cartella contenente l'avviso. Può essere impostato solo in caso di creazione e non può essere aggiornato. Esempio: /Users/someone@example.com.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.279.0 |
permissions |
Sequence | Le autorizzazioni di allarme. Vedere autorizzazioni. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.279.0 |
query_text |
String | Obbligatorio. Testo della query da eseguire, ad esempio SELECT 1.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.279.0 |
run_as |
Map | Optional. Specifica l'identità che verrà usata per eseguire l'avviso. Questo campo consente di configurare gli avvisi per essere eseguiti come utente specifico o principale del servizio. Vedere run_as.
Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.279.0 |
schedule |
Map | Obbligatorio. Configurazione della pianificazione per la notifica. Vedere alert.schedule. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.279.0 |
warehouse_id |
String | Obbligatorio. ID del magazzino SQL collegato all'avviso, ad esempio, a7066a8ef796be84.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.279.0 |
alert.valutazione
Type: Map
Configurazione di valutazione per l'avviso.
| Key | Type | Description |
|---|---|---|
comparison_operator |
String | Operatore utilizzato per il confronto nella valutazione dell'avviso. |
empty_result_state |
String | Stato dell'avviso se il risultato è vuoto. Evitare di impostare questo campo su UNKNOWN perché lo stato UNKNOWN è pianificato per essere deprecato. |
notification |
Map | L'utente o un'altra destinazione da notificare quando viene attivato l'avviso. Vedere alert.evaluation.notification. |
source |
Map | Colonna di origine del risultato da usare per valutare l'avviso. Vedere alert.evaluation.source. |
threshold |
Map | Soglia da usare per la valutazione degli avvisi. Può trattarsi di una colonna o di un valore. Vedere alert.evaluation.threshold. |
avviso.valutazione.notifica
Type: Map
L'utente o un'altra destinazione da notificare quando viene attivato l'avviso.
| Key | Type | Description |
|---|---|---|
notify_on_ok |
Boolean | Optional. Indica se inviare una notifica ai sottoscrittori di avvisi quando l'avviso torna normale. |
retrigger_seconds |
Integer | Optional. Numero di secondi di attesa di un avviso dopo l'attivazione prima che sia consentita l'invio di un'altra notifica. Se impostato su 0 o omesso, l'avviso non invierà altre notifiche dopo il primo trigger. L'impostazione di questo valore su 1 consente all'avviso di inviare una notifica a ogni valutazione in cui viene soddisfatta la condizione, rendendo effettivamente l'avviso sempre attivo a fini di notifica. |
subscriptions |
Sequence | Optional. Elenco non ordinato di sottoscrizioni di notifica. Vedere alert.evaluation.notification.subscriptions. |
allerta.valutazione.notifica.sottoscrizioni
Type: Sequence
Elenco non ordinato di sottoscrizioni di notifica.
Ogni elemento nell'elenco è :AlertSubscription
| Key | Type | Description |
|---|---|---|
destination_id |
String | ID della destinazione della notifica. |
user_email |
String | Indirizzo di posta elettronica dell'utente a cui inviare una notifica. |
allerta.valutazione.sorgente
Type: Map
Colonna di origine dal risultato da utilizzare per valutare l'allerta.
| Key | Type | Description |
|---|---|---|
aggregation |
String | Metodo di aggregazione da applicare alla colonna di origine. I valori validi sono SUM, COUNT, COUNT_DISTINCT, AVGMEDIAN, MIN, , MAXSTDDEV |
display |
String | Nome visualizzato per la colonna di origine. |
name |
String | Nome della colonna di origine dal risultato della query. |
soglia.valutazione.allerta
Type: Map
La soglia da usare per la valutazione degli avvisi può essere una colonna o un valore.
| Key | Type | Description |
|---|---|---|
column |
Map | Riferimento di colonna da usare come soglia. Vedere alert.evaluation.source. |
value |
Map | Valore letterale da usare come soglia. Vedere alert.evaluation.threshold.value. |
avviso.valutazione.soglia.valore
Type: Map
Valore letterale da usare come soglia. Specificare uno dei tipi di valore seguenti.
| Key | Type | Description |
|---|---|---|
bool_value |
Boolean | Optional. Valore booleano per la soglia, truead esempio . |
double_value |
Double | Optional. Valore numerico per la soglia, 1.25ad esempio . |
string_value |
String | Optional. Valore stringa per la soglia, ad esempio test. |
avviso.programmazione
Type: Map
Configurazione della pianificazione per la notifica.
| Key | Type | Description |
|---|---|---|
pause_status |
String | Optional. Indica se il programma è in pausa o meno. Valori validi: UNPAUSED, PAUSED. Impostazione predefinita: UNPAUSED. |
quartz_cron_schedule |
String | Obbligatorio. Espressione cron che utilizza la sintassi Quartz per specificare la pianificazione di questa pipeline. Il formato quartz è descritto in formato scheduler quartz. |
timezone_id |
String | Obbligatorio. ID fuso orario Java. La pianificazione verrà risolta usando questo fuso orario. Questa operazione verrà combinata con il quartz_cron_schedule per determinare la pianificazione. Per informazioni dettagliate, vedere SET TIME ZONE. |
Examples
La configurazione di esempio seguente definisce un avviso con una valutazione semplice:
resources:
alerts:
my_alert:
display_name: my_alert
evaluation:
comparison_operator: EQUAL
source:
name: '1'
threshold:
value:
double_value: 2
query_text: select 2
schedule:
quartz_cron_schedule: '44 19 */1 * * ?'
timezone_id: Europe/Amsterdam
warehouse_id: 799f096837fzzzz4
La configurazione di esempio seguente definisce un avviso con autorizzazioni che valuta l'uso dell'aggregazione e invia notifiche:
resources:
alerts:
my_alert:
permissions:
- level: CAN_MANAGE
user_name: someone@example.com
custom_summary: 'My alert'
display_name: 'My alert'
evaluation:
comparison_operator: 'EQUAL'
notification:
notify_on_ok: false
retrigger_seconds: 1
source:
aggregation: 'MAX'
display: '1'
name: '1'
threshold:
value:
double_value: 2
query_text: 'select 2'
schedule:
pause_status: 'UNPAUSED'
quartz_cron_schedule: '44 19 */1 * * ?'
timezone_id: 'Europe/Amsterdam'
warehouse_id: 799f096837fzzzz4
applicazione
Type: Map
La risorsa dell'app definisce un'app Databricks . Per informazioni sulle app di Databricks, vedere App di Databricks.
Per aggiungere un'app, specificare le impostazioni per definire l'app, incluso il obbligatorio source_code_path.
Tip
È possibile inizializzare un bundle con un'app Streamlit Databricks usando il comando seguente:
databricks bundle init https://github.com/databricks/bundle-examples --template-dir contrib/templates/streamlit-app
Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.239.0
apps:
<app-name>:
<app-field-name>: <app-field-value>
| Key | Type | Description |
|---|---|---|
budget_policy_id |
String | ID dei criteri di budget per l'app. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.243.0 |
compute_size |
String | Dimensione di calcolo per l'app. I valori validi sono MEDIUM o LARGE dipendono dalla configurazione dell'area di lavoro.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.273.0 |
config |
Map | Comandi di configurazione delle app e variabili di ambiente. Se specificato, questa configurazione viene scritta in un file app.yaml nel percorso del codice sorgente durante la distribuzione. In questo modo è possibile definire la configurazione dell'app direttamente nel bundle YAML anziché mantenere un file app.yaml separato. Vedere app.config. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.283.0 |
description |
String | Descrizione dell'app. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.239.0 |
lifecycle |
Map | Il comportamento della risorsa quando viene distribuita o distrutta. Vedere ciclo di vita. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.268.0 |
name |
String | Nome dell'app. Il nome deve contenere solo caratteri alfanumerici minuscoli e trattini. Deve essere univoco all'interno dell'area di lavoro. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.239.0 |
permissions |
Sequence | Autorizzazioni dell'app. Vedere autorizzazioni. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.239.0 |
resources |
Sequence | Risorse di calcolo dell'app. Vedere app.resources. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.239.0 |
source_code_path |
String | Percorso ./app locale del codice sorgente dell'app Databricks.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.239.0 |
user_api_scopes |
Sequence | Ambiti dell'API utente. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.246.0 |
app.config
Comandi di configurazione delle app e variabili di ambiente. Vedere Configurare l'esecuzione dell'app Databricks con app.yaml.
| Key | Type | Description |
|---|---|---|
command |
String | Comandi per eseguire l'app, ad esempio ["streamlit", "run", "app.py"] |
env |
Sequence | Elenco di coppie e value che specificano le variabili di name ambiente dell'app. |
app.risorse
Type: Sequence
Elenco delle risorse di calcolo per l'app.
Ogni elemento nell'elenco è :AppResource
| Key | Type | Description |
|---|---|---|
description |
String | Descrizione della risorsa dell'app. |
database |
Map | Impostazioni che identificano il database Lakebase da usare. Vedere app.resources.database. |
experiment |
Map | Impostazioni che identificano l'esperimento MLflow da usare. Vedere app.resources.experiment. |
genie_space |
Map | Le impostazioni che identificano lo spazio Genie da utilizzare. Vedere app.resources.genie_space. |
job |
Map | Le impostazioni che identificano la risorsa di lavoro da utilizzare. Vedere app.resources.job. |
name |
String | Nome della risorsa dell'app. |
secret |
Map | Impostazioni che identificano la risorsa privata di Azure Databricks da usare. Vedere app.resources.secret. |
serving_endpoint |
Map | Impostazioni che identificano il modello che gestisce la risorsa endpoint da usare. Vedere app.resources.serving_endpoint. |
sql_warehouse |
Map | Impostazioni che identificano la risorsa di SQL Warehouse da usare. Vedere app.resources.sql_warehouse. |
uc_securable |
Map | Impostazioni che identificano il volume del catalogo Unity da usare. Vedere app.resources.uc_securable. |
database delle risorse dell'app
Type: Map
Impostazioni che identificano il database Lakebase da usare.
| Key | Type | Description |
|---|---|---|
database_name |
String | Nome del database. |
instance_name |
String | Nome dell'istanza del database. |
permission |
String | Livello di autorizzazione per il database. I valori validi sono CAN_CONNECT_AND_CREATE. |
app.resources.experiment
Type: Map
Impostazioni che identificano l'esperimento MLflow da usare.
| Key | Type | Description |
|---|---|---|
experiment_id |
String | ID dell'esperimento MLflow. |
permission |
String | Livello di autorizzazione per l'esperimento. I valori validi includono CAN_READ, CAN_EDIT, CAN_MANAGE. |
app.resources.genie_space
Type: Map
Le impostazioni che identificano lo spazio Genie da utilizzare.
| Key | Type | Description |
|---|---|---|
name |
String | Nome dello spazio Genie. |
permission |
String | Livello di autorizzazione per lo spazio. I valori validi includono CAN_VIEW, CAN_EDIT, CAN_MANAGE, CAN_RUN. |
space_id |
String | ID dello spazio Genie, ad esempio 550e8400-e29b-41d4-a716-999955440000. |
app.resources.job
Type: Map
Le impostazioni che identificano la risorsa di lavoro da utilizzare.
| Key | Type | Description |
|---|---|---|
id |
String | L'ID della mansione. |
permission |
String | Livello di autorizzazione per il compito. I valori validi includono CAN_VIEW, CAN_MANAGE_RUN, CAN_MANAGE, IS_OWNER. |
app.resources.secret
Type: Map
Impostazioni che identificano la risorsa privata di Azure Databricks da usare.
| Key | Type | Description |
|---|---|---|
key |
String | Chiave del segreto per concedere l'autorizzazione. |
permission |
String | Livello di autorizzazione per il segreto. I valori validi includono READ, WRITE, MANAGE. |
scope |
String | Nome dell'ambito del segreto. |
app.risorse.punto_di_servizio
Type: Map
Impostazioni che identificano il modello che gestisce la risorsa endpoint da usare.
| Key | Type | Description |
|---|---|---|
name |
String | Nome dell'endpoint di servizio. |
permission |
String | Livello di autorizzazione per l'endpoint di gestione. I valori validi includono CAN_QUERY, CAN_MANAGE, CAN_VIEW. |
app.resources.sql_warehouse
Type: Map
Le impostazioni che identificano il SQL warehouse da utilizzare.
| Key | Type | Description |
|---|---|---|
id |
String | L'ID del magazzino SQL. |
permission |
String | Livello di autorizzazione per SQL Warehouse. I valori validi includono CAN_USE, CAN_MANAGE, IS_OWNER. |
app.resources.uc_securable
Type: Map
Impostazioni che identificano il volume del catalogo Unity da usare.
| Key | Type | Description |
|---|---|---|
permission |
String | Livello di autorizzazione per l'oggetto securabile di Unity Catalog. I valori validi sono READ_VOLUME e WRITE_VOLUME. |
securable_full_name |
String | Nome completo del componente proteggibile di Unity Catalog nel formato catalog.schema.volume. |
securable_type |
String | Tipo di elemento securizzabile del catalogo Unity. I valori validi sono VOLUME. |
Examples
Per un'esercitazione che illustra come creare un bundle che definisce un'app, vedere Gestire le app di Databricks usando i bundle di asset di Databricks.
L'esempio seguente definisce un'app di base:
resources:
apps:
hello_world_app:
name: 'hello-world-app'
source_code_path: . # This assumes the app source code is at the root of the project.
description: 'A Databricks app'
L'esempio seguente crea un'app denominata my_app che gestisce un processo creato dal bundle. Per l'esempio completo, vedere il repository GitHub bundle-examples.
resources:
jobs:
# Define a job in the bundle
hello_world:
name: hello_world
tasks:
- task_key: task
spark_python_task:
python_file: ../src/main.py
environment_key: default
environments:
- environment_key: default
spec:
environment_version: '2'
# Define an app that manages the job in the bundle
apps:
job_manager:
name: 'job_manager_app'
description: 'An app which manages a job created by this bundle'
# The location of the source code for the app
source_code_path: ../src/app
# The resources in the bundle which this app has access to. This binds the resource in the app with the bundle resource.
resources:
- name: 'app-job'
job:
id: ${resources.jobs.hello_world.id}
permission: 'CAN_MANAGE_RUN'
Il corrispondente app.yaml definisce la configurazione per l'esecuzione dell'app:
command:
- flask
- --app
- app
- run
- --debug
env:
- name: JOB_ID
valueFrom: 'app-job'
L'esempio seguente crea un'app che ha accesso a un esperimento MLflow creato dal bundle:
resources:
experiments:
# Define an MLflow experiment in the bundle
my_experiment:
name: /Users/${workspace.current_user.userName}/my-app-experiment
apps:
my_ml_app:
name: 'my-ml-app'
description: 'An app with access to an MLflow experiment'
source_code_path: ./app
# Grant the app access to the MLflow experiment
resources:
- name: 'app-experiment'
experiment:
experiment_id: ${resources.experiments.my_experiment.id}
permission: 'CAN_MANAGE'
In alternativa, l'esempio seguente definisce un'app con configurazione personalizzata definita nella configurazione del bundle:
resources:
apps:
my_app:
name: my_app
description: my_app_description
source_code_path: ./app
config:
command: ['flask', '--app', 'app', 'run']
env:
- name: MY_ENV_VAR
value: test_value
- name: ANOTHER_VAR
value: another_value
catalogs
Type: Map
La risorsa catalogo consente di definire cataloghi (catalogo Unity) in un bundle.
Note
L'uso dei bundle di asset di Databricks per definire i cataloghi è supportato solo se si usa il motore di distribuzione diretta.
Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0
catalogs:
<catalog-name>:
<catalog-field-name>: <catalog-field-value>
| Key | Type | Description |
|---|---|---|
comment |
String | Descrizione del catalogo fornita dall'utente in formato libero. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0 |
connection_name |
String | Nome della connessione a un'origine dati esterna. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0 |
grants |
Sequence | Concessioni associate al catalogo. Vedere Grant. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0 |
lifecycle |
Map | Contiene le impostazioni del ciclo di vita per una risorsa. Controlla il comportamento della risorsa quando viene distribuita o distrutta. Vedere ciclo di vita. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0 |
name |
String | Obbligatorio. Nome del catalogo. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0 |
options |
Oggetto | Mappa delle proprietà chiave-valore associate all'entità a protezione diretta. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0 |
properties |
Oggetto | Mappa delle proprietà chiave-valore associate all'entità a protezione diretta. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0 |
provider_name |
String | Nome del provider di condivisione differenziale. Un catalogo di condivisione differenziale è un catalogo basato su una condivisione Delta in un server di condivisione remota. Si veda Che cos'è Delta Sharing?. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0 |
share_name |
String | Nome della condivisione nel provider di condivisione. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0 |
storage_root |
String | URL radice di archiviazione per le tabelle gestite all'interno del catalogo. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0 |
Example
resources:
catalogs:
my_catalog:
name: my_catalog
comment: 'Catalog created by Databricks Asset Bundles'
properties:
purpose: 'Testing'
grants:
- principal: someone@example.com
privileges:
- USE_CATALOG
- CREATE_SCHEMA
schemas:
my_schema:
name: my_schema
catalog_name: ${resources.catalogs.my_catalog.name}
comment: 'Schema in custom catalog'
cluster
Type: Map
La risorsa cluster definisce un cluster.
Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
clusters:
<cluster-name>:
<cluster-field-name>: <cluster-field-value>
| Key | Type | Description |
|---|---|---|
apply_policy_default_values |
Boolean | Se impostato su true, i valori predefiniti e fissi dei criteri verranno usati per i campi omessi. Se impostato su false, verranno applicati solo i valori fissi dei criteri. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
autoscale |
Map | Parametri necessari per ridimensionare automaticamente i cluster in base al carico. Consulta autoscale. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
autotermination_minutes |
Integer | Termina automaticamente il cluster dopo il tempo di inattività specificato in minuti. Se non è impostato, il cluster non verrà terminato automaticamente. Se specificato, la soglia deve essere compresa tra 10 e 10000 minuti. Gli utenti possono anche impostare questo valore su 0 per disabilitare in modo esplicito la terminazione automatica. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
aws_attributes |
Map | Attributi correlati ai cluster in esecuzione in Amazon Web Services. Se non specificato durante la creazione del cluster, verrà usato un set di valori predefiniti. Vedere aws_attributes. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
azure_attributes |
Map | Attributi correlati ai cluster in esecuzione in Microsoft Azure. Se non specificato durante la creazione del cluster, verrà usato un set di valori predefiniti. Vedere azure_attributes. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
cluster_log_conf |
Map | Configurazione per il recapito dei log spark a una destinazione di archiviazione a lungo termine. Vedere cluster_log_conf. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
cluster_name |
String | Nome del cluster richiesto dall'utente. Questo non deve essere univoco. Se non specificato durante la creazione, il nome del cluster sarà una stringa vuota. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
custom_tags |
Map | Tag aggiuntivi per le risorse del cluster. Databricks contrassegnerà tutte le risorse del cluster (ad esempio, istanze di AWS e volumi EBS) con questi tag oltre a default_tags.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
data_security_mode |
String | Modello di governance dei dati da usare per l'accesso ai dati da un cluster. I valori validi includono NONE, SINGLE_USER, USER_ISOLATIONLEGACY_SINGLE_USER, LEGACY_TABLE_ACL, , . LEGACY_PASSTHROUGHAggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
docker_image |
Map | Immagine Docker personalizzata. Vedere docker_image. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
driver_instance_pool_id |
String | L'ID facoltativo del pool di istanze a cui appartiene il driver del cluster. Il cluster del pool usa il pool di istanze con ID (istanza*pool_id) se il pool di driver non è assegnato. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
driver_node_type_id |
String | Tipo di nodo del driver Spark. Questo campo è facoltativo. Se non impostato, il tipo di nodo del driver viene impostato sul valore di node_type_id. Questo campo, insieme node_type_ida , non deve essere impostato se virtual_cluster_size è impostato. Se vengono specificati entrambi driver_node_type_id, node_type_ide virtual_cluster_size e hanno driver_node_type_id la precedenza. node_type_idAggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
enable_elastic_disk |
Boolean | Scalabilità automatica dell'archiviazione locale: se abilitato, questo cluster acquisirà dinamicamente spazio su disco aggiuntivo quando i worker di Spark stanno esaurendo lo spazio su disco. Questa funzionalità richiede autorizzazioni AWS specifiche per funzionare correttamente. Per altre informazioni, vedere la Guida per l'utente. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
enable_local_disk_encryption |
Boolean | Indica se abilitare LUKS nei dischi locali delle macchine virtuali del cluster. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
gcp_attributes |
Map | Attributi correlati ai cluster in esecuzione in Google Cloud Platform. Se non specificato durante la creazione del cluster, verrà usato un set di valori predefiniti. Vedere gcp_attributes. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
init_scripts |
Sequence | Configurazione per l'archiviazione di script init. È possibile specificare un numero qualsiasi di destinazioni. Gli script vengono eseguiti in sequenza nell'ordine specificato. Vedere init_scripts. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
instance_pool_id |
String | ID facoltativo del pool di istanze a cui appartiene il cluster. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
is_single_node |
Boolean | Questo campo può essere usato solo quando kind = CLASSIC_PREVIEW. Se impostato su true, Databricks imposta automaticamente il nodo singolo correlato a custom_tags, spark_confe num_workers.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.237.0 |
kind |
String | Tipo di calcolo descritto da questa specifica di calcolo. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.237.0 |
lifecycle |
Map | Contiene le impostazioni del ciclo di vita per una risorsa. Controlla il comportamento della risorsa quando viene distribuita o distrutta. Vedere ciclo di vita. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.268.0 |
node_type_id |
String | Questo campo codifica, con un solo valore, le risorse disponibili in ognuno dei nodi Spark del cluster. Ad esempio, è possibile effettuare il provisioning e ottimizzare i nodi Spark per carichi di lavoro a elevato utilizzo di memoria o calcolo. È possibile recuperare un elenco dei tipi di nodo disponibili usando l'API Elenca tipi di nodo. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
num_workers |
Integer | Numero di nodi di lavoro che il cluster deve avere. Un cluster ha un driver Spark e num_workers esecutori per un totale di num_workers + 1 nodi Spark.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
permissions |
Sequence | Autorizzazioni del cluster. Vedere autorizzazioni. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
policy_id |
String | ID dei criteri del cluster usati per creare il cluster, se applicabile. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
remote_disk_throughput |
Integer | Velocità effettiva del disco remoto in byte al secondo. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.257.0 |
runtime_engine |
String | Determina il motore di runtime del cluster, STANDARD o PHOTON.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
single_user_name |
String | Nome utente singolo se data*security_mode è SINGLE_USER.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
spark_conf |
Map | Oggetto contenente un set di coppie chiave-valore di configurazione Spark specificate dall'utente facoltative. Gli utenti possono anche passare una stringa di opzioni JVM aggiuntive al driver e agli executor tramite spark.driver.extraJavaOptions e spark.executor.extraJavaOptions rispettivamente.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
spark_env_vars |
Map | Oggetto contenente un set di coppie chiave-valore della variabile di ambiente specificate dall'utente facoltative. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
spark_version |
String | Versione Spark del cluster, ad esempio 3.3.x-scala2.11. È possibile recuperare un elenco delle versioni di Spark disponibili usando l'API Elenca le versioni di Spark disponibili.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
ssh_public_keys |
Sequence | Contenuto della chiave pubblica SSH che verrà aggiunto a ogni nodo Spark in questo cluster. Le chiavi private corrispondenti possono essere usate per accedere con il nome ubuntu utente sulla porta 2200. È possibile specificare fino a 10 chiavi.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
total_initial_remote_disk_size |
Integer | Dimensioni totali del disco remoto iniziale in byte. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.257.0 |
use_ml_runtime |
Boolean | Questo campo può essere usato solo quando kind = CLASSIC_PREVIEW.
effective_spark_version è determinato da spark_version (versione di Databricks Runtime), questo campo use_ml_runtimee indica se node_type_id è un nodo GPU o meno.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.237.0 |
workload_type |
Map | Attributi del cluster visualizzati per i tipi di carico di lavoro dei cluster. Vedere workload_type. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
cluster.autoscale
Type: Map
Parametri per il ridimensionamento automatico dei cluster in base al carico.
| Key | Type | Description |
|---|---|---|
min_workers |
Integer | Numero minimo di ruoli di lavoro a cui il cluster può ridurre le prestazioni quando è sottoutilizzato. È anche il numero iniziale di ruoli di lavoro che il cluster avrà dopo la creazione. |
max_workers |
Integer | Numero massimo di ruoli di lavoro a cui il cluster può aumentare le prestazioni durante l'overload.
max_workers deve essere rigorosamente maggiore di min_workers. |
cluster.aws_attributes
Type: Map
Attributi correlati ai cluster in esecuzione in Amazon Web Services.
| Key | Type | Description |
|---|---|---|
zone_id |
String | Identificatore per la zona di disponibilità o il data center in cui risiede il cluster. Questa stringa sarà di un formato come us-west-2a. |
availability |
String | Tipo di disponibilità usato per tutti i nodi successivi oltre first_on_demand quelli. I valori validi sono SPOT, ON_DEMAND, SPOT_WITH_FALLBACK. |
spot_bid_price_percent |
Integer | Prezzo massimo per le istanze spot di AWS, come percentuale del prezzo su richiesta del tipo di istanza corrispondente. |
instance_profile_arn |
String | I nodi per questo cluster verranno inseriti solo nelle istanze di AWS con questo profilo di istanza. |
first_on_demand |
Integer | I primi first_on_demand nodi del cluster verranno posizionati su istanze su richiesta. Questo valore deve essere maggiore di 0, per assicurarsi che il nodo del driver del cluster sia posizionato in un'istanza su richiesta. |
ebs_volume_type |
String | Tipo di volumi EBS che verranno avviati con questo cluster. I valori validi sono GENERAL_PURPOSE_SSD o THROUGHPUT_OPTIMIZED_HDD. |
ebs_volume_count |
Integer | Numero di volumi lanciati per ogni istanza. |
ebs_volume_size |
Integer | Dimensioni di ogni volume EBS (in GiB) avviato per ogni istanza. |
ebs_volume_iops |
Integer | Numero di operazioni di I/O al secondo per volume gp3 di EBS. |
ebs_volume_throughput |
Integer | Velocità effettiva per volume gp3 di EBS, in MiB al secondo. |
cluster.azure_attributes
Type: Map
Attributi correlati ai cluster in esecuzione in Microsoft Azure.
| Key | Type | Description |
|---|---|---|
first_on_demand |
Integer | I primi first_on_demand nodi del cluster verranno posizionati su istanze su richiesta. |
availability |
String | Tipo di disponibilità usato per tutti i nodi successivi oltre first_on_demand quelli. I valori validi sono SPOT_AZURE, ON_DEMAND_AZURE, SPOT_WITH_FALLBACK_AZURE. |
spot_bid_max_price |
Number | Prezzo massimo per le istanze spot di Azure. Usare -1 per specificare il prezzo più basso. |
log_analytics_info |
Map | Configurazione per l'agente di Azure Log Analytics. Vedere log_analytics_info. |
cluster.azure_attributes.log_analytics_info
Type: Map
Configurazione per l'agente di Azure Log Analytics.
| Key | Type | Description |
|---|---|---|
log_analytics_workspace_id |
String | ID dell'area di lavoro Log Analytics di Azure. |
log_analytics_primary_key |
String | Chiave primaria per l'area di lavoro Log Analytics di Azure. |
cluster.gcp_attributes
Type: Map
Attributi correlati ai cluster in esecuzione in Google Cloud Platform.
| Key | Type | Description |
|---|---|---|
use_preemptible_executors |
Boolean | Se utilizzare esecutori preemptible. Gli executor preemptible sono istanze GCE preemptible che possono essere recuperate da GCE in qualsiasi momento. |
google_service_account |
String | L'account del servizio Google da usare nelle istanze della macchina virtuale del cluster Databricks. |
local_ssd_count |
Integer | Numero di unità SSD locali da collegare a ogni nodo del cluster. Il valore predefinito è 0. |
zone_id |
String | Identificatore per la zona di disponibilità o il data center in cui risiede il cluster. |
availability |
String | Tipo di disponibilità usato per tutti i nodi. I valori validi sono PREEMPTIBLE_GCP, ON_DEMAND_GCP, PREEMPTIBLE_WITH_FALLBACK_GCP. |
boot_disk_size |
Integer | Dimensioni del disco di avvio in GB. I valori sono in genere compresi tra 100 e 1000. |
cluster.cluster_log_conf
Configurazione per il recapito dei log spark a una destinazione di archiviazione a lungo termine.
| Key | Type | Description |
|---|---|---|
dbfs |
Map | Percorso DBFS per la consegna dei log del cluster. Vedere dbfs. |
s3 |
Map | Percorso S3 per la consegna dei log del cluster. Vedere s3. |
volumes |
Map | Posizione dei volumi per il recapito dei log del cluster. Vedere volumi. |
cluster.cluster_log_conf.dbfs
Type: Map
Percorso DBFS per la consegna dei log del cluster.
| Key | Type | Description |
|---|---|---|
destination |
String | Percorso DBFS per la consegna del log del cluster, ad esempio dbfs:/cluster-logs. |
cluster.cluster_log_conf.s3
Type: Map
Percorso S3 per la consegna dei log del cluster.
| Key | Type | Description |
|---|---|---|
destination |
String | URI S3 per recapito del log del cluster, ad esempio s3://my-bucket/cluster-logs. |
region |
String | La regione AWS del bucket S3. |
endpoint |
String | URL dell'endpoint S3 (facoltativo). |
enable_encryption |
Boolean | Indica se abilitare la crittografia per i log del cluster. |
encryption_type |
String | Tipo di crittografia. I valori validi includono SSE_S3, SSE_KMS. |
kms_key |
String | L'ARN della chiave KMS per la crittografia (quando si usa SSE_KMS). |
canned_acl |
String | ACL predefinita da applicare ai log del cluster. |
cluster.cluster_log_conf.volumi
Type: Map
Posizione dei volumi per il recapito dei log del cluster.
| Key | Type | Description |
|---|---|---|
destination |
String | Percorso del volume per il recapito dei log del cluster, ad esempio /Volumes/catalog/schema/volume/cluster_log. |
cluster.docker_image
Type: Map
Configurazione personalizzata dell'immagine Docker.
| Key | Type | Description |
|---|---|---|
url |
String | URL dell'immagine Docker. |
basic_auth |
Map | Autenticazione di base per il repository Docker. Vedere basic_auth. |
cluster.docker_image.autenticazione_di_base
Type: Map
Autenticazione di base per il repository Docker.
| Key | Type | Description |
|---|---|---|
username |
String | Nome utente per l'autenticazione del Registro di sistema Docker. |
password |
String | Password per l'autenticazione del Registro di sistema Docker. |
cluster.init_scripts
Type: Map
Configurazione per l'archiviazione di script init. È necessario specificare almeno un tipo di posizione.
| Key | Type | Description |
|---|---|---|
dbfs |
Map | Posizione DBFS dello script di inizializzazione. Vedere dbfs. |
workspace |
Map | Posizione dell'area di lavoro dello script init. Vedi Area di lavoro. |
s3 |
Map | Percorso S3 dello script init. Vedere s3. |
abfss |
Map | Percorso ABFSS dello script init. Vedere abfss. |
gcs |
Map | Percorso GCS dello script init. Vedere gcs. |
volumes |
Map | Posizione dello script di inizializzazione dei volumi UC. Vedere volumi. |
cluster.init_scripts.dbfs
Type: Map
Posizione DBFS dello script di inizializzazione.
| Key | Type | Description |
|---|---|---|
destination |
String | Percorso DBFS dello script di inizializzazione. |
cluster.init_scripts.spazio di lavoro
Type: Map
Posizione dell'area di lavoro dello script init.
| Key | Type | Description |
|---|---|---|
destination |
String | Percorso dell'area di lavoro dello script init. |
cluster.init_scripts.s3
Type: Map
Percorso S3 dello script init.
| Key | Type | Description |
|---|---|---|
destination |
String | URI S3 dello script init. |
region |
String | La regione AWS del bucket S3. |
endpoint |
String | URL dell'endpoint S3 (facoltativo). |
cluster.init_scripts.abfss
Type: Map
Percorso ABFSS dello script init.
| Key | Type | Description |
|---|---|---|
destination |
String | Il percorso ABFSS dell'init script. |
cluster.init_scripts.gcs
Type: Map
Percorso GCS dello script init.
| Key | Type | Description |
|---|---|---|
destination |
String | Percorso GCS dello script init. |
cluster.init_scripts.volumes
Type: Map
Posizione dei volumi dello script init.
| Key | Type | Description |
|---|---|---|
destination |
String | Il percorso dei volumi UC dello script di inizializzazione. |
cluster.workload_type (tipo di carico di lavoro)
Type: Map
Attributi del cluster che mostrano i tipi di carico di lavoro del cluster.
| Key | Type | Description |
|---|---|---|
clients |
Map | Definisce il tipo di client che può usare il cluster. Vedi clienti. |
cluster.tipo_di_carico.clienti
Type: Map
Tipo di client per questo carico di lavoro di calcolo.
| Key | Type | Description |
|---|---|---|
jobs |
Boolean | Indica se il cluster può eseguire lavori. |
notebooks |
Boolean | Indica se il cluster può eseguire notebook. |
Examples
L'esempio seguente crea un cluster dedicato (utente singolo) per l'utente corrente con Databricks Runtime 15.4 LTS e criteri del cluster:
resources:
clusters:
my_cluster:
num_workers: 0
node_type_id: 'i3.xlarge'
driver_node_type_id: 'i3.xlarge'
spark_version: '15.4.x-scala2.12'
spark_conf:
'spark.executor.memory': '2g'
autotermination_minutes: 60
enable_elastic_disk: true
single_user_name: ${workspace.current_user.userName}
policy_id: '000128DB309672CA'
enable_local_disk_encryption: false
data_security_mode: SINGLE_USER
runtime_engine: STANDARD
In questo esempio viene creato un cluster my_cluster semplice e viene impostato come cluster da usare per eseguire il notebook in my_job:
bundle:
name: clusters
resources:
clusters:
my_cluster:
num_workers: 2
node_type_id: 'i3.xlarge'
autoscale:
min_workers: 2
max_workers: 7
spark_version: '13.3.x-scala2.12'
spark_conf:
'spark.executor.memory': '2g'
jobs:
my_job:
tasks:
- task_key: test_task
notebook_task:
notebook_path: './src/my_notebook.py'
existing_cluster_id: ${resources.clusters.my_cluster.id}
cruscotto
Type: Map
La risorsa dashboard consente di gestire dashboard di intelligenza artificiale/business intelligence in un pacchetto. Per informazioni sui dashboard di intelligenza artificiale/BI, vedere Dashboard.
Se è stato distribuito un bundle che contiene un dashboard dall'ambiente locale e quindi si usa l'interfaccia utente per modificare tale dashboard, le modifiche apportate tramite l'interfaccia utente non vengono applicate al file JSON del dashboard nel bundle locale, a meno che non venga aggiornato in modo esplicito usando bundle generate. È possibile usare l'opzione --watch per eseguire continuamente il polling e recuperare le modifiche al dashboard. Vedere databricks bundle generate.
Inoltre, se si tenta di distribuire un bundle dall'ambiente locale che contiene un file JSON del dashboard diverso da quello nell'area di lavoro remota, si verificherà un errore. Per forzare il deploy e quindi sovrascrivere il dashboard nell'area di lavoro remota con quello locale, usare l'opzione --force. Vedere databricks bundle deploy.
Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.232.0
Note
Quando si utilizzano pacchetti di asset di Databricks con il supporto Git per il dashboard, impedire la generazione di dashboard duplicati aggiungendo il mapping di sincronizzazione per escludere i dashboard dalla sincronizzazione dei file:
sync:
exclude:
- src/*.lvdash.json
dashboards:
<dashboard-name>:
<dashboard-field-name>: <dashboard-field-value>
| Key | Type | Description |
|---|---|---|
dataset_catalog |
String | Valore del catalogo predefinito usato da tutti i set di dati nel dashboard, se non specificato diversamente nella query. Ad esempio, la configurazione che imposta questo campo, vedere Catalogo dashboard e parametrizzazione dello schema. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.283.0 |
dataset_schema |
String | Valore dello schema predefinito usato da tutti i set di dati nel dashboard se non diversamente specificato nella query. Ad esempio, la configurazione che imposta questo campo, vedere Catalogo dashboard e parametrizzazione dello schema. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.283.0 |
display_name |
String | Il nome visualizzato del dashboard. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.232.0 |
embed_credentials |
Boolean | Indica se le credenziali di identità di distribuzione del bundle vengono utilizzate per eseguire le query per tutti i visualizzatori del dashboard. Se è impostato su false, vengono usate le credenziali di un visualizzatore. Il valore predefinito è false.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.232.0 |
etag |
String | Etag per il dashboard. È possibile specificare facoltativamente gli aggiornamenti per assicurarsi che il dashboard non sia stato modificato dopo l'ultima lettura. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.234.0 |
file_path |
String | Percorso locale dell'asset del dashboard, incluso il nome del file. I dashboard esportati hanno sempre l'estensione di file .lvdash.json.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.232.0 |
lifecycle |
Map | Contiene le impostazioni del ciclo di vita per una risorsa. Controlla il comportamento della risorsa quando viene distribuita o distrutta. Vedere ciclo di vita. |
parent_path |
String | Percorso dell'area di lavoro della cartella contenente il dashboard. Include una barra iniziale e nessuna barra finale. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.232.0 |
path |
String | Percorso dell'area di lavoro dell'asset del dashboard, incluso il nome dell'asset. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.234.0 |
permissions |
Sequence | Autorizzazioni del dashboard. Vedere autorizzazioni. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.232.0 |
serialized_dashboard |
Any | Contenuti del dashboard in formato stringa serializzata. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.232.0 |
warehouse_id |
String | L'ID magazzino utilizzato per far funzionare il cruscotto. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.232.0 |
Example
L'esempio seguente include e distribuisce il dashboard di esempio NYC Taxi Trip Analysis nella workspace di Databricks.
resources:
dashboards:
nyc_taxi_trip_analysis:
display_name: 'NYC Taxi Trip Analysis'
file_path: ../src/nyc_taxi_trip_analysis.lvdash.json
warehouse_id: ${var.warehouse_id}
database_catalog
Type: Map
La risorsa del catalogo di database consente di definire cataloghi di database che corrispondono alle istanze di database in un bundle. Un catalogo di database è un database Lakebase registrato come catalogo unity.
Per informazioni sui cataloghi di database, vedere Creare un catalogo.
Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.265.0
database_catalogs:
<database_catalog-name>:
<database_catalog-field-name>: <database_catalog-field-value>
| Key | Type | Description |
|---|---|---|
create_database_if_not_exists |
Boolean | Indica se creare il database se non esiste. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.265.0 |
database_instance_name |
String | Nome dell'istanza che ospita il database. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.265.0 |
database_name |
String | Nome del database (in un'istanza) associato al catalogo. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.265.0 |
lifecycle |
Map | Contiene le impostazioni del ciclo di vita per una risorsa, incluso il comportamento della risorsa quando viene distribuita o eliminata definitivamente. Vedere ciclo di vita. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.265.0 |
name |
String | Nome del catalogo in Unity Catalog. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.265.0 |
Example
Nell'esempio seguente viene definita un'istanza di database con un catalogo di database corrispondente:
resources:
database_instances:
my_instance:
name: my-instance
capacity: CU_1
database_catalogs:
my_catalog:
database_instance_name: ${resources.database_instances.my_instance.name}
name: example_catalog
database_name: my_database
create_database_if_not_exists: true
database_instance
Type: Map
La risorsa dell'istanza del database consente di definire istanze di database in un bundle. Un'istanza del database Lakebase gestisce le risorse di archiviazione e di calcolo e fornisce gli endpoint a cui gli utenti si connettono.
Importante
Quando si distribuisce un bundle con un'istanza di database, l'istanza inizia immediatamente l'esecuzione ed è soggetta ai prezzi. Vedere Prezzi di Lakebase.
Per informazioni sulle istanze di database, vedere Che cos'è un'istanza del database?
Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.265.0
database_instances:
<database_instance-name>:
<database_instance-field-name>: <database_instance-field-value>
| Key | Type | Description |
|---|---|---|
capacity |
String | SKU dell'istanza di . I valori validi sono CU_1, CU_2, CU_4, CU_8.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.265.0 |
custom_tags |
Sequence | Elenco di coppie chiave-valore che specificano tag personalizzati associati all'istanza. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.273.0 |
enable_pg_native_login |
Boolean | Indica se l'istanza ha abilitato l'accesso con password nativa PG. Il valore predefinito è true.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.267.0 |
enable_readable_secondaries |
Boolean | Indica se abilitare i database secondari per gestire il traffico di sola lettura. Il valore predefinito è false.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.265.0 |
lifecycle |
Map | Contiene le impostazioni del ciclo di vita per una risorsa. Controlla il comportamento della risorsa quando viene distribuita o distrutta. Vedere ciclo di vita. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.268.0 |
name |
String | Nome dell'istanza. Si tratta dell'identificatore univoco per l'istanza. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.265.0 |
node_count |
Integer | Numero di nodi nell'istanza, composto da 1 database primario e da 0 o più database secondari. Il valore predefinito è 1 database primario e 0 secondari. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.265.0 |
parent_instance_ref |
Map | Riferimento dell'istanza padre. Questa opzione è disponibile solo se l'istanza è figlio. Vedere Istanza padre. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.265.0 |
permissions |
Sequence | Autorizzazioni dell'istanza del database. Vedere autorizzazioni. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.265.0 |
retention_window_in_days |
Integer | Finestra di conservazione per l'istanza di . Questo è l'intervallo di tempo in giorni per cui vengono conservati i dati cronologici. Il valore predefinito è 7 giorni. I valori validi sono compresi tra 2 e 35 giorni. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.265.0 |
stopped |
Boolean | Indica se l'istanza viene arrestata. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.265.0 |
usage_policy_id |
String | Politica di utilizzo desiderata da associare all'istanza. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.273.0 |
database_instance.parent_instance_ref
Type: Map
Riferimento dell'istanza padre. Questa opzione è disponibile solo se l'istanza è figlio.
| Key | Type | Description |
|---|---|---|
branch_time |
String | Tempo del ramo dell'istanza del database di riferimento. Per un'istanza di riferimento padre, si tratta del punto nel tempo dell'istanza padre da cui è stata creata l'istanza. Per un'istanza di riferimento figlio, si tratta del punto nel tempo dell'istanza da cui è stata creata l'istanza figlio. |
lsn |
String | LSN WAL specificato dall'utente dell'istanza del database di riferimento. |
name |
String | Nome dell'istanza del database di riferimento. |
Example
Nell'esempio seguente viene definita un'istanza di database con un catalogo di database corrispondente:
resources:
database_instances:
my_instance:
name: my-instance
capacity: CU_1
database_catalogs:
my_catalog:
database_instance_name: ${resources.database_instances.my_instance.name}
name: example_catalog
database_name: my_database
create_database_if_not_exists: true
Per un bundle di esempio che illustra come definire un'istanza del database e il catalogo di database corrispondente, vedere il repository GitHub di esempi di bundle.
esperimento
Type: Map
La risorsa dell'esperimento consente di definire esperimenti MLflow come un insieme. Per informazioni sugli esperimenti di MLflow, vedere Organizzare le esecuzioni di allenamento con esperimenti di MLflow.
Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
experiments:
<experiment-name>:
<experiment-field-name>: <experiment-field-value>
| Key | Type | Description |
|---|---|---|
artifact_location |
String | Posizione in cui vengono archiviati gli artefatti per l'esperimento. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
lifecycle |
Map | Contiene le impostazioni del ciclo di vita per una risorsa. Controlla il comportamento della risorsa quando viene distribuita o distrutta. Vedere ciclo di vita. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.268.0 |
name |
String | Il nome amichevole che identifica l'esperimento. Un nome dell'esperimento deve essere un percorso assoluto nell'area di lavoro di Databricks, ad esempio /Workspace/Users/someone@example.com/my_experiment.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
permissions |
Sequence | Autorizzazioni dell'esperimento. Vedere autorizzazioni. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
tags |
Sequence | Coppie chiave-valore di metadati aggiuntive. Consulta i tag. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
Example
L'esempio seguente definisce un esperimento che tutti gli utenti possono visualizzare:
resources:
experiments:
experiment:
name: /Workspace/Users/someone@example.com/my_experiment
permissions:
- level: CAN_READ
group_name: users
description: MLflow experiment used to track runs
lavoro
Type: Map
Le attività sono supportate in Python per i pacchetti di risorse di Databricks. Vedere databricks.bundles.jobs.
La risorsa di lavoro consente di definire i lavori e le attività corrispondenti nel pacchetto.
Per informazioni sui lavori, vedere Lakeflow Jobs. Per un'esercitazione che usa un modello di bundle di asset di Databricks per creare un processo, vedere Sviluppare un processo con i bundle di asset di Databricks.
Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
jobs:
<job-name>:
<job-field-name>: <job-field-value>
| Key | Type | Description |
|---|---|---|
budget_policy_id |
String | ID della politica di budget specificata dall'utente da utilizzare per questa attività. Se non specificato, è possibile applicare una politica di budget predefinita durante la creazione o la modifica dell'incarico. Vedere effective_budget_policy_id per i criteri di budget usati da questo carico di lavoro.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.231.0 |
continuous |
Map | Una proprietà continua opzionale per questo lavoro. La proprietà continua garantisce che sia sempre in esecuzione una sola esecuzione. È possibile usare solo uno di schedule e continuous . Vedere Continuous( Continua).Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
deployment |
Map | Informazioni sul deployment per le attività gestite da fonti esterne. Vedi Deployment (Distribuzione). Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
description |
String | Descrizione facoltativa per il lavoro. La lunghezza massima è di 27700 caratteri nella codifica UTF-8. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
email_notifications |
Map | Un set facoltativo di indirizzi di posta elettronica che riceve una notifica quando inizia o completa l'esecuzione del processo, nonché quando questo processo viene eliminato. Vedere email_notifications. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
environments |
Sequence | Un elenco delle specifiche dell'ambiente di esecuzione delle attività a cui le attività serverless di questo compito possono fare riferimento. È necessario che sia presente un ambiente per le attività serverless. Per le attività del notebook serverless, l'ambiente è accessibile nel pannello dell'ambiente del notebook. Per altre attività serverless, è necessario specificare l'ambiente attività usando environment_key nelle impostazioni dell'attività. Consulta gli ambienti. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
format |
String | Deprecated. Formato del lavoro. |
git_source |
Map | Specifica facoltativa per un repository Git remoto contenente il codice sorgente usato dalle attività. Vedere job.git_source. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 Importante: Il git_source campo e il campo attività source impostato su GIT non sono consigliati per i bundle, perché i percorsi relativi locali potrebbero non puntare allo stesso contenuto nel repository Git e i bundle prevedono che un processo distribuito abbia lo stesso contenuto della copia locale da cui è stata distribuita.Clona invece l'archivio in locale e imposta il tuo progetto bundle all'interno di questo archivio, cosicché l'origine delle attività sia l'area di lavoro. |
health |
Map | Set facoltativo di regole di salute che è possibile definire per questo lavoro. Vedere Integrità. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
job_clusters |
Sequence | Elenco delle specifiche del cluster di lavori che possono essere condivise e riutilizzate dalle attività di questo lavoro. Vedere job_clusters. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
lifecycle |
Map | Contiene le impostazioni del ciclo di vita per una risorsa. Controlla il comportamento della risorsa quando viene distribuita o distrutta. Vedere ciclo di vita. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.268.0 |
max_concurrent_runs |
Integer | Numero massimo consentito facoltativo di esecuzioni simultanee del lavoro. Impostare questo valore se si vuole essere in grado di eseguire più esecuzioni dello stesso processo contemporaneamente. |
name |
String | Nome facoltativo per il lavoro. La lunghezza massima è di 4096 byte nella codifica UTF-8. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
notification_settings |
Map | Impostazioni di notifica facoltative usate durante l'invio di notifiche a ciascuno dei email_notifications e webhook_notifications per questo processo. Vedere notification_settings.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
parameters |
Sequence | Definizioni di parametri a livello di attività. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
performance_target |
String | Definisce quanto performante o conveniente dovrebbe essere l'esecuzione dell'attività su serverless. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.241.0 |
permissions |
Sequence | Autorizzazioni del lavoro. Vedere autorizzazioni. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
queue |
Map | Le impostazioni della coda del processo. Vedere la coda. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
run_as |
Map | Impostazione di sola scrittura. Specifica l'utente o l'entità servizio sotto cui viene eseguito il processo. Se non specificato, l'attività viene eseguita come utente che ha creato l'attività. Specificare user_name o service_principal_name . In caso contrario, viene generato un errore. Vedere run_as.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
schedule |
Map | Pianificazione periodica facoltativa per questa attività. Il comportamento predefinito è che il processo viene eseguito solo quando viene attivato facendo clic su "Esegui ora" nell'interfaccia utente dei processi o inviando una richiesta API a runNow. Vedere programma.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
tags |
Map | Mappa dei tag associati al processo. Questi vengono inoltrati al cluster come etichette di cluster per i gruppi di lavoro e sono soggetti alle stesse limitazioni delle etichette di cluster. È possibile aggiungere al lavoro un massimo di 25 tag. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
tasks |
Sequence | Elenco delle specifiche dell'attività da svolgere da questo lavoro. Vedere Aggiungere attività ai processi nei bundle di asset di Databricks. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.237.0 |
timeout_seconds |
Integer | Un timeout facoltativo viene applicato a ogni esecuzione di questo processo. Un valore di 0 indica che non è previsto alcun timeout.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
trigger |
Map | Configurazione per attivare un'esecuzione quando vengono soddisfatte determinate condizioni. Vedi trigger. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
usage_policy_id |
String | ID dei criteri di utilizzo da usare per questo processo. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.273.0 |
webhook_notifications |
Map | Una raccolta di ID di notifica di sistema per notificare quando l'esecuzione di questo processo inizia o viene completata. Vedere webhook_notifications. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
job.continuo
Type: Map
Configurazione per l'esecuzione continua dell'attività.
| Key | Type | Description |
|---|---|---|
pause_status |
String | Indica se il processo continuo viene sospeso o meno. Valori validi: PAUSED, UNPAUSED. |
task_retry_mode |
String | Indicare il modo in cui il processo continuo applica i tentativi a livello di attività. I valori validi sono NEVER e ON_FAILURE. Il valore predefinito è NEVER. |
processo di implementazione (job.deployment)
Type: Map
Informazioni sul deployment per le attività gestite da fonti esterne.
| Key | Type | Description |
|---|---|---|
kind |
String | Tipo di distribuzione. Ad esempio: BUNDLE. |
metadata_file_path |
String | Percorso del file di metadati per la distribuzione. |
processo.notifiche_email
Type: Map
Impostazioni di notifica tramite posta elettronica per le esecuzioni dei job.
| Key | Type | Description |
|---|---|---|
on_start |
Sequence | Elenco di indirizzi di posta elettronica da notificare all'avvio di un'esecuzione. |
on_success |
Sequence | Elenco di indirizzi di posta elettronica da notificare quando un'esecuzione ha esito positivo. |
on_failure |
Sequence | Elenco di indirizzi di posta elettronica da notificare quando un'esecuzione non riesce. |
on_duration_warning_threshold_exceeded |
Sequence | Un elenco di indirizzi di posta elettronica da notificare quando un tempo di esecuzione supera la soglia di avviso. |
no_alert_for_skipped_runs |
Boolean | Indica se saltare l'invio di avvisi per le esecuzioni saltate. |
on_streaming_backlog_exceeded |
Sequence | Elenco di indirizzi di posta elettronica da notificare quando vengono superate le soglie di backlog di streaming per qualsiasi flusso. Le soglie di backlog di streaming possono essere impostate nel health campo usando le metriche seguenti: STREAMING_BACKLOG_BYTES, STREAMING_BACKLOG_RECORDS, STREAMING_BACKLOG_SECONDSo STREAMING_BACKLOG_FILES. Gli avvisi si basano sulla media di 10 minuti di queste metriche. Se il problema persiste, le notifiche vengono inviate nuovamente ogni 30 minuti. |
job.environments
Type: Sequence
Elenco delle specifiche dell'ambiente di esecuzione dei compiti a cui possono fare riferimento i compiti serverless di un processo.
Ogni elemento nell'elenco è :JobEnvironment
| Key | Type | Description |
|---|---|---|
environment_key |
String | Chiave di un ambiente. Deve essere univoco all'interno di un processo. |
spec |
Map | Entità che rappresenta un ambiente serverless. Vedere job.environments.spec. |
job.environments.spec
Type: Map
Entità che rappresenta un ambiente serverless.
| Key | Type | Description |
|---|---|---|
client |
String | Deprecated. Versione client. |
dependencies |
Sequence | Elenco delle dipendenze pip, come supportato dalla versione di pip in questo ambiente. |
environment_version |
String | Obbligatorio. Versione dell'ambiente usata dall'ambiente. Ogni versione include una versione python specifica e un set di pacchetti Python. La versione è una stringa costituita da un numero intero. |
job.git_source
Type: Map
Configurazione del repository Git per il codice sorgente del processo.
| Key | Type | Description |
|---|---|---|
git_branch |
String | Nome del ramo da archiviare e utilizzare da questo processo. Questo campo non può essere specificato insieme a git_tag o git_commit. |
git_commit |
String | Eseguire il commit per essere estratto e usato da questo processo. Questo campo non può essere specificato insieme a git_branch o git_tag. |
git_provider |
String | Identificatore univoco del servizio usato per ospitare il repository Git. Il valore non fa distinzione tra maiuscole e minuscole. I valori validi sono gitHub, bitbucketCloud, gitLabazureDevOpsServices, gitHubEnterprise, bitbucketServer. gitLabEnterpriseEdition |
git_snapshot |
Map | Stato di sola lettura del repository remoto al momento dell'esecuzione del job. Questo campo è incluso solo nelle esecuzioni dei lavori. Vedere git_snapshot. |
git_tag |
String | Nome del tag da archiviare e usare da questo processo. Questo campo non può essere specificato insieme a git_branch o git_commit. |
git_url |
String | URL del repository da clonare da questo processo. |
job.git_source.git_snapshot
Type: Map
Snapshot di sola lettura delle informazioni di commit.
| Key | Type | Description |
|---|---|---|
used_commit |
String | Commit usato per eseguire l'esecuzione. Se git_branch è stato specificato, questo punta all'oggetto HEAD del ramo al momento dell'esecuzione; se git_tag è stato specificato, questo punta al commit a cui il tag fa riferimento. |
salute.lavoro
Type: Map
Configurazione del monitoraggio dell'integrità per il lavoro.
| Key | Type | Description |
|---|---|---|
rules |
Sequence | Elenco delle regole di salute del lavoro. Ogni regola contiene un metric e op (operatore) e value. Vedere job.health.rules. |
regole.di.salute.del.lavoro
Type: Sequence
Elenco delle regole di salute del lavoro.
Ogni elemento nell'elenco è :JobHealthRule
| Key | Type | Description |
|---|---|---|
metric |
String | Specifica la metrica di integrità valutata per una determinata regola di integrità.
|
op |
String | Specifica l'operatore usato per confrontare il valore della metrica di integrità con la soglia specificata. |
value |
Integer | Specifica il valore soglia che la metrica di integrità deve rispettare per soddisfare la regola di integrità. |
job.job_clusters
Type: Sequence
Elenco delle specifiche del cluster di lavori che possono essere condivise e riutilizzate dalle attività di questo lavoro. Le librerie non possono essere dichiarate in un cluster di processi condivisi. È necessario dichiarare librerie dipendenti nelle impostazioni delle attività.
Ogni elemento nell'elenco è :JobCluster
| Key | Type | Description |
|---|---|---|
job_cluster_key |
String | Nome univoco per il cluster di processi. Questo campo è obbligatorio e deve essere univoco all'interno del processo.
JobTaskSettings può fare riferimento a questo campo per determinare quale cluster avviare per l'esecuzione dell'attività. |
new_cluster |
Map | Se new_cluster, una descrizione di un cluster creato per ogni attività. Consulta cluster. |
job.impostazioni_di_notifica
Type: Map
Impostazioni di notifica applicabili a tutte le notifiche per il lavoro.
| Key | Type | Description |
|---|---|---|
no_alert_for_skipped_runs |
Boolean | Indica se saltare l'invio di avvisi per le esecuzioni saltate. |
no_alert_for_canceled_runs |
Boolean | Indica se ignorare l'invio di avvisi per le esecuzioni annullate. |
job.queue
Type: Map
Impostazioni della coda per il compito.
| Key | Type | Description |
|---|---|---|
enabled |
Boolean | Indica se abilitare la coda per il processo. |
programma.job.schedulazione
Type: Map
Pianificare la configurazione per l'esecuzione periodica del processo.
| Key | Type | Description |
|---|---|---|
quartz_cron_expression |
String | Un'espressione Cron che usa la sintassi di Quartz che specifica quando viene eseguita l'attività. Ad esempio, 0 0 9 * * ? esegue il processo ogni giorno alle 9:00 UTC. |
timezone_id |
String | Fuso orario per la pianificazione. Ad esempio, America/Los_Angeles o UTC. |
pause_status |
String | Indica se il programma è sospeso o meno. Valori validi: PAUSED, UNPAUSED. |
compito.attivatore
Type: Map
Attivare la configurazione per l'esecuzione di processi basati su eventi.
| Key | Type | Description |
|---|---|---|
file_arrival |
Map | Attivazione sull'arrivo di un file. Consulta file_arrival. |
table |
Map | Trigger basato su una tabella. Vedere la tabella. |
table_update |
Map | Trigger basato sugli aggiornamenti delle tabelle. Vedere table_update. |
periodic |
Map | Trigger periodico. Vedere periodico. |
processo.attivare.arrivo_file
Type: Map
Attivare la configurazione in base all'arrivo dei file.
| Key | Type | Description |
|---|---|---|
url |
String | Percorso del file da monitorare per i nuovi file. |
min_time_between_triggers_seconds |
Integer | Tempo minimo in secondi tra gli eventi di trigger. |
wait_after_last_change_seconds |
Integer | Tempo di attesa in secondi dopo l'ultima modifica del file prima dell'attivazione. |
job.trigger.table
Type: Map
Configurazione del trigger basata su una tabella.
| Key | Type | Description |
|---|---|---|
table_names |
Sequence | Elenco di nomi di tabella da monitorare. |
condition |
String | Condizione SQL che deve essere soddisfatta per attivare il processo. |
processo.attivare.aggiorna_tabella
Type: Map
Configurazione del trigger basata sugli aggiornamenti della tabella.
| Key | Type | Description |
|---|---|---|
table_names |
Sequence | Elenco di nomi di tabella da monitorare per gli aggiornamenti. |
condition |
String | Condizione SQL che deve essere soddisfatta per attivare il processo. |
wait_after_last_change_seconds |
Integer | Tempo di attesa in secondi dopo l'ultimo aggiornamento della tabella prima dell'attivazione. |
processo.attivatore.periodico
Type: Map
Configurazione del trigger periodico.
| Key | Type | Description |
|---|---|---|
interval |
Integer | Valore dell'intervallo per il trigger periodico. |
unit |
String | Unità di tempo per l'intervallo. Valori validi: SECONDS, MINUTES, HOURS, DAYS, WEEKS. |
job.notifiche_webhook
Type: Map
Impostazioni di notifica webhook per le esecuzioni di attività.
| Key | Type | Description |
|---|---|---|
on_start |
Sequence | Elenco di ID delle notifiche webhook da utilizzare per avvisare all'inizio di un'esecuzione. |
on_success |
Sequence | Elenco di ID notifica webhook da notificare quando un'esecuzione ha esito positivo. |
on_failure |
Sequence | Elenco di ID notifica webhook da notificare quando un'esecuzione ha esito negativo. |
on_duration_warning_threshold_exceeded |
Sequence | Elenco di ID di notifica webhook che devono essere notificati quando la durata di un'esecuzione supera la soglia di avviso. |
on_streaming_backlog_exceeded |
Sequence | Elenco di ID di notifica di sistema da chiamare quando vengono superate le soglie di backlog di streaming per qualsiasi flusso. Le soglie di backlog di streaming possono essere impostate nel health campo usando le metriche seguenti: STREAMING_BACKLOG_BYTES, STREAMING_BACKLOG_RECORDS, STREAMING_BACKLOG_SECONDSo STREAMING_BACKLOG_FILES. Gli avvisi si basano sulla media di 10 minuti di queste metriche. Se il problema persiste, le notifiche vengono inviate nuovamente ogni 30 minuti. È possibile specificare un massimo di 3 destinazioni. |
Examples
L'esempio seguente definisce un processo con la chiave di risorsa hello-job e un'attività di notebook:
resources:
jobs:
hello-job:
name: hello-job
tasks:
- task_key: hello-task
notebook_task:
notebook_path: ./hello.py
L'esempio seguente definisce un processo con un notebook SQL:
resources:
jobs:
job_with_sql_notebook:
name: 'Job to demonstrate using a SQL notebook with a SQL warehouse'
tasks:
- task_key: notebook
notebook_task:
notebook_path: ./select.sql
warehouse_id: 799f096837fzzzz4
Per altri esempi di configurazione dei processi, vedere Configurazione del processo.
Per informazioni sulla definizione dei compiti di lavoro e sull'override delle impostazioni di lavoro, vedere:
- Aggiungere attività ai processi nei bundle di asset di Databricks
- Override delle impostazioni delle attività lavorative
modello (obsoleto)
Type: Map
La risorsa modello consente di definire modelli legacy nei pacchetti. Databricks consiglia di usare invece i modelli registrati di Unity Catalog .
Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
endpoint_servizio_modello
Type: Map
La risorsa model_serving_endpoint consente di definire modello che gestisce gli endpoint. Vedere Gestire i modelli che gestiscono gli endpoint.
Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
model_serving_endpoints:
<model_serving_endpoint-name>:
<model_serving_endpoint-field-name>: <model_serving_endpoint-field-value>
| Key | Type | Description |
|---|---|---|
ai_gateway |
Map | Configurazione del gateway di intelligenza artificiale per l'endpoint di gestione. NOTA: attualmente sono supportati solo gli endpoint di velocità effettiva con provisioning e modello esterno. Vedere ai_gateway. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.230.0 |
budget_policy_id |
String | ID dei criteri di budget da usare per questo endpoint. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.244.0 |
config |
Map | Configurazione principale dell'endpoint di gestione. Consulta config. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
description |
String | Descrizione dell'endpoint di gestione. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.260.0 |
email_notifications |
Map | Configurazione delle notifiche tramite posta elettronica per l'endpoint di gestione. Vedere email_notifications. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.264.0 |
lifecycle |
Map | Contiene le impostazioni del ciclo di vita per una risorsa. Controlla il comportamento della risorsa quando viene distribuita o distrutta. Vedere ciclo di vita. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.268.0 |
name |
String | Nome dell'endpoint di servizio. Questo campo è obbligatorio e deve essere univoco in un'area di lavoro di Databricks. Un nome endpoint può essere costituito da caratteri alfanumerici, trattini e caratteri di sottolineatura. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
permissions |
Sequence | Il modello che gestisce le autorizzazioni dell'endpoint. Vedere autorizzazioni. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
rate_limits |
Sequence | Deprecated. Limiti di frequenza da applicare all'endpoint di servizio. Usare il gateway di intelligenza artificiale per gestire i limiti di frequenza. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
route_optimized |
Boolean | Abilitare l'ottimizzazione della route per l'endpoint di servizio. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
tags |
Sequence | Tag da associare all'endpoint di gestione e propagati automaticamente ai log di fatturazione. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
model_serving_endpoint.email_notifications
Type: Map
Configurazione delle notifiche tramite posta elettronica per l'endpoint di gestione.
| Key | Type | Description |
|---|---|---|
on_update_failure |
Sequence | Elenco di indirizzi di posta elettronica da notificare quando un endpoint non riesce ad aggiornare la configurazione o lo stato. |
on_update_success |
Sequence | Elenco di indirizzi di posta elettronica per ricevere una notifica quando un endpoint aggiorna correttamente la configurazione o lo stato. |
endpoint_servizio_modelli.gateway_ai
Type: Map
Configurazione del gateway di intelligenza artificiale per l'endpoint di gestione.
| Key | Type | Description |
|---|---|---|
fallback_config |
Map | Configurazione per il fallback del traffico che esegue automaticamente il fallback ad altre entità servite se la richiesta a un'entità servita non riesce con determinati codici di errore, per aumentare la disponibilità. Vedere fallback_config. |
guardrails |
Map | Configurazione di Guardrail. Vedi barriere di sicurezza. |
inference_table_config |
Map | Configurazione per la registrazione dell'inferenza nelle tabelle del catalogo Unity. Vedere inference_table_config. |
rate_limits |
Sequence | Configurazioni del limite di velocità. |
usage_tracking_config |
Map | Configurazione per tenere traccia dell'utilizzo. Vedere usage_tracking_config. |
model_serving_endpoint.ai_gateway.fallback_config
Type: Map
Configurazione per il fallback del traffico che esegue automaticamente il fallback ad altre entità gestite se una richiesta ha esito negativo con determinati codici di errore.
| Key | Type | Description |
|---|---|---|
enabled |
Boolean | Indica se il fallback è abilitato per questo endpoint. |
endpoint_di_servizio_modello.passarella_ai.barriere_protettive
Type: Map
La configurazione delle barriere del gateway dell'intelligenza artificiale.
| Key | Type | Description |
|---|---|---|
input |
Map | Configurazione delle protezioni di input con campi come safety, pii. |
output |
Map | La configurazione delle protezioni di output con campi come safety, pii. |
invalid_keywords |
Sequence | Elenco di parole chiave da bloccare. |
model_serving_endpoint.ai_gateway.inference_table_config
Type: Map
Configurazione per la registrazione dell'inferenza nelle tabelle del catalogo Unity.
| Key | Type | Description |
|---|---|---|
catalog_name |
String | Nome del catalogo in Unity Catalog. |
schema_name |
String | Nome dello schema in Unity Catalog. |
table_name_prefix |
String | Prefisso per i nomi delle tabelle di inferenza. |
enabled |
Boolean | Indica se la registrazione della tabella di inferenza è abilitata. |
model_serving_endpoint.ai_gateway.configurazione_tracciamento_utilizzo
Type: Map
Configurazione del gateway di intelligenza artificiale per tenere traccia dell'utilizzo.
| Key | Type | Description |
|---|---|---|
enabled |
Boolean | Indica se il rilevamento dell'utilizzo è abilitato. |
model_serving_endpoint.config
Type: Map
Configurazione principale dell'endpoint di gestione.
| Key | Type | Description |
|---|---|---|
served_entities |
Sequence | Elenco di entità servite per l'endpoint da gestire. Ogni entità servita contiene campi come entity_name, entity_version, workload_size, scale_to_zero_enabled, workload_type, environment_vars. |
served_models |
Sequence | (Deprecato: usare served_entities invece) Elenco di modelli serviti per l'endpoint da gestire. |
traffic_config |
Map | Configurazione del traffico che definisce come devono essere instradate le chiamate all'endpoint di servizio. Vedere traffic_config. |
auto_capture_config |
Map | Configurazione per le tabelle di inferenza che registra automaticamente le richieste e le risposte al catalogo Unity. Vedere auto_capture_config. |
punto_di_servizio_model.config.configurazione_traffico
Type: Map
Configurazione del traffico che definisce come devono essere instradate le chiamate all'endpoint di servizio.
| Key | Type | Description |
|---|---|---|
routes |
Sequence | Elenco di route per la distribuzione del traffico. Ogni route contiene served_model_name e traffic_percentage. |
model_serving_endpoint.config.auto_capture_config
Type: Map
Configurazione per le tabelle di inferenza che registra automaticamente le richieste e le risposte al catalogo Unity.
| Key | Type | Description |
|---|---|---|
catalog_name |
String | Nome del catalogo in Unity Catalog. |
schema_name |
String | Nome dello schema in Unity Catalog. |
table_name_prefix |
String | Prefisso per i nomi delle tabelle di inferenza. |
enabled |
Boolean | Indica se la registrazione della tabella di inferenza è abilitata. |
Example
L'esempio seguente definisce un endpoint di gestione di un modello di Catalogo Unity:
resources:
model_serving_endpoints:
uc_model_serving_endpoint:
name: 'uc-model-endpoint'
config:
served_entities:
- entity_name: 'myCatalog.mySchema.my-ads-model'
entity_version: '10'
workload_size: 'Small'
scale_to_zero_enabled: 'true'
traffic_config:
routes:
- served_model_name: 'my-ads-model-10'
traffic_percentage: '100'
tags:
- key: 'team'
value: 'data science'
flusso di lavoro
Type: Map
Le pipeline sono supportate in Python per i bundle di asset di Databricks. Vedere databricks.bundles.pipelines.
La risorsa della pipeline consente di creare pipeline. Per informazioni sulle pipeline, vedere Pipeline dichiarative di Lakeflow Spark. Per un'esercitazione che usa il modello Databricks Asset Bundles per creare una pipeline, vedere Sviluppare pipeline dichiarative di Lakeflow Spark con Databricks Asset Bundles.
Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
pipelines:
<pipeline-name>:
<pipeline-field-name>: <pipeline-field-value>
| Key | Type | Description |
|---|---|---|
allow_duplicate_names |
Boolean | Se false, la distribuzione avrà esito negativo se il nome è in conflitto con quello di un'altra pipeline. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.261.0 |
budget_policy_id |
String | Politica di budget di questa pipeline. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.230.0 |
catalog |
String | Catalogo in Unity Catalog in cui pubblicare i dati da questa pipeline. Se target viene specificato, le tabelle in questa pipeline vengono pubblicate in uno schema target all'interno di catalog, ad esempio catalog.target.table. Se target non viene specificato, non viene pubblicato alcun dato nel catalogo unity.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
channel |
String | Canale di rilascio delle pipeline dichiarative di Lakeflow Spark che specifica quale versione di Lakeflow Spark Declarative Pipelines utilizzare. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
clusters |
Sequence | Impostazioni del cluster per questa distribuzione della pipeline. Consulta cluster. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
configuration |
Map | La configurazione per l'esecuzione della pipeline. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
continuous |
Boolean | Indica se la pipeline è continua o attivata su comando. Questo sostituisce trigger.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
deployment |
Map | Tipo di distribuzione di questa pipeline. Vedi Deployment (Distribuzione). Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
development |
Boolean | Indica se la pipeline è in modalità di sviluppo. Il valore predefinito è falso. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
dry_run |
Boolean | Indica se la pipeline è una pipeline di esecuzione a secco. |
edition |
String | Edizione del prodotto della linea di produzione. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
environment |
Map | Specifica dell'ambiente per questa pipeline usata per installare le dipendenze nell'ambiente di calcolo serverless. Vedere ambiente. Questa chiave è supportata solo nell'interfaccia della riga di comando di Databricks versione 0.258 e successive. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.257.0 |
event_log |
Map | Configurazione del registro eventi per questa pipeline. Vedere event_log. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.246.0 |
filters |
Map | Filtri che determinano quali pacchetti della pipeline includere nel grafico distribuito. Vedere i filtri. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
gateway_definition |
Map | Configurazione per una pipeline del gateway. Queste impostazioni non possono essere usate con le ingestion_definition impostazioni.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
id |
String | Identificatore univoco per questa pipeline. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
ingestion_definition |
Map | Configurazione per una pipeline di inserimento gestita. Queste impostazioni non possono essere usate con le librariesimpostazioni , schema, targeto catalog . Vedere ingestion_definition.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
libraries |
Sequence | Elenco di librerie o codice necessario per questa distribuzione. Vedere pipeline.libraries. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
lifecycle |
Map | Contiene le impostazioni del ciclo di vita per una risorsa. Controlla il comportamento della risorsa quando viene distribuita o distrutta. Vedere ciclo di vita. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.268.0 |
name |
String | Nome amichevole per questa pipeline. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
notifications |
Sequence | Impostazioni di notifica per questa pipeline. Vedere le notifiche. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
permissions |
Sequence | Autorizzazioni della pipeline. Vedere autorizzazioni. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
photon |
Boolean | Indica se Photon è abilitato per questa pipeline. Questa chiave viene ignorata se serverless è impostata su true.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
restart_window |
Map | Definisce una finestra di riavvio per questa pipeline. È possibile riavviare le pipeline all'interno di questa finestra senza cadere dietro. |
root_path |
String | Percorso radice per questa pipeline. Viene usata come directory radice durante la modifica della pipeline nell'interfaccia utente di Databricks e viene aggiunta a sys.path quando si eseguono file Python nel corso dell'esecuzione della pipeline. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.253.0 |
run_as |
Map | L'identità con cui viene eseguita la pipeline. Se non specificato, la pipeline viene eseguita dall'utente che l'ha creata. È possibile specificare solo user_name o service_principal_name . Se vengono specificati entrambi, viene generato un errore. Vedere run_as.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.241.0 |
schema |
String | Schema predefinito (database) in cui le tabelle vengono lette o pubblicate. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.230.0 |
serverless |
Boolean | Indica se l'ambiente di calcolo serverless è abilitato per questa pipeline. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
storage |
String | Cartella principale di DBFS per la memorizzazione di checkpoint e tabelle. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
tags |
Map | Mappa dei tag associati alla pipeline. Questi vengono inoltrati al cluster come tag del cluster e pertanto sono soggetti alle stesse limitazioni. È possibile aggiungere alla pipeline un massimo di 25 tag. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.256.0 |
target |
String | Schema di destinazione (database) a cui aggiungere tabelle in questa pipeline. È necessario specificare esattamente uno di schema o target . Per pubblicare in Unity Catalog, specificare anche catalog. Questo campo legacy è obsoleto per la creazione della pipeline a favore del campo schema.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
usage_policy_id |
String | ID dei criteri di utilizzo da usare per questa pipeline. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.273.0 |
pipeline.distribuzione
Type: Map
Configurazione del tipo di distribuzione per la pipeline.
| Key | Type | Description |
|---|---|---|
kind |
String | Tipo di distribuzione. Ad esempio: BUNDLE. |
metadata_file_path |
String | Percorso del file di metadati per la distribuzione. |
pipeline.ambiente
Type: Map
Specifica dell'ambiente per l'installazione delle dipendenze nell'ambiente di calcolo serverless.
| Key | Type | Description |
|---|---|---|
dependencies |
Sequence | Elenco delle dipendenze pip, come supportato dalla versione di pip in questo ambiente. Ogni dipendenza è una riga di file del requisito pip. |
pipeline.registro_eventi
Type: Map
Configurazione del registro eventi per la pipeline.
| Key | Type | Description |
|---|---|---|
catalog |
String | Il catalogo di Unity Catalog in cui è pubblicato il registro eventi. |
name |
String | Il nome al quale viene pubblicato il registro eventi in Unity Catalog. |
schema |
String | Lo schema del catalogo Unity in cui è pubblicato il registro eventi. |
pipeline.filtri
Type: Map
Filtri che determinano quali pacchetti di pipeline includere nel grafico distribuito.
| Key | Type | Description |
|---|---|---|
include |
Sequence | Elenco dei nomi dei pacchetti da includere. |
exclude |
Sequence | Elenco di nomi di pacchetti da escludere. |
pipeline.ingestion_definition
Type: Map
Configurazione per una pipeline di inserimento gestita. Queste impostazioni non possono essere usate con le librariesimpostazioni , schema, targeto catalog .
| Key | Type | Description |
|---|---|---|
connection_name |
String | Nome della connessione da usare per l'inserimento. |
ingestion_gateway_id |
String | ID del gateway di inserimento. |
objects |
Sequence | Obbligatorio. Impostazioni che specificano le tabelle da replicare e la destinazione per le tabelle replicate. Ogni oggetto può essere schemaSpec, TableSpec o ReportSpec. |
source_configurations |
Sequence | Configurazioni di origine di primo livello. |
table_configuration |
Map | Configurazione per le tabelle di ingestione. Vedere table_configuration. |
SchemaSpec
Type: Map
Specifica dell'oggetto schema per l'inserimento di tutte le tabelle da uno schema.
| Key | Type | Description |
|---|---|---|
source_schema |
String | Nome dello schema di origine da inserire. |
destination_catalog |
String | Nome del catalogo di destinazione in Unity Catalog. |
destination_schema |
String | Nome dello schema di destinazione in Unity Catalog. |
table_configuration |
Map | Configurazione da applicare a tutte le tabelle in questo schema. Vedere pipeline.ingestion_definition.table_configuration. |
TableSpec
Type: Map
Specifica dell'oggetto Table per l'ingestione di una tabella specifica.
| Key | Type | Description |
|---|---|---|
source_schema |
String | Nome dello schema di origine contenente la tabella. |
source_table |
String | Nome della tabella di origine da inserire. |
destination_catalog |
String | Nome del catalogo di destinazione in Unity Catalog. |
destination_schema |
String | Nome dello schema di destinazione in Unity Catalog. |
destination_table |
String | Nome della tabella di destinazione in Unity Catalog. |
table_configuration |
Map | Configurazione per questa tabella specifica. Vedere pipeline.ingestion_definition.table_configuration. |
Specifica del Report
Type: Map
Specifica dell'oggetto report per l'inserimento di report di analisi.
| Key | Type | Description |
|---|---|---|
source_url |
String | URL del report di origine. |
source_report |
String | Nome o identificatore del report di origine. |
destination_catalog |
String | Nome del catalogo di destinazione in Unity Catalog. |
destination_schema |
String | Nome dello schema di destinazione in Unity Catalog. |
destination_table |
String | Nome della tabella di destinazione per i dati del report. |
table_configuration |
Map | Configurazione per la tabella del report. Vedere pipeline.ingestion_definition.table_configuration. |
pipeline.ingestion_definition.source_configurations
Type: Map
Configurazione per la sorgente.
| Key | Type | Description |
|---|---|---|
catalog |
Map | Parametri di configurazione dell'origine a livello di catalogo. Vedere il catalogo. |
pipeline.definizione_di_ingestione.configurazione_sorgente.catalogo
Type: Map
Parametri di configurazione dell'origine a livello di catalogo
| Key | Type | Description |
|---|---|---|
postgres |
Map | Parametri di configurazione a livello di catalogo specifici di Postgres. Contiene una slot_config chiave che è una Map rappresentante la configurazione dello slot Postgres da utilizzare per la replica logica. |
source_catalog |
String | Nome del catalogo di origine. |
pipeline.definizione_ingestione.configurazione_tabella
Type: Map
Opzioni di configurazione per le tabelle di inserimento.
| Key | Type | Description |
|---|---|---|
exclude_columns |
Sequence | Elenco di nomi di colonna da escludere per l'inserimento. Se non specificato, include_columns controlla completamente le colonne da inserire. Se specificato, tutte le altre colonne incluse quelle future verranno incluse automaticamente per l'inserimento. Questo campo è mutuamente esclusivo con include_columns. |
include_columns |
Sequence | Elenco di nomi di colonna da includere per l'ingestione. Se non specificato, verranno incluse tutte le colonne ad eccezione di quelle incluse exclude_columns . Le colonne future verranno incluse automaticamente. Se specificato, tutte le altre colonne future verranno automaticamente escluse dall'inserimento. Questo campo è mutuamente esclusivo con exclude_columns. |
primary_keys |
Sequence | Elenco di nomi di colonna da utilizzare come chiavi primarie per la tabella. |
sequence_by |
Sequence | Nomi di colonna che specificano l'ordine logico degli eventi nei dati di origine. Le pipeline dichiarative spark usano questa sequenziazione per gestire gli eventi di modifica che arrivano non in ordine. |
pipeline.libraries
Type: Sequence
Definisce l'elenco di librerie o codice necessari per questa pipeline.
Ogni elemento nell'elenco è una definizione:
| Key | Type | Description |
|---|---|---|
file |
Map | Percorso di un file che definisce una pipeline e archiviato in Databricks Repos. Vedere pipeline.libraries.file. |
glob |
Map | Campo unificato da includere il codice sorgente. Ogni voce può essere un percorso del notebook, un percorso di file o un percorso di cartella che termina /**. Questo campo non può essere utilizzato insieme a notebook o file. Vedere pipeline.libraries.glob. |
notebook |
Map | Il percorso di un notebook che definisce una pipeline e viene memorizzato nell'area di lavoro Databricks. Vedere pipeline.libraries.notebook. |
whl |
String | Questo campo è deprecato |
pipeline.libraries.file
Type: Map
Percorso di un file che definisce una pipeline e archiviato in Databricks Repos.
| Key | Type | Description |
|---|---|---|
path |
String | Percorso assoluto del codice sorgente. |
pipeline.libraries.glob
Type: Map
Campo unificato da includere il codice sorgente. Ogni voce può essere un percorso del notebook, un percorso di file o un percorso di cartella che termina /**. Questo campo non può essere utilizzato insieme a notebook o file.
| Key | Type | Description |
|---|---|---|
include |
String | Codice sorgente da includere per le pipeline |
pipeline.libraries.notebook
Type: Map
Il percorso di un notebook che definisce una pipeline e viene memorizzato nell'area di lavoro Databricks.
| Key | Type | Description |
|---|---|---|
path |
String | Percorso assoluto del codice sorgente. |
pipeline.notifications
Type: Sequence
Impostazioni di notifica per questa pipeline. Ogni elemento della sequenza è una configurazione di notifica.
| Key | Type | Description |
|---|---|---|
alerts |
Sequence | Elenco di avvisi che attivano le notifiche. I valori validi includono on-update-success, on-update-failure, on-update-fatal-failure, on-flow-failure. |
email_recipients |
Sequence | Elenco di indirizzi di posta elettronica da notificare quando viene attivato un avviso configurato. |
Example
L'esempio seguente definisce una pipeline con la chiave di risorsa hello-pipeline:
resources:
pipelines:
hello-pipeline:
name: hello-pipeline
clusters:
- label: default
num_workers: 1
development: true
continuous: false
channel: CURRENT
edition: CORE
photon: false
libraries:
- notebook:
path: ./pipeline.py
Per altri esempi di configurazione della pipeline, vedere Configurazione della pipeline.
postgres_branch
Type:Map
La risorsa del ramo Postgres consente di definire rami Lakebase in un bundle. È anche necessario definire i progetti Postgres e gli endpoint di calcolo corrispondenti.
Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0
postgres_branches:
<postgres_branch-name>:
<postgres_branch-field-name>: <postgres_branches-field-value>
| Key | Type | Description |
|---|---|---|
branch_id |
String | ID da utilizzare per il ramo. Questo diventa il componente finale del nome della risorsa del ramo. L'ID è obbligatorio e deve avere una lunghezza di 1-63 caratteri, iniziare con una lettera minuscola e contenere solo lettere minuscole, numeri e trattini. Ad esempio, development diventa projects/my-app/branches/development.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0 |
expire_time |
String | Timestamp di scadenza assoluto. Se impostato, il ramo scadrà in questo momento. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0 |
is_protected |
Boolean | Se impostato su true, protegge il ramo dall'eliminazione e dalla reimpostazione. Gli endpoint di calcolo associati e il progetto non possono essere eliminati mentre il ramo è protetto. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0 |
no_expiry |
Boolean | Disabilitare in modo esplicito la scadenza. Se impostato su true, il ramo non scadrà. Se impostato su false, la richiesta non è valida; specificare invece ttl o expire_time. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0 |
parent |
String | Progetto in cui verrà creato questo ramo. Formato: projects/{project_id}Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0 |
source_branch |
String | Nome del ramo di origine da cui è stato creato questo ramo (derivazione dei dati per il recupero temporizzato). Se non specificato, per impostazione predefinita viene impostato il ramo predefinito del progetto. Formato: projects/{project_id}/branches/{branch_id}Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0 |
source_branch_lsn |
String | Numero di sequenza del log (LSN) nel ramo di origine da cui è stato creato questo ramo. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0 |
source_branch_time |
String | Punto nel tempo nel ramo di origine da cui è stato creato questo ramo. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0 |
ttl |
String | Durata relativa da tempo a tempo reale. Se impostato, il ramo scadrà a creation_time + ttl. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0 |
Example
Vedere postgres_projects esempio.
postgres_endpoint
Type: Map
La risorsa postgres_endpoints consente di definire gli endpoint di calcolo lakebase in un bundle. È inoltre necessario definire i progetti Lakebase e i rami Lakebase corrispondenti.
Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0
postgres_endpoints:
<postgres_endpoint-name>:
<postgres_endpoint-field-name>: <postgres_endpoint-field-value>
| Key | Type | Description |
|---|---|---|
autoscaling_limit_max_cu |
Number | Numero massimo di unità di calcolo. Il valore minimo è 0,5. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0 |
autoscaling_limit_min_cu |
Number | Numero minimo di unità di calcolo. Il valore minimo è 0,5. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0 |
disabled |
Boolean | Indica se limitare le connessioni all'endpoint di calcolo. L'abilitazione di questa opzione pianifica un'operazione di calcolo di sospensione. Un endpoint di calcolo disabilitato non può essere abilitato da una connessione o da un'azione della console. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0 |
endpoint_id |
String | ID da usare per l'endpoint. Questo diventa il componente finale del nome della risorsa dell'endpoint. L'ID è obbligatorio e deve avere una lunghezza di 1-63 caratteri, iniziare con una lettera minuscola e contenere solo lettere minuscole, numeri e trattini. Ad esempio, primary diventa projects/my-app/branches/development/endpoints/primary.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0 |
endpoint_type |
String | Tipo di endpoint. Un ramo può avere un solo endpoint READ_WRITE. Valori possibili: ENDPOINT_TYPE_READ_WRITE, ENDPOINT_TYPE_READ_ONLY.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0 |
no_suspension |
Boolean | Se impostato su true, disabilita in modo esplicito la sospensione automatica (mai sospesa). Se specificato, deve essere impostato su true. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0 |
parent |
String | Ramo in cui verrà creato questo endpoint. Formato: projects/{project_id}/branches/{branch_id}Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0 |
settings |
Map | Raccolta di impostazioni per un endpoint di calcolo. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0 |
suspend_timeout_duration |
String | Durata dell'inattività dopo la quale l'endpoint di calcolo viene sospeso automaticamente. Se specificato deve essere compreso tra 60 e 604800s (da 1 minuto a 1 settimana). Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0 |
Example
Vedere postgres_projects esempio.
postgres_project
Type: Map
La risorsa di progetto Postgres consente di definire progetti di database Postgres con scalabilità automatica di Lakebase in un bundle. È anche necessario definire i rami e gli endpoint di calcoloPostgres corrispondenti.
Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0
postgres_projects:
<postgres_project-name>:
<postgres_project-field-name>: <postgres_project-field-value>
| Key | Type | Description |
|---|---|---|
default_endpoint_settings |
Map | Raccolta di impostazioni per un endpoint di calcolo. Vedere postgres_project.default_endpoint_settings. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0 |
display_name |
String | Nome del progetto leggibile. La lunghezza deve essere compresa tra 1 e 256 caratteri. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0 |
history_retention_duration |
String | Numero di secondi per conservare la cronologia condivisa per il ripristino temporizzato per tutti i rami del progetto. Il valore deve essere compreso tra 0 e 2592000s (fino a 30 giorni). Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0 |
pg_version |
Integer | Numero di versione principale di Postgres. Le versioni supportate sono 16 e 17. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0 |
project_id |
String | ID da utilizzare per il progetto. Questo diventa il componente finale del nome della risorsa del progetto. L'ID è obbligatorio e deve avere una lunghezza di 1-63 caratteri, iniziare con una lettera minuscola e contenere solo lettere minuscole, numeri e trattini. Ad esempio, my-app diventa projects/my-app.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0 |
Esempio di
resources:
postgres_projects:
my_db:
project_id: test-prod-app
display_name: 'Production Database'
pg_version: 17
postgres_branches:
main:
parent: ${resources.postgres_projects.my_db.id}
branch_id: main
is_protected: false
no_expiry: true
postgres_endpoints:
primary:
parent: ${resources.postgres_branches.main.id}
endpoint_id: primary
endpoint_type: ENDPOINT_TYPE_READ_WRITE
autoscaling_limit_min_cu: 0.5
autoscaling_limit_max_cu: 4
postgres_project.default_endpoint_settings
Type: Map
| Key | Type | Description |
|---|---|---|
autoscaling_limit_max_cu |
Number | Numero massimo di unità di calcolo. Il valore minimo è 0,5. |
autoscaling_limit_min_cu |
Number | Numero minimo di unità di calcolo. Il valore minimo è 0,5. |
no_suspension |
Boolean | Se impostato su true, disabilita in modo esplicito la sospensione automatica (mai sospesa). Se specificato, deve essere impostato su true. |
pg_settings |
Map | Rappresentazione non elaborata delle impostazioni di Postgres. |
suspend_timeout_duration |
String | Durata dell'inattività dopo la quale l'endpoint di calcolo viene sospeso automaticamente. Se specificato deve essere compreso tra 60 e 604800s (da 1 minuto a 1 settimana). |
monitor_qualità (Catalogo Unity)
Type: Map
La risorsa quality_monitor consente di definire un monitor di tabella del Catalogo Unity . Per informazioni sui monitoraggi, vedere Profiling dei dati.
Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
quality_monitors:
<quality_monitor-name>:
<quality_monitor-field-name>: <quality_monitor-field-value>
| Key | Type | Description |
|---|---|---|
assets_dir |
String | Directory in cui archiviare gli asset di monitoraggio,ad esempio dashboard, tabelle delle metriche. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
baseline_table_name |
String | Nome della tabella di base da cui vengono calcolate le metriche di deriva. Anche le colonne nella tabella monitorata devono essere presenti nella tabella di base. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
custom_metrics |
Sequence | Metriche personalizzate da calcolare nella tabella monitorata. Queste metriche possono essere aggregate, metriche derivate (da metriche aggregate già calcolate) o metriche di derivazione (confronto delle metriche tra le finestre temporali). Vedere custom_metrics. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
inference_log |
Map | Configurazione per il monitoraggio dei log di inferenza. Vedere inference_log. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
latest_monitor_failure_msg |
String | Messaggio di errore più recente per un errore di monitoraggio. Si tratta di un campo di sola lettura popolato quando un monitoraggio ha esito negativo. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.264.0 |
lifecycle |
Map | Contiene le impostazioni del ciclo di vita per una risorsa. Controlla il comportamento della risorsa quando viene distribuita o distrutta. Vedere ciclo di vita. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.268.0 |
notifications |
Map | Impostazioni di notifica per il monitoraggio. Vedere le notifiche. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
output_schema_name |
String | Schema in cui vengono create le tabelle delle metriche di output. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
schedule |
Map | Pianificazione per l'aggiornamento automatico e l'aggiornamento delle tabelle delle metriche. Vedere programma. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
skip_builtin_dashboard |
Boolean | Se ignorare la creazione di un dashboard predefinito che riepiloga le metriche relative alla qualità dei dati. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
slicing_exprs |
Sequence | Elenco di espressioni di colonna con cui suddividere i dati per un'analisi mirata. I dati vengono raggruppati in base a ogni espressione in modo indipendente, generando una sezione separata per ogni predicato e i relativi complementi. Per le colonne con cardinalità elevata, verranno generati solo i primi 100 valori univoci basati sulla frequenza. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
snapshot |
Map | Configurazione per il monitoraggio delle tabelle snapshot. Vedere snapshot. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
table_name |
String | Nome completo della tabella. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.235.0 |
time_series |
Map | Configurazione per il monitoraggio delle tabelle delle serie temporali. Vedere time_series. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
warehouse_id |
String | Argomento facoltativo per specificare il magazzino per la creazione del dashboard. Se non specificato, verrà utilizzato il primo magazzino in esecuzione. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
quality_monitor.custom_metrics
Type: Sequence
Elenco di definizioni di metriche personalizzate.
Ogni elemento nell'elenco è :CustomMetric
| Key | Type | Description |
|---|---|---|
definition |
String | Modello Jinja per un'espressione SQL che specifica come calcolare la metrica. Vedere Creare la definizione della metrica. |
input_columns |
Sequence | Un elenco di nomi di colonna nella tabella di input per cui la metrica deve essere calcolata. Può essere usato :table per indicare che la metrica necessita di informazioni da più colonne. |
name |
String | Nome della metrica nelle tabelle di output. |
output_data_type |
String | Formato di output della metrica personalizzata. |
type |
String | Può essere solo uno di CUSTOM_METRIC_TYPE_AGGREGATE, CUSTOM_METRIC_TYPE_DERIVEDo CUSTOM_METRIC_TYPE_DRIFT. Le metriche CUSTOM_METRIC_TYPE_AGGREGATE e CUSTOM_METRIC_TYPE_DERIVED vengono calcolate su una singola tabella, mentre le metriche CUSTOM_METRIC_TYPE_DRIFT confrontano le tabelle di base e di input, o le due finestre temporali consecutive.
|
quality_monitor.inference_log
Type: Map
Configurazione per il monitoraggio dei log di inferenza.
| Key | Type | Description |
|---|---|---|
granularities |
Sequence | Granularità temporale per l'aggregazione dei log di inferenza, ad esempio ["1 day"]. |
model_id_col |
String | Nome della colonna contenente l'ID modello. |
prediction_col |
String | Nome della colonna contenente la stima. |
timestamp_col |
String | Nome della colonna contenente il timestamp. |
problem_type |
String | Tipo di problema di Machine Learning. I valori validi includono PROBLEM_TYPE_CLASSIFICATION, PROBLEM_TYPE_REGRESSION. |
label_col |
String | Nome della colonna contenente l'etichetta (verità principale). |
prediction_proba_col |
String | Nome della colonna contenente le probabilità di stima. |
monitor_qualità.notifiche
Type: Map
Impostazioni di notifica per il monitoraggio.
| Key | Type | Description |
|---|---|---|
on_failure |
Map | Impostazioni di notifica quando il monitoraggio ha esito negativo. Consultare on_failure. |
on_new_classification_tag_detected |
Map | Impostazioni di notifica quando vengono rilevati nuovi tag di classificazione. Vedere on_new_classification_tag_detected. |
monitor_qualità.notifiche.su_fallimento
Type: Map
Impostazioni di notifica quando il monitoraggio ha esito negativo.
| Key | Type | Description |
|---|---|---|
email_addresses |
Sequence | Elenco di indirizzi di posta elettronica a cui inviare una notifica in caso di errore di monitoraggio. |
quality_monitor.notifiche.su_nuova_rilevazione_tag_classificazione
Type: Map
Impostazioni di notifica quando vengono rilevati nuovi tag di classificazione.
| Key | Type | Description |
|---|---|---|
email_addresses |
Sequence | Elenco di indirizzi di posta elettronica da notificare quando vengono rilevati nuovi tag di classificazione. |
quality_monitor.programmazione
Type: Map
Pianificare l'aggiornamento automatico e l'aggiornamento delle tabelle delle metriche.
| Key | Type | Description |
|---|---|---|
quartz_cron_expression |
String | Espressione cron che usa la sintassi Quartz. Ad esempio, 0 0 8 * * ? viene eseguito ogni giorno alle 8:00 AM. |
timezone_id |
String | Fuso orario per la pianificazione, ad esempio UTC, America/Los_Angeles. |
pause_status |
String | Indica se il programma è sospeso. Valori validi: PAUSED, UNPAUSED. |
monitor_di_qualità.istantanea
Type: Map
Configurazione per il monitoraggio delle tabelle snapshot.
monitor_di_qualità.serie_temporale
Configurazione per il monitoraggio delle tabelle delle serie temporali.
| Key | Type | Description |
|---|---|---|
granularities |
Sequence | Granularità temporale per l'aggregazione dei dati delle serie temporali, ad esempio ["30 minutes"]. |
timestamp_col |
String | Nome della colonna contenente il timestamp. |
Examples
Gli esempi seguenti definiscono i monitoraggi qualitativi per i tipi di profilo InferenceLog, TimeSeries e Snapshot .
# InferenceLog profile type
resources:
quality_monitors:
my_quality_monitor:
table_name: dev.mlops_schema.predictions
output_schema_name: ${bundle.target}.mlops_schema
assets_dir: /Workspace/Users/${workspace.current_user.userName}/databricks_lakehouse_monitoring
inference_log:
granularities: [1 day]
model_id_col: model_id
prediction_col: prediction
label_col: price
problem_type: PROBLEM_TYPE_REGRESSION
timestamp_col: timestamp
schedule:
quartz_cron_expression: 0 0 8 * * ? # Run Every day at 8am
timezone_id: UTC
# TimeSeries profile type
resources:
quality_monitors:
my_quality_monitor:
table_name: dev.mlops_schema.predictions
output_schema_name: ${bundle.target}.mlops_schema
assets_dir: /Workspace/Users/${workspace.current_user.userName}/databricks_lakehouse_monitoring
time_series:
granularities: [30 minutes]
timestamp_col: timestamp
schedule:
quartz_cron_expression: 0 0 8 * * ? # Run Every day at 8am
timezone_id: UTC
# Snapshot profile type
resources:
quality_monitors:
my_quality_monitor:
table_name: dev.mlops_schema.predictions
output_schema_name: ${bundle.target}.mlops_schema
assets_dir: /Workspace/Users/${workspace.current_user.userName}/databricks_lakehouse_monitoring
snapshot: {}
schedule:
quartz_cron_expression: 0 0 8 * * ? # Run Every day at 8am
timezone_id: UTC
L'esempio seguente configura un monitoraggio qualità e un processo di ripetizione del training del modello corrispondente in base al monitoraggio:
# Quality monitoring workflow
resources:
quality_monitors:
mlops_quality_monitor:
table_name: ${bundle.target}.mlops_demo.predictions
output_schema_name: ${bundle.target}.mlops_demo
assets_dir: /Users/${workspace.current_user.userName}/databricks_lakehouse_monitoring
inference_log:
granularities: [1 hour]
model_id_col: model_version
prediction_col: prediction
label_col: fare_amount
problem_type: PROBLEM_TYPE_REGRESSION
timestamp_col: inference_timestamp
schedule:
quartz_cron_expression: 57 0 14 * * ? # refresh monitoring metrics every day at 7 am PT
timezone_id: UTC
jobs:
retraining_job:
name: ${bundle.target}-mlops_demo-monitoring-retraining-job
tasks:
- task_key: monitored_metric_violation_check
notebook_task:
notebook_path: ../monitoring/notebooks/MonitoredMetricViolationCheck.py
base_parameters:
env: ${bundle.target}
table_name_under_monitor: ${bundle.target}.mlops_demo.predictions
metric_to_monitor: r2_score
metric_violation_threshold: 0.7
num_evaluation_windows: 24
num_violation_windows: 5 # 5 out of the past 24 windows have metrics lower than threshold
- task_key: is_metric_violated
depends_on:
- task_key: monitored_metric_violation_check
condition_task:
op: EQUAL_TO
left: '{{tasks.monitored_metric_violation_check.values.is_metric_violated}}'
right: 'true'
- task_key: trigger_retraining
depends_on:
- task_key: is_metric_violated
outcome: 'true'
run_job_task:
job_id: ${resources.jobs.model_training_job.id}
schedule:
quartz_cron_expression: '0 0 15 * * ?' # daily at 8 am PDT
timezone_id: UTC
# To get notifications, provide a list of emails to the on_failure argument.
#
# email_notifications:
# on_failure:
# - someone@example.com
modello_registrato (Catalogo Unity)
Type: Map
La risorsa modello registrata consente di definire modelli in Unity Catalog. Per informazioni su Unity Catalog modelli registrati, vedere Gestire il ciclo di vita del modello in Unity Catalog.
Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
registered_models:
<registered_model-name>:
<registered_model-field-name>: <registered_model-field-value>
| Key | Type | Description |
|---|---|---|
aliases |
Sequence | Elenco di alias associati al modello registrato. Vedere registered_model.aliases. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.273.0 |
browse_only |
Boolean | Indica se il soggetto è limitato al recupero dei metadati per l'oggetto associato tramite il privilegio BROWSE, quando include_browse è abilitato nella richiesta. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.273.0 |
catalog_name |
String | Nome del catalogo in cui risiedono lo schema e il modello registrato. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
comment |
String | Commento associato al modello registrato. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
created_at |
Integer | Timestamp di creazione del modello registrato in millisecondi dall'epoca Unix. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.273.0 |
created_by |
String | Identificatore dell'utente che ha creato il modello registrato. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.273.0 |
full_name |
String | Nome completo a tre livelli del modello registrato. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.273.0 |
grants |
Sequence | Concessioni associate al modello registrato. Vedere Grant. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
lifecycle |
Map | Contiene le impostazioni del ciclo di vita per una risorsa. Controlla il comportamento della risorsa quando viene distribuita o distrutta. Vedere ciclo di vita. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.268.0 |
metastore_id |
String | Identificatore univoco del metastore. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.273.0 |
name |
String | Nome del modello registrato. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
owner |
String | Identificatore dell'utente proprietario del modello registrato. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.273.0 |
schema_name |
String | Nome dello schema in cui risiede il modello registrato. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
storage_location |
String | Ubicazione di archiviazione nel cloud in cui vengono conservati i file di dati del modello versione. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
updated_at |
String | Timestamp dell'ultimo aggiornamento del modello registrato in millisecondi dall'epoca Unix. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.273.0 |
updated_by |
String | Identificatore dell'utente che ha aggiornato il modello registrato l'ultima volta. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.273.0 |
registered_model.aliases (alias del modello registrato)
Type: Sequence
Elenco di alias associati al modello registrato.
Ogni elemento nell'elenco è :Alias
| Key | Type | Description |
|---|---|---|
alias_name |
String | Nome dell'alias, ad esempio 'champion' o 'latest_stable' |
catalog_name |
String | Nome del catalogo contenente la versione del modello |
id |
String | Identificatore univoco dell'alias |
model_name |
String | Nome del modello padre registrato della versione del modello, relativo allo schema padre |
schema_name |
String | Nome dello schema contenente la versione del modello, relativo al catalogo padre |
version_num |
Integer | Numero di versione intero della versione del modello a cui punta questo alias. |
Example
L'esempio seguente definisce un modello registrato nel catalogo unity:
resources:
registered_models:
model:
name: my_model
catalog_name: ${bundle.target}
schema_name: mlops_schema
comment: Registered model in Unity Catalog for ${bundle.target} deployment target
grants:
- privileges:
- EXECUTE
principal: account users
schema (Unity Catalog)
Type: Map
Gli schemi sono supportati in Python per i bundle di asset di Databricks. Vedere databricks.bundles.schemas.
Il tipo di risorsa schema consente di definire schemi del catalogo Unity per tabelle e altri asset nei flussi di lavoro e nelle pipeline creati come parte di un bundle. Uno schema, diverso da altri tipi di risorse, presenta le limitazioni seguenti:
- Il proprietario di una risorsa dello schema è sempre l'utente della distribuzione e non può essere modificato. Se
run_asviene specificato nel bundle, verrà ignorato dalle operazioni sullo schema. - Per la risorsa dello schema sono disponibili solo i campi supportati dall'API di creazione dell'oggetto Schema corrispondente . Ad esempio,
enable_predictive_optimizationnon è supportato perché è disponibile solo nell'API di aggiornamento .
Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
schemas:
<schema-name>:
<schema-field-name>: <schema-field-value>
| Key | Type | Description |
|---|---|---|
catalog_name |
String | Nome del catalogo principale. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
comment |
String | Descrizione di testo in formato libero fornita dall'utente. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
grants |
Sequence | Sovvenzioni associate allo schema. Vedere Grant. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
lifecycle |
Map | Contiene le impostazioni del ciclo di vita per una risorsa. Controlla il comportamento della risorsa quando viene distribuita o distrutta. Vedere ciclo di vita. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.268.0 |
name |
String | Il nome dello schema, in relazione al catalogo principale. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
properties |
Map | Mappa delle proprietà chiave-valore associate allo schema. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
storage_root |
String | URL radice di archiviazione per le tabelle gestite all'interno dello schema. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 |
Examples
L'esempio seguente definisce una pipeline con la chiave di risorsa my_pipeline che crea uno schema del catalogo Unity con la chiave my_schema come destinazione:
resources:
pipelines:
my_pipeline:
name: test-pipeline-{{.unique_id}}
libraries:
- notebook:
path: ../src/nb.ipynb
- file:
path: ../src/range.sql
development: true
catalog: ${resources.schemas.my_schema.catalog_name}
target: ${resources.schemas.my_schema.id}
schemas:
my_schema:
name: test-schema-{{.unique_id}}
catalog_name: main
comment: This schema was created by Databricks Asset Bundles.
Un mapping delle autorizzazioni di primo livello non è supportato dai pacchetti di asset di Databricks, quindi se si desidera impostare le autorizzazioni per uno schema, definire le autorizzazioni per lo schema nel mapping schemas. Per altre informazioni sulle concessioni, vedere Mostrare, concedere e revocare i privilegi.
L'esempio seguente definisce uno schema del catalogo Unity con concessioni:
resources:
schemas:
my_schema:
name: test-schema
grants:
- principal: users
privileges:
- SELECT
- principal: my_team
privileges:
- CAN_MANAGE
catalog_name: main
ambito_segreto
Type: Map
La risorsa secret_scope consente di definire ambiti segreti all'interno di un pacchetto. Per informazioni sugli ambiti dei segreti, vedere Gestione dei segreti.
Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.252.0
secret_scopes:
<secret_scope-name>:
<secret_scope-field-name>: <secret_scope-field-value>
| Key | Type | Description |
|---|---|---|
backend_type |
String | Il tipo di back-end con cui verrà creato lo scope. Se non specificato, per impostazione predefinita viene impostato su DATABRICKS.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.252.0 |
keyvault_metadata |
Map | I metadati per l'ambito riservato sono backend_typeAZURE_KEYVAULT. Vedere keyvault_metadata.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.252.0 |
lifecycle |
Map | Contiene le impostazioni del ciclo di vita per una risorsa. Controlla il comportamento della risorsa quando viene distribuita o distrutta. Vedere ciclo di vita. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.268.0 |
name |
String | Nome dell'ambito richiesto dall'utente. I nomi di ambito sono univoci. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.252.0 |
permissions |
Sequence | Autorizzazioni da applicare allo spazio segreto. Le autorizzazioni vengono gestite tramite elenchi di controllo di accesso con ambito segreto. Vedere autorizzazioni. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.252.0 |
secret_scope.keyvault_metadata
Type: Map
Metadati per gli ambiti segreti supportati da Azure Key Vault.
| Key | Type | Description |
|---|---|---|
resource_id |
String | L'ID della risorsa Azure del Key Vault. |
dns_name |
String | Nome DNS del Key Vault di Azure. |
Examples
L'esempio seguente definisce un ambito di segreti che usa un back end di un Key Vault:
resources:
secret_scopes:
secret_scope_azure:
name: test-secrets-azure-backend
backend_type: 'AZURE_KEYVAULT'
keyvault_metadata:
resource_id: my_azure_keyvault_id
dns_name: my_azure_keyvault_dns_name
Nell'esempio seguente viene impostato un elenco di controllo di accesso personalizzato usando gli ambiti e le autorizzazioni dei segreti:
resources:
secret_scopes:
my_secret_scope:
name: my_secret_scope
permissions:
- user_name: admins
level: WRITE
- user_name: users
level: READ
Per un bundle di esempio che illustra come definire un ambito segreto e un processo con un'attività che la legge in un bundle, vedere il repository GitHub di esempi di bundle.
sql_warehouse
Type: Map
La risorsa SQL Warehouse consente di definire un SQL warehouse in un bundle. Per informazioni sui data warehouse, vedere Data warehousing in Azure Databricks.
Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.260.0
sql_warehouses:
<sql-warehouse-name>:
<sql-warehouse-field-name>: <sql-warehouse-field-value>
| Key | Type | Description |
|---|---|---|
auto_stop_mins |
Integer | Il periodo di tempo in minuti in cui un magazzino SQL deve essere inattivo (ad esempio, nessuna query in esecuzione), prima che venga arrestato automaticamente. I valori validi sono 0, che indica che non viene eseguito alcun autostop, o maggiore o uguale a 10. Il valore predefinito è 120. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.260.0 |
channel |
Map | Dettagli del canale. Vedere canale. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.260.0 |
cluster_size |
String | Dimensioni dei cluster allocati per questo magazzino. L'aumento delle dimensioni di un cluster Spark consente di eseguire query di dimensioni maggiori. Se si vuole aumentare il numero di query simultanee, ottimizzare max_num_clusters. Per i valori supportati, vedere cluster_size. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.260.0 |
creator_name |
String | Nome dell'utente che ha creato il magazzino. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.260.0 |
enable_photon |
Boolean | Indica se il magazzino deve usare cluster ottimizzati per Photon. Il valore predefinito è falso. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.260.0 |
enable_serverless_compute |
Boolean | Se il magazzino deve utilizzare l'elaborazione serverless. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.260.0 |
instance_profile_arn |
String | Deprecated. Profilo di istanza usato per passare il ruolo IAM al cluster. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.260.0 |
lifecycle |
Map | Contiene le impostazioni del ciclo di vita per una risorsa. Controlla il comportamento della risorsa quando viene distribuita o distrutta. Vedere ciclo di vita. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.268.0 |
max_num_clusters |
Integer | Il numero massimo di cluster che l'autoscaler creerà per gestire le query concorrenti. I valori devono essere minori o uguali a 30 e maggiori o uguali a min_num_clusters. L'impostazione predefinita è min_clusters se non impostato.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.260.0 |
min_num_clusters |
Integer | Il numero minimo di cluster disponibili che verranno mantenuti per questo SQL Warehouse. L'aumento garantirà che un numero maggiore di cluster sia sempre in esecuzione e quindi possa ridurre il tempo di avvio a freddo per le nuove query. Questo comportamento è simile ai core riservati e revocabili in un gestore risorse. I valori devono essere maggiori di 0 e minori o uguali a min(max_num_clusters, 30). Il valore predefinito è 1. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.260.0 |
name |
String | Nome logico per il cluster. Il nome deve essere univoco all'interno di un'organizzazione e meno di 100 caratteri. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.260.0 |
permissions |
Sequence | Autorizzazioni da applicare al magazzino. Vedere autorizzazioni. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.260.0 |
spot_instance_policy |
String | Indica se usare istanze spot. I valori validi sono POLICY_UNSPECIFIED, COST_OPTIMIZED, RELIABILITY_OPTIMIZED. Il valore predefinito è COST_OPTIMIZED.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.260.0 |
tags |
Map | Set di coppie chiave-valore che verranno contrassegnate su tutte le risorse (ad esempio, istanze AWS e volumi EBS) associate a questo SQL warehouse. Il numero di tag deve essere minore di 45. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.260.0 |
warehouse_type |
String | Tipo di magazzino, PRO o CLASSIC. Se si vuole usare il calcolo serverless, impostare questo campo su PRO e impostare anche il campo enable_serverless_compute su true.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.260.0 |
sql_warehouse.channel
Type: Map
Configurazione del canale per SQL Warehouse.
| Key | Type | Description |
|---|---|---|
name |
String | Nome del canale. I valori validi includono CHANNEL_NAME_CURRENT, CHANNEL_NAME_PREVIEW, CHANNEL_NAME_CUSTOM. |
dbsql_version |
String | Versione di DBSQL per i canali personalizzati. |
Example
L'esempio seguente definisce un'istanza di SQL Warehouse:
resources:
sql_warehouses:
my_sql_warehouse:
name: my_sql_warehouse
cluster_size: X-Large
enable_serverless_compute: true
max_num_clusters: 3
min_num_clusters: 1
auto_stop_mins: 60
warehouse_type: PRO
tabella_database_sincronizzata
Type: Map
La risorsa tabella di database sincronizzata consente di definire tabelle di database Lakebase in un bundle.
Per informazioni sulle tabelle di database sincronizzate, vedere Che cos'è un'istanza del database?
Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.266.0
synced_database_tables:
<synced_database_table-name>:
<synced_database_table-field-name>: <synced_database_table-field-value>
| Key | Type | Description |
|---|---|---|
database_instance_name |
String | Nome dell'istanza del database di destinazione. Questa operazione è necessaria quando si creano tabelle di database sincronizzate in cataloghi standard. Questa opzione è facoltativa quando si creano tabelle di database sincronizzate nei cataloghi registrati. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.266.0 |
lifecycle |
Map | Contiene le impostazioni del ciclo di vita per una risorsa. Controlla il comportamento della risorsa quando viene distribuita o distrutta. Vedere ciclo di vita. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.268.0 |
logical_database_name |
String | Nome dell'oggetto di database Postgres di destinazione (database logico) per questa tabella. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.266.0 |
name |
String | Nome completo della tabella, nel formato catalog.schema.table.Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.266.0 |
spec |
Map | Specifica della tabella di database. Vedere la specifica della tabella di database sincronizzata. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.266.0 |
tabella_database_sincronizzata.spec
Type: Map
Specifica della tabella di database.
Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.266.0
| Key | Type | Description |
|---|---|---|
create_database_objects_if_missing |
Boolean | Indica se creare il database logico e le risorse dello schema della tabella sincronizzata, se non esistono già. |
existing_pipeline_id |
String | L'ID per una pipeline esistente. Se questa opzione è impostata, la tabella sincronizzata verrà inserita nella pipeline esistente a cui si fa riferimento. In questo modo si evita di creare una nuova pipeline e di condividere le risorse di calcolo esistenti. In questo caso, l'oggetto scheduling_policy di questa tabella sincronizzata deve corrispondere ai criteri di pianificazione della pipeline esistente. Al massimo uno di existing_pipeline_id e new_pipeline_spec deve essere definito. |
new_pipeline_spec |
Map | La specifica per una nuova conduttura. Vedere new_pipeline_spec. Al massimo uno di existing_pipeline_id e new_pipeline_spec deve essere definito. |
primary_key_columns |
Sequence | Elenco dei nomi di colonna che costituiscono la chiave primaria. |
scheduling_policy |
String | Criteri di pianificazione per la sincronizzazione. I valori validi includono SNAPSHOT, CONTINUOUS. |
source_table_full_name |
String | Nome completo della tabella di origine nel formato catalog.schema.table. |
timeseries_key |
String | Chiave della serie temporale per deduplicare le righe con la stessa chiave primaria. |
tabella_di_database_sincronizzata.spec.nuova_pipeline_specifica
Type: Map
La specifica per una nuova pipeline utilizzata dalla tabella del database sincronizzato.
| Key | Type | Description |
|---|---|---|
budget_policy_id |
String | L'ID della politica di budget da impostare nella pipeline appena creata. |
storage_catalog |
String | Catalogo per la pipeline in cui archiviare file intermedi, ad esempio checkpoint e registri eventi. Deve trattarsi di un catalogo standard in cui l'utente dispone delle autorizzazioni per creare tabelle Delta. |
storage_schema |
String | Lo schema della pipeline per archiviare file intermedi, come checkpoint e registri di eventi. Deve trovarsi nel catalogo standard in cui l'utente dispone delle autorizzazioni per creare tabelle Delta. |
Examples
Nell'esempio seguente viene definita una tabella di database sincronizzata all'interno di un catalogo di database corrispondente:
resources:
database_instances:
my_instance:
name: my-instance
capacity: CU_1
database_catalogs:
my_catalog:
database_instance_name: my-instance
database_name: 'my_database'
name: my_catalog
create_database_if_not_exists: true
synced_database_tables:
my_synced_table:
name: ${resources.database_catalogs.my_catalog.name}.${resources.database_catalogs.my_catalog.database_name}.my_destination_table
database_instance_name: ${resources.database_catalogs.my_catalog.database_instance_name}
logical_database_name: ${resources.database_catalogs.my_catalog.database_name}
spec:
source_table_full_name: 'my_source_table'
scheduling_policy: SNAPSHOT
primary_key_columns:
- my_pk_column
new_pipeline_spec:
storage_catalog: 'my_delta_catalog'
storage_schema: 'my_delta_schema'
Nell'esempio seguente viene definita una tabella di database sincronizzata all'interno di un catalogo standard:
resources:
synced_database_tables:
my_synced_table:
name: 'my_standard_catalog.public.synced_table'
# database_instance_name is required for synced tables created in standard catalogs.
database_instance_name: 'my-database-instance'
# logical_database_name is required for synced tables created in standard catalogs:
logical_database_name: ${resources.database_catalogs.my_catalog.database_name}
spec:
source_table_full_name: 'source_catalog.schema.table'
scheduling_policy: SNAPSHOT
primary_key_columns:
- my_pk_column
create_database_objects_if_missing: true
new_pipeline_spec:
storage_catalog: 'my_delta_catalog'
storage_schema: 'my_delta_schema'
In questo esempio viene creata una tabella di database sincronizzata e viene personalizzata la pianificazione della pipeline. Si presuppone che tu abbia già:
- Istanza di database denominata
my-database-instance - Il catalogo standard denominato
my_standard_catalog - Schema nel catalogo standard denominato
default - Tabella delta di origine denominata
source_delta.schema.customercon la chiave primariac_custkey
resources:
synced_database_tables:
my_synced_table:
name: 'my_standard_catalog.default.my_synced_table'
database_instance_name: 'my-database-instance'
logical_database_name: 'test_db'
spec:
source_table_full_name: 'source_delta.schema.customer'
scheduling_policy: SNAPSHOT
primary_key_columns:
- c_custkey
create_database_objects_if_missing: true
new_pipeline_spec:
storage_catalog: 'source_delta'
storage_schema: 'schema'
jobs:
sync_pipeline_schedule_job:
name: sync_pipeline_schedule_job
description: 'Job to schedule synced database table pipeline.'
tasks:
- task_key: synced-table-pipeline
pipeline_task:
pipeline_id: ${resources.synced_database_tables.my_synced_table.data_synchronization_status.pipeline_id}
schedule:
quartz_cron_expression: '0 0 0 * * ?'
volume (Unity Catalog)
Type: Map
I volumi sono supportati in Python per gli Asset Bundles di Databricks. Vedere databricks.bundles.volumes.
Il tipo di risorsa volume consente di definire e creare volumi di Unity Catalog come parte di un pacchetto. Quando si distribuisce un bundle con un volume definito, tenere presente che:
- Non è possibile fare riferimento a un volume nel
artifact_pathper il bundle fino a che non è presente nello spazio di lavoro. Di conseguenza, se si vuole utilizzare i Databricks Asset Bundle per creare il volume, è necessario definire prima il volume nel bundle, distribuirlo per creare il volume, e quindi farvi riferimento inartifact_pathnelle distribuzioni successive. - I volumi nel bundle non vengono anteposti al prefisso
dev_${workspace.current_user.short_name}quando la destinazione di distribuzione hamode: developmentconfigurata. Tuttavia, è possibile configurare manualmente questo prefisso. Vedere impostazioni predefinite personalizzate.
Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.236.0
volumes:
<volume-name>:
<volume-field-name>: <volume-field-value>
| Key | Type | Description |
|---|---|---|
catalog_name |
String | Nome del catalogo dello schema e del volume. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.236.0 |
comment |
String | Commento associato al volume. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.236.0 |
grants |
Sequence | Sovvenzioni associate al volume. Vedere Grant. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.236.0 |
lifecycle |
Map | Contiene le impostazioni del ciclo di vita per una risorsa. Controlla il comportamento della risorsa quando viene distribuita o distrutta. Vedere ciclo di vita. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.268.0 |
name |
String | Nome del volume. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.236.0 |
schema_name |
String | Nome dello schema in cui si trova il volume. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.236.0 |
storage_location |
String | Posizione di archiviazione nel cloud. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.236.0 |
volume_type |
String | Tipo di volume, EXTERNAL o MANAGED. Un volume esterno si trova nella posizione esterna specificata. Un volume gestito si trova nel percorso predefinito specificato dallo schema padre, dal catalogo padre o dal metastore. Vedere Volumi gestiti e esterni. |
Example
L'esempio seguente crea un volume del catalogo Unity con la chiave my_volume_id:
resources:
volumes:
my_volume_id:
catalog_name: main
name: my_volume
schema_name: my_schema
Per un esempio di bundle che esegue un'operazione che scrive su un file nel volume di Unity Catalog, consultare il repository GitHub bundle-examples .
Oggetti comuni
sovvenzione
Type: Map
Definisce il principal e i privilegi da concedere a tale principal. Per altre informazioni sulle concessioni, vedere Mostrare, concedere e revocare i privilegi.
Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
| Key | Type | Description |
|---|---|---|
principal |
String | Nome dell'entità a cui verranno concessi privilegi. Può trattarsi di un utente, un gruppo o un'entità servizio. |
privileges |
Sequence | Privilegi da concedere all'entità specificata. I valori validi dipendono dal tipo di risorsa , ad esempio , SELECT, MODIFYCREATE, USAGEREAD_FILESWRITE_FILESEXECUTE. ALL_PRIVILEGES |
Example
L'esempio seguente definisce uno schema del catalogo Unity con concessioni:
resources:
schemas:
my_schema:
name: test-schema
grants:
- principal: users
privileges:
- SELECT
- principal: my_team
privileges:
- CAN_MANAGE
catalog_name: main
ciclo di vita
Type: Map
Contiene le impostazioni del ciclo di vita per una risorsa. Controlla il comportamento della risorsa quando viene distribuita o distrutta.
Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.268.0
| Key | Type | Description |
|---|---|---|
prevent_destroy |
Boolean | Impostazione del ciclo di vita per impedire che la risorsa venga eliminata definitivamente. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.268.0 |