Risorse dei pacchetti di risorse Databricks

I bundle di risorse di Databricks consentono di specificare informazioni sulle risorse di Azure Databricks utilizzate dal bundle nella mappatura resources nella configurazione del bundle. Vedere le informazioni di riferimento sulle risorse.

Questa pagina fornisce informazioni di riferimento sulla configurazione per tutti i tipi di risorse supportati per i bundle e fornisce dettagli e un esempio per ogni tipo supportato. Per esempi aggiuntivi, vedere gli esempi di configurazione del bundle .

Lo schema JSON per i bundle usati per convalidare la configurazione YAML si trova nel repository GitHub dell'interfaccia della riga di comando di Databricks.

Tip

Per generare YAML per qualsiasi risorsa esistente, usare il comando databricks bundle generate. Vedere databricks bundle generate.

Risorse disponibili

La tabella seguente elenca i tipi di risorse supportati per i bundle (YAML e Python, se applicabile). Alcune risorse possono essere create definendole in un bundle e distribuendo il bundle e alcune risorse possono essere create solo facendo riferimento a un asset esistente da includere nel bundle.

La configurazione delle risorse definisce un oggetto Databricks che corrisponde a un oggetto API REST di Databricks . I campi di richiesta di creazione supportati dell'oggetto API REST, espressi come YAML, sono le chiavi supportate della risorsa. I collegamenti alla documentazione per l'oggetto corrispondente di ogni risorsa sono riportati nella tabella seguente.

Tip

Il comando databricks bundle validate restituisce avvisi se le proprietà sconosciute della risorsa vengono trovate nei file di configurazione del bundle.

Resource	Supporto di Python	Oggetto API REST corrispondente
vigile		Oggetto di notifica
app		oggetto App
catalog (Catalogo Unity)		Oggetto Catalog
cluster		oggetto di cluster
dashboard		Oggetto della dashboard
database_catalog		Oggetto catalogo di database
database_instance		Oggetto istanza di database
experiment		oggetto dell'esperimento
job	Lavori	oggetto di Job
modello storico		oggetto Model (legacy)
model_serving_endpoint		Modello che gestisce l'oggetto endpoint
pipeline	Pipelines	Oggetto pipeline
postgres_branch		Oggetto ramo Postgres
postgres_endpoint		Oggetto endpoint di calcolo Postgres
postgres_project		Oggetto progetto Postgres
quality_monitor		Oggetto monitoraggio qualità
modello_registrato (Unity Catalog)		oggetto modello registrato
schema (Catalogo Unity)	Schemi	Oggetto Schema
secret_scope		Oggetto ambito segreto
sql_warehouse		Oggetto SQL Magazzino
tabella_database_sincronizzata		Oggetto tabella di database sincronizzato
volume (Catalogo Unity)	volumi	Oggetto Volume

vigile

Type: Map

La risorsa di avviso definisce un avviso SQL (v2).The alert resource define a SQL alert (v2).

Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.279.0

alerts:
  <alert-name>:
    <alert-field-name>: <alert-field-value>

Key	Type	Description
`custom_description`	String	Optional. Descrizione personalizzata per l'avviso. Supporta il modello mustache. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.279.0
`custom_summary`	String	Optional. Riepilogo personalizzato per l'avviso. Supporta il modello mustache. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.279.0
`display_name`	String	Obbligatorio. Nome visualizzato dell'avviso, ad esempio `Example alert`. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.279.0
`evaluation`	Map	Obbligatorio. Configurazione di valutazione per l'avviso. Vedere alert.evaluation. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.279.0
`lifecycle`	Map	Contiene le impostazioni del ciclo di vita per una risorsa. Controlla il comportamento della risorsa quando viene distribuita o distrutta. Vedere ciclo di vita. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.279.0
`parent_path`	String	Optional. Percorso dell'area di lavoro della cartella contenente l'avviso. Può essere impostato solo in caso di creazione e non può essere aggiornato. Esempio: `/Users/someone@example.com`. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.279.0
`permissions`	Sequence	Le autorizzazioni di allarme. Vedere autorizzazioni. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.279.0
`query_text`	String	Obbligatorio. Testo della query da eseguire, ad esempio `SELECT 1`. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.279.0
`run_as`	Map	Optional. Specifica l'identità che verrà usata per eseguire l'avviso. Questo campo consente di configurare gli avvisi per essere eseguiti come utente specifico o principale del servizio. Vedere run_as. Per l'identità utente: impostare `user_name` sul messaggio di posta elettronica di un utente dell'area di lavoro attiva. Gli utenti possono impostare questa opzione solo sul proprio messaggio di posta elettronica. Per l'entità servizio: impostare `service_principal_name` all'ID applicazione. Richiede il ruolo di Service Principal/utente. Se non specificato, l'avviso verrà eseguito come utente della richiesta. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.279.0
`schedule`	Map	Obbligatorio. Configurazione della pianificazione per la notifica. Vedere alert.schedule. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.279.0
`warehouse_id`	String	Obbligatorio. ID del magazzino SQL collegato all'avviso, ad esempio, `a7066a8ef796be84`. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.279.0

alert.valutazione

Type: Map

Configurazione di valutazione per l'avviso.

Key	Type	Description
`comparison_operator`	String	Operatore utilizzato per il confronto nella valutazione dell'avviso.
`empty_result_state`	String	Stato dell'avviso se il risultato è vuoto. Evitare di impostare questo campo su `UNKNOWN` perché lo stato `UNKNOWN` è pianificato per essere deprecato.
`notification`	Map	L'utente o un'altra destinazione da notificare quando viene attivato l'avviso. Vedere alert.evaluation.notification.
`source`	Map	Colonna di origine del risultato da usare per valutare l'avviso. Vedere alert.evaluation.source.
`threshold`	Map	Soglia da usare per la valutazione degli avvisi. Può trattarsi di una colonna o di un valore. Vedere alert.evaluation.threshold.

avviso.valutazione.notifica

Type: Map

L'utente o un'altra destinazione da notificare quando viene attivato l'avviso.

Key	Type	Description
`notify_on_ok`	Boolean	Optional. Indica se inviare una notifica ai sottoscrittori di avvisi quando l'avviso torna normale.
`retrigger_seconds`	Integer	Optional. Numero di secondi di attesa di un avviso dopo l'attivazione prima che sia consentita l'invio di un'altra notifica. Se impostato su `0` o omesso, l'avviso non invierà altre notifiche dopo il primo trigger. L'impostazione di questo valore su `1` consente all'avviso di inviare una notifica a ogni valutazione in cui viene soddisfatta la condizione, rendendo effettivamente l'avviso sempre attivo a fini di notifica.
`subscriptions`	Sequence	Optional. Elenco non ordinato di sottoscrizioni di notifica. Vedere alert.evaluation.notification.subscriptions.

allerta.valutazione.notifica.sottoscrizioni

Type: Sequence

Elenco non ordinato di sottoscrizioni di notifica.

Ogni elemento nell'elenco è :AlertSubscription

Key	Type	Description
`destination_id`	String	ID della destinazione della notifica.
`user_email`	String	Indirizzo di posta elettronica dell'utente a cui inviare una notifica.

allerta.valutazione.sorgente

Type: Map

Colonna di origine dal risultato da utilizzare per valutare l'allerta.

Key	Type	Description
`aggregation`	String	Metodo di aggregazione da applicare alla colonna di origine. I valori validi sono `SUM`, `COUNT`, `COUNT_DISTINCT`, `AVGMEDIAN`, `MIN`, , `MAXSTDDEV`
`display`	String	Nome visualizzato per la colonna di origine.
`name`	String	Nome della colonna di origine dal risultato della query.

soglia.valutazione.allerta

Type: Map

La soglia da usare per la valutazione degli avvisi può essere una colonna o un valore.

Key	Type	Description
`column`	Map	Riferimento di colonna da usare come soglia. Vedere alert.evaluation.source.
`value`	Map	Valore letterale da usare come soglia. Vedere alert.evaluation.threshold.value.

avviso.valutazione.soglia.valore

Type: Map

Valore letterale da usare come soglia. Specificare uno dei tipi di valore seguenti.

Key	Type	Description
`bool_value`	Boolean	Optional. Valore booleano per la soglia, `true`ad esempio .
`double_value`	Double	Optional. Valore numerico per la soglia, `1.25`ad esempio .
`string_value`	String	Optional. Valore stringa per la soglia, ad esempio `test`.

avviso.programmazione

Type: Map

Configurazione della pianificazione per la notifica.

Key	Type	Description
`pause_status`	String	Optional. Indica se il programma è in pausa o meno. Valori validi: `UNPAUSED`, `PAUSED`. Impostazione predefinita: `UNPAUSED`.
`quartz_cron_schedule`	String	Obbligatorio. Espressione cron che utilizza la sintassi Quartz per specificare la pianificazione di questa pipeline. Il formato quartz è descritto in formato scheduler quartz.
`timezone_id`	String	Obbligatorio. ID fuso orario Java. La pianificazione verrà risolta usando questo fuso orario. Questa operazione verrà combinata con il `quartz_cron_schedule` per determinare la pianificazione. Per informazioni dettagliate, vedere SET TIME ZONE.

Examples

La configurazione di esempio seguente definisce un avviso con una valutazione semplice:

resources:
  alerts:
    my_alert:
      display_name: my_alert
      evaluation:
        comparison_operator: EQUAL
        source:
          name: '1'
        threshold:
          value:
            double_value: 2
      query_text: select 2
      schedule:
        quartz_cron_schedule: '44 19 */1 * * ?'
        timezone_id: Europe/Amsterdam
      warehouse_id: 799f096837fzzzz4

La configurazione di esempio seguente definisce un avviso con autorizzazioni che valuta l'uso dell'aggregazione e invia notifiche:

resources:
  alerts:
    my_alert:
      permissions:
        - level: CAN_MANAGE
          user_name: someone@example.com
      custom_summary: 'My alert'
      display_name: 'My alert'
      evaluation:
        comparison_operator: 'EQUAL'
        notification:
          notify_on_ok: false
          retrigger_seconds: 1
        source:
          aggregation: 'MAX'
          display: '1'
          name: '1'
        threshold:
          value:
            double_value: 2
      query_text: 'select 2'
      schedule:
        pause_status: 'UNPAUSED'
        quartz_cron_schedule: '44 19 */1 * * ?'
        timezone_id: 'Europe/Amsterdam'
      warehouse_id: 799f096837fzzzz4

applicazione

Type: Map

La risorsa dell'app definisce un'app Databricks . Per informazioni sulle app di Databricks, vedere App di Databricks.

Per aggiungere un'app, specificare le impostazioni per definire l'app, incluso il obbligatorio source_code_path.

Tip

È possibile inizializzare un bundle con un'app Streamlit Databricks usando il comando seguente:

databricks bundle init https://github.com/databricks/bundle-examples --template-dir contrib/templates/streamlit-app

Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.239.0

apps:
  <app-name>:
    <app-field-name>: <app-field-value>

Key	Type	Description
`budget_policy_id`	String	ID dei criteri di budget per l'app. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.243.0
`compute_size`	String	Dimensione di calcolo per l'app. I valori validi sono `MEDIUM` o `LARGE` dipendono dalla configurazione dell'area di lavoro. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.273.0
`config`	Map	Comandi di configurazione delle app e variabili di ambiente. Se specificato, questa configurazione viene scritta in un file app.yaml nel percorso del codice sorgente durante la distribuzione. In questo modo è possibile definire la configurazione dell'app direttamente nel bundle YAML anziché mantenere un file app.yaml separato. Vedere app.config. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.283.0
`description`	String	Descrizione dell'app. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.239.0
`lifecycle`	Map	Il comportamento della risorsa quando viene distribuita o distrutta. Vedere ciclo di vita. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.268.0
`name`	String	Nome dell'app. Il nome deve contenere solo caratteri alfanumerici minuscoli e trattini. Deve essere univoco all'interno dell'area di lavoro. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.239.0
`permissions`	Sequence	Autorizzazioni dell'app. Vedere autorizzazioni. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.239.0
`resources`	Sequence	Risorse di calcolo dell'app. Vedere app.resources. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.239.0
`source_code_path`	String	Percorso `./app` locale del codice sorgente dell'app Databricks. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.239.0
`user_api_scopes`	Sequence	Ambiti dell'API utente. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.246.0

app.config

Comandi di configurazione delle app e variabili di ambiente. Vedere Configurare l'esecuzione dell'app Databricks con app.yaml.

Key	Type	Description
`command`	String	Comandi per eseguire l'app, ad esempio `["streamlit", "run", "app.py"]`
`env`	Sequence	Elenco di coppie e `value` che specificano le variabili di `name` ambiente dell'app.

app.risorse

Type: Sequence

Elenco delle risorse di calcolo per l'app.

Ogni elemento nell'elenco è :AppResource

Key	Type	Description
`description`	String	Descrizione della risorsa dell'app.
`database`	Map	Impostazioni che identificano il database Lakebase da usare. Vedere app.resources.database.
`experiment`	Map	Impostazioni che identificano l'esperimento MLflow da usare. Vedere app.resources.experiment.
`genie_space`	Map	Le impostazioni che identificano lo spazio Genie da utilizzare. Vedere app.resources.genie_space.
`job`	Map	Le impostazioni che identificano la risorsa di lavoro da utilizzare. Vedere app.resources.job.
`name`	String	Nome della risorsa dell'app.
`secret`	Map	Impostazioni che identificano la risorsa privata di Azure Databricks da usare. Vedere app.resources.secret.
`serving_endpoint`	Map	Impostazioni che identificano il modello che gestisce la risorsa endpoint da usare. Vedere app.resources.serving_endpoint.
`sql_warehouse`	Map	Impostazioni che identificano la risorsa di SQL Warehouse da usare. Vedere app.resources.sql_warehouse.
`uc_securable`	Map	Impostazioni che identificano il volume del catalogo Unity da usare. Vedere app.resources.uc_securable.

database delle risorse dell'app

Type: Map

Impostazioni che identificano il database Lakebase da usare.

Key	Type	Description
`database_name`	String	Nome del database.
`instance_name`	String	Nome dell'istanza del database.
`permission`	String	Livello di autorizzazione per il database. I valori validi sono `CAN_CONNECT_AND_CREATE`.

app.resources.experiment

Type: Map

Impostazioni che identificano l'esperimento MLflow da usare.

Key	Type	Description
`experiment_id`	String	ID dell'esperimento MLflow.
`permission`	String	Livello di autorizzazione per l'esperimento. I valori validi includono `CAN_READ`, `CAN_EDIT`, `CAN_MANAGE`.

app.resources.genie_space

Type: Map

Le impostazioni che identificano lo spazio Genie da utilizzare.

Key	Type	Description
`name`	String	Nome dello spazio Genie.
`permission`	String	Livello di autorizzazione per lo spazio. I valori validi includono `CAN_VIEW`, `CAN_EDIT`, `CAN_MANAGE`, `CAN_RUN`.
`space_id`	String	ID dello spazio Genie, ad esempio `550e8400-e29b-41d4-a716-999955440000`.

app.resources.job

Type: Map

Le impostazioni che identificano la risorsa di lavoro da utilizzare.

Key	Type	Description
`id`	String	L'ID della mansione.
`permission`	String	Livello di autorizzazione per il compito. I valori validi includono `CAN_VIEW`, `CAN_MANAGE_RUN`, `CAN_MANAGE`, `IS_OWNER`.

app.resources.secret

Type: Map

Impostazioni che identificano la risorsa privata di Azure Databricks da usare.

Key	Type	Description
`key`	String	Chiave del segreto per concedere l'autorizzazione.
`permission`	String	Livello di autorizzazione per il segreto. I valori validi includono `READ`, `WRITE`, `MANAGE`.
`scope`	String	Nome dell'ambito del segreto.

app.risorse.punto_di_servizio

Type: Map

Impostazioni che identificano il modello che gestisce la risorsa endpoint da usare.

Key	Type	Description
`name`	String	Nome dell'endpoint di servizio.
`permission`	String	Livello di autorizzazione per l'endpoint di gestione. I valori validi includono `CAN_QUERY`, `CAN_MANAGE`, `CAN_VIEW`.

app.resources.sql_warehouse

Type: Map

Le impostazioni che identificano il SQL warehouse da utilizzare.

Key	Type	Description
`id`	String	L'ID del magazzino SQL.
`permission`	String	Livello di autorizzazione per SQL Warehouse. I valori validi includono `CAN_USE`, `CAN_MANAGE`, `IS_OWNER`.

app.resources.uc_securable

Type: Map

Impostazioni che identificano il volume del catalogo Unity da usare.

Key	Type	Description
`permission`	String	Livello di autorizzazione per l'oggetto securabile di Unity Catalog. I valori validi sono `READ_VOLUME` e `WRITE_VOLUME`.
`securable_full_name`	String	Nome completo del componente proteggibile di Unity Catalog nel formato `catalog.schema.volume`.
`securable_type`	String	Tipo di elemento securizzabile del catalogo Unity. I valori validi sono `VOLUME`.

Examples

Per un'esercitazione che illustra come creare un bundle che definisce un'app, vedere Gestire le app di Databricks usando i bundle di asset di Databricks.

L'esempio seguente definisce un'app di base:

resources:
  apps:
    hello_world_app:
      name: 'hello-world-app'
      source_code_path: . # This assumes the app source code is at the root of the project.
      description: 'A Databricks app'

L'esempio seguente crea un'app denominata my_app che gestisce un processo creato dal bundle. Per l'esempio completo, vedere il repository GitHub bundle-examples.

resources:
  jobs:
    # Define a job in the bundle
    hello_world:
      name: hello_world
      tasks:
        - task_key: task
          spark_python_task:
            python_file: ../src/main.py
          environment_key: default

      environments:
        - environment_key: default
          spec:
            environment_version: '2'

  # Define an app that manages the job in the bundle
  apps:
    job_manager:
      name: 'job_manager_app'
      description: 'An app which manages a job created by this bundle'

      # The location of the source code for the app
      source_code_path: ../src/app

      # The resources in the bundle which this app has access to. This binds the resource in the app with the bundle resource.
      resources:
        - name: 'app-job'
          job:
            id: ${resources.jobs.hello_world.id}
            permission: 'CAN_MANAGE_RUN'

Il corrispondente app.yaml definisce la configurazione per l'esecuzione dell'app:

command:
  - flask
  - --app
  - app
  - run
  - --debug
env:
  - name: JOB_ID
    valueFrom: 'app-job'

L'esempio seguente crea un'app che ha accesso a un esperimento MLflow creato dal bundle:

resources:
  experiments:
    # Define an MLflow experiment in the bundle
    my_experiment:
      name: /Users/${workspace.current_user.userName}/my-app-experiment

  apps:
    my_ml_app:
      name: 'my-ml-app'
      description: 'An app with access to an MLflow experiment'
      source_code_path: ./app

      # Grant the app access to the MLflow experiment
      resources:
        - name: 'app-experiment'
          experiment:
            experiment_id: ${resources.experiments.my_experiment.id}
            permission: 'CAN_MANAGE'

In alternativa, l'esempio seguente definisce un'app con configurazione personalizzata definita nella configurazione del bundle:

resources:
  apps:
    my_app:
      name: my_app
      description: my_app_description
      source_code_path: ./app
      config:
        command: ['flask', '--app', 'app', 'run']
        env:
          - name: MY_ENV_VAR
            value: test_value
          - name: ANOTHER_VAR
            value: another_value

catalogs

Type: Map

La risorsa catalogo consente di definire cataloghi (catalogo Unity) in un bundle.

Note

L'uso dei bundle di asset di Databricks per definire i cataloghi è supportato solo se si usa il motore di distribuzione diretta.

Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0

catalogs:
  <catalog-name>:
    <catalog-field-name>: <catalog-field-value>

Key	Type	Description
`comment`	String	Descrizione del catalogo fornita dall'utente in formato libero. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0
`connection_name`	String	Nome della connessione a un'origine dati esterna. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0
`grants`	Sequence	Concessioni associate al catalogo. Vedere Grant. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0
`lifecycle`	Map	Contiene le impostazioni del ciclo di vita per una risorsa. Controlla il comportamento della risorsa quando viene distribuita o distrutta. Vedere ciclo di vita. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0
`name`	String	Obbligatorio. Nome del catalogo. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0
`options`	Oggetto	Mappa delle proprietà chiave-valore associate all'entità a protezione diretta. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0
`properties`	Oggetto	Mappa delle proprietà chiave-valore associate all'entità a protezione diretta. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0
`provider_name`	String	Nome del provider di condivisione differenziale. Un catalogo di condivisione differenziale è un catalogo basato su una condivisione Delta in un server di condivisione remota. Si veda Che cos'è Delta Sharing?. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0
`share_name`	String	Nome della condivisione nel provider di condivisione. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0
`storage_root`	String	URL radice di archiviazione per le tabelle gestite all'interno del catalogo. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0

Example

resources:
  catalogs:
    my_catalog:
      name: my_catalog
      comment: 'Catalog created by Databricks Asset Bundles'
      properties:
        purpose: 'Testing'
      grants:
        - principal: someone@example.com
          privileges:
            - USE_CATALOG
            - CREATE_SCHEMA

  schemas:
    my_schema:
      name: my_schema
      catalog_name: ${resources.catalogs.my_catalog.name}
      comment: 'Schema in custom catalog'

cluster

Type: Map

La risorsa cluster definisce un cluster.

Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0

clusters:
  <cluster-name>:
    <cluster-field-name>: <cluster-field-value>

Key	Type	Description
`apply_policy_default_values`	Boolean	Se impostato su true, i valori predefiniti e fissi dei criteri verranno usati per i campi omessi. Se impostato su false, verranno applicati solo i valori fissi dei criteri. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`autoscale`	Map	Parametri necessari per ridimensionare automaticamente i cluster in base al carico. Consulta autoscale. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`autotermination_minutes`	Integer	Termina automaticamente il cluster dopo il tempo di inattività specificato in minuti. Se non è impostato, il cluster non verrà terminato automaticamente. Se specificato, la soglia deve essere compresa tra 10 e 10000 minuti. Gli utenti possono anche impostare questo valore su 0 per disabilitare in modo esplicito la terminazione automatica. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`aws_attributes`	Map	Attributi correlati ai cluster in esecuzione in Amazon Web Services. Se non specificato durante la creazione del cluster, verrà usato un set di valori predefiniti. Vedere aws_attributes. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`azure_attributes`	Map	Attributi correlati ai cluster in esecuzione in Microsoft Azure. Se non specificato durante la creazione del cluster, verrà usato un set di valori predefiniti. Vedere azure_attributes. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`cluster_log_conf`	Map	Configurazione per il recapito dei log spark a una destinazione di archiviazione a lungo termine. Vedere cluster_log_conf. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`cluster_name`	String	Nome del cluster richiesto dall'utente. Questo non deve essere univoco. Se non specificato durante la creazione, il nome del cluster sarà una stringa vuota. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`custom_tags`	Map	Tag aggiuntivi per le risorse del cluster. Databricks contrassegnerà tutte le risorse del cluster (ad esempio, istanze di AWS e volumi EBS) con questi tag oltre a `default_tags`. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`data_security_mode`	String	Modello di governance dei dati da usare per l'accesso ai dati da un cluster. I valori validi includono `NONE`, `SINGLE_USER`, `USER_ISOLATIONLEGACY_SINGLE_USER`, `LEGACY_TABLE_ACL`, , . `LEGACY_PASSTHROUGH` Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`docker_image`	Map	Immagine Docker personalizzata. Vedere docker_image. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`driver_instance_pool_id`	String	L'ID facoltativo del pool di istanze a cui appartiene il driver del cluster. Il cluster del pool usa il pool di istanze con ID (istanzapool_id) se il pool di driver non è assegnato. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0*
`driver_node_type_id`	String	Tipo di nodo del driver Spark. Questo campo è facoltativo. Se non impostato, il tipo di nodo del driver viene impostato sul valore di `node_type_id`. Questo campo, insieme `node_type_id`a , non deve essere impostato se `virtual_cluster_size` è impostato. Se vengono specificati entrambi `driver_node_type_id`, `node_type_id`e `virtual_cluster_size` e hanno `driver_node_type_id` la precedenza. `node_type_id` Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`enable_elastic_disk`	Boolean	Scalabilità automatica dell'archiviazione locale: se abilitato, questo cluster acquisirà dinamicamente spazio su disco aggiuntivo quando i worker di Spark stanno esaurendo lo spazio su disco. Questa funzionalità richiede autorizzazioni AWS specifiche per funzionare correttamente. Per altre informazioni, vedere la Guida per l'utente. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`enable_local_disk_encryption`	Boolean	Indica se abilitare LUKS nei dischi locali delle macchine virtuali del cluster. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`gcp_attributes`	Map	Attributi correlati ai cluster in esecuzione in Google Cloud Platform. Se non specificato durante la creazione del cluster, verrà usato un set di valori predefiniti. Vedere gcp_attributes. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`init_scripts`	Sequence	Configurazione per l'archiviazione di script init. È possibile specificare un numero qualsiasi di destinazioni. Gli script vengono eseguiti in sequenza nell'ordine specificato. Vedere init_scripts. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`instance_pool_id`	String	ID facoltativo del pool di istanze a cui appartiene il cluster. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`is_single_node`	Boolean	Questo campo può essere usato solo quando `kind = CLASSIC_PREVIEW`. Se impostato su true, Databricks imposta automaticamente il nodo singolo correlato a `custom_tags`, `spark_conf`e `num_workers`. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.237.0
`kind`	String	Tipo di calcolo descritto da questa specifica di calcolo. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.237.0
`lifecycle`	Map	Contiene le impostazioni del ciclo di vita per una risorsa. Controlla il comportamento della risorsa quando viene distribuita o distrutta. Vedere ciclo di vita. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.268.0
`node_type_id`	String	Questo campo codifica, con un solo valore, le risorse disponibili in ognuno dei nodi Spark del cluster. Ad esempio, è possibile effettuare il provisioning e ottimizzare i nodi Spark per carichi di lavoro a elevato utilizzo di memoria o calcolo. È possibile recuperare un elenco dei tipi di nodo disponibili usando l'API Elenca tipi di nodo. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`num_workers`	Integer	Numero di nodi di lavoro che il cluster deve avere. Un cluster ha un driver Spark e `num_workers` esecutori per un totale di `num_workers` + 1 nodi Spark. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`permissions`	Sequence	Autorizzazioni del cluster. Vedere autorizzazioni. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`policy_id`	String	ID dei criteri del cluster usati per creare il cluster, se applicabile. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`remote_disk_throughput`	Integer	Velocità effettiva del disco remoto in byte al secondo. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.257.0
`runtime_engine`	String	Determina il motore di runtime del cluster, `STANDARD` o `PHOTON`. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`single_user_name`	String	Nome utente singolo se datasecurity_mode è `SINGLE_USER`. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0*
`spark_conf`	Map	Oggetto contenente un set di coppie chiave-valore di configurazione Spark specificate dall'utente facoltative. Gli utenti possono anche passare una stringa di opzioni JVM aggiuntive al driver e agli executor tramite `spark.driver.extraJavaOptions` e `spark.executor.extraJavaOptions` rispettivamente. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`spark_env_vars`	Map	Oggetto contenente un set di coppie chiave-valore della variabile di ambiente specificate dall'utente facoltative. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`spark_version`	String	Versione Spark del cluster, ad esempio `3.3.x-scala2.11`. È possibile recuperare un elenco delle versioni di Spark disponibili usando l'API Elenca le versioni di Spark disponibili. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`ssh_public_keys`	Sequence	Contenuto della chiave pubblica SSH che verrà aggiunto a ogni nodo Spark in questo cluster. Le chiavi private corrispondenti possono essere usate per accedere con il nome `ubuntu` utente sulla porta `2200`. È possibile specificare fino a 10 chiavi. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`total_initial_remote_disk_size`	Integer	Dimensioni totali del disco remoto iniziale in byte. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.257.0
`use_ml_runtime`	Boolean	Questo campo può essere usato solo quando `kind = CLASSIC_PREVIEW`. `effective_spark_version` è determinato da `spark_version` (versione di Databricks Runtime), questo campo `use_ml_runtime`e indica se `node_type_id` è un nodo GPU o meno. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.237.0
`workload_type`	Map	Attributi del cluster visualizzati per i tipi di carico di lavoro dei cluster. Vedere workload_type. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0

cluster.autoscale

Type: Map

Parametri per il ridimensionamento automatico dei cluster in base al carico.

Key	Type	Description
`min_workers`	Integer	Numero minimo di ruoli di lavoro a cui il cluster può ridurre le prestazioni quando è sottoutilizzato. È anche il numero iniziale di ruoli di lavoro che il cluster avrà dopo la creazione.
`max_workers`	Integer	Numero massimo di ruoli di lavoro a cui il cluster può aumentare le prestazioni durante l'overload. `max_workers` deve essere rigorosamente maggiore di `min_workers`.

cluster.aws_attributes

Type: Map

Attributi correlati ai cluster in esecuzione in Amazon Web Services.

Key	Type	Description
`zone_id`	String	Identificatore per la zona di disponibilità o il data center in cui risiede il cluster. Questa stringa sarà di un formato come `us-west-2a`.
`availability`	String	Tipo di disponibilità usato per tutti i nodi successivi oltre `first_on_demand` quelli. I valori validi sono `SPOT`, `ON_DEMAND`, `SPOT_WITH_FALLBACK`.
`spot_bid_price_percent`	Integer	Prezzo massimo per le istanze spot di AWS, come percentuale del prezzo su richiesta del tipo di istanza corrispondente.
`instance_profile_arn`	String	I nodi per questo cluster verranno inseriti solo nelle istanze di AWS con questo profilo di istanza.
`first_on_demand`	Integer	I primi `first_on_demand` nodi del cluster verranno posizionati su istanze su richiesta. Questo valore deve essere maggiore di `0`, per assicurarsi che il nodo del driver del cluster sia posizionato in un'istanza su richiesta.
`ebs_volume_type`	String	Tipo di volumi EBS che verranno avviati con questo cluster. I valori validi sono `GENERAL_PURPOSE_SSD` o `THROUGHPUT_OPTIMIZED_HDD`.
`ebs_volume_count`	Integer	Numero di volumi lanciati per ogni istanza.
`ebs_volume_size`	Integer	Dimensioni di ogni volume EBS (in GiB) avviato per ogni istanza.
`ebs_volume_iops`	Integer	Numero di operazioni di I/O al secondo per volume gp3 di EBS.
`ebs_volume_throughput`	Integer	Velocità effettiva per volume gp3 di EBS, in MiB al secondo.

cluster.azure_attributes

Type: Map

Attributi correlati ai cluster in esecuzione in Microsoft Azure.

Key	Type	Description
`first_on_demand`	Integer	I primi `first_on_demand` nodi del cluster verranno posizionati su istanze su richiesta.
`availability`	String	Tipo di disponibilità usato per tutti i nodi successivi oltre `first_on_demand` quelli. I valori validi sono `SPOT_AZURE`, `ON_DEMAND_AZURE`, `SPOT_WITH_FALLBACK_AZURE`.
`spot_bid_max_price`	Number	Prezzo massimo per le istanze spot di Azure. Usare `-1` per specificare il prezzo più basso.
`log_analytics_info`	Map	Configurazione per l'agente di Azure Log Analytics. Vedere log_analytics_info.

cluster.azure_attributes.log_analytics_info

Type: Map

Configurazione per l'agente di Azure Log Analytics.

Key	Type	Description
`log_analytics_workspace_id`	String	ID dell'area di lavoro Log Analytics di Azure.
`log_analytics_primary_key`	String	Chiave primaria per l'area di lavoro Log Analytics di Azure.

cluster.gcp_attributes

Type: Map

Attributi correlati ai cluster in esecuzione in Google Cloud Platform.

Key	Type	Description
`use_preemptible_executors`	Boolean	Se utilizzare esecutori preemptible. Gli executor preemptible sono istanze GCE preemptible che possono essere recuperate da GCE in qualsiasi momento.
`google_service_account`	String	L'account del servizio Google da usare nelle istanze della macchina virtuale del cluster Databricks.
`local_ssd_count`	Integer	Numero di unità SSD locali da collegare a ogni nodo del cluster. Il valore predefinito è `0`.
`zone_id`	String	Identificatore per la zona di disponibilità o il data center in cui risiede il cluster.
`availability`	String	Tipo di disponibilità usato per tutti i nodi. I valori validi sono `PREEMPTIBLE_GCP`, `ON_DEMAND_GCP`, `PREEMPTIBLE_WITH_FALLBACK_GCP`.
`boot_disk_size`	Integer	Dimensioni del disco di avvio in GB. I valori sono in genere compresi tra 100 e 1000.

cluster.cluster_log_conf

Configurazione per il recapito dei log spark a una destinazione di archiviazione a lungo termine.

Key	Type	Description
`dbfs`	Map	Percorso DBFS per la consegna dei log del cluster. Vedere dbfs.
`s3`	Map	Percorso S3 per la consegna dei log del cluster. Vedere s3.
`volumes`	Map	Posizione dei volumi per il recapito dei log del cluster. Vedere volumi.

cluster.cluster_log_conf.dbfs

Type: Map

Percorso DBFS per la consegna dei log del cluster.

Key	Type	Description
`destination`	String	Percorso DBFS per la consegna del log del cluster, ad esempio `dbfs:/cluster-logs`.

cluster.cluster_log_conf.s3

Type: Map

Percorso S3 per la consegna dei log del cluster.

Key	Type	Description
`destination`	String	URI S3 per recapito del log del cluster, ad esempio `s3://my-bucket/cluster-logs`.
`region`	String	La regione AWS del bucket S3.
`endpoint`	String	URL dell'endpoint S3 (facoltativo).
`enable_encryption`	Boolean	Indica se abilitare la crittografia per i log del cluster.
`encryption_type`	String	Tipo di crittografia. I valori validi includono `SSE_S3`, `SSE_KMS`.
`kms_key`	String	L'ARN della chiave KMS per la crittografia (quando si usa `SSE_KMS`).
`canned_acl`	String	ACL predefinita da applicare ai log del cluster.

cluster.cluster_log_conf.volumi

Type: Map

Posizione dei volumi per il recapito dei log del cluster.

Key	Type	Description
`destination`	String	Percorso del volume per il recapito dei log del cluster, ad esempio `/Volumes/catalog/schema/volume/cluster_log`.

cluster.docker_image

Type: Map

Configurazione personalizzata dell'immagine Docker.

Key	Type	Description
`url`	String	URL dell'immagine Docker.
`basic_auth`	Map	Autenticazione di base per il repository Docker. Vedere basic_auth.

cluster.docker_image.autenticazione_di_base

Type: Map

Autenticazione di base per il repository Docker.

Key	Type	Description
`username`	String	Nome utente per l'autenticazione del Registro di sistema Docker.
`password`	String	Password per l'autenticazione del Registro di sistema Docker.

cluster.init_scripts

Type: Map

Configurazione per l'archiviazione di script init. È necessario specificare almeno un tipo di posizione.

Key	Type	Description
`dbfs`	Map	Posizione DBFS dello script di inizializzazione. Vedere dbfs.
`workspace`	Map	Posizione dell'area di lavoro dello script init. Vedi Area di lavoro.
`s3`	Map	Percorso S3 dello script init. Vedere s3.
`abfss`	Map	Percorso ABFSS dello script init. Vedere abfss.
`gcs`	Map	Percorso GCS dello script init. Vedere gcs.
`volumes`	Map	Posizione dello script di inizializzazione dei volumi UC. Vedere volumi.

cluster.init_scripts.dbfs

Type: Map

Posizione DBFS dello script di inizializzazione.

Key	Type	Description
`destination`	String	Percorso DBFS dello script di inizializzazione.

cluster.init_scripts.spazio di lavoro

Type: Map

Posizione dell'area di lavoro dello script init.

Key	Type	Description
`destination`	String	Percorso dell'area di lavoro dello script init.

cluster.init_scripts.s3

Type: Map

Percorso S3 dello script init.

Key	Type	Description
`destination`	String	URI S3 dello script init.
`region`	String	La regione AWS del bucket S3.
`endpoint`	String	URL dell'endpoint S3 (facoltativo).

cluster.init_scripts.abfss

Type: Map

Percorso ABFSS dello script init.

Key	Type	Description
`destination`	String	Il percorso ABFSS dell'init script.

cluster.init_scripts.gcs

Type: Map

Percorso GCS dello script init.

Key	Type	Description
`destination`	String	Percorso GCS dello script init.

cluster.init_scripts.volumes

Type: Map

Posizione dei volumi dello script init.

Key	Type	Description
`destination`	String	Il percorso dei volumi UC dello script di inizializzazione.

cluster.workload_type (tipo di carico di lavoro)

Type: Map

Attributi del cluster che mostrano i tipi di carico di lavoro del cluster.

Key	Type	Description
`clients`	Map	Definisce il tipo di client che può usare il cluster. Vedi clienti.

cluster.tipo_di_carico.clienti

Type: Map

Tipo di client per questo carico di lavoro di calcolo.

Key	Type	Description
`jobs`	Boolean	Indica se il cluster può eseguire lavori.
`notebooks`	Boolean	Indica se il cluster può eseguire notebook.

Examples

L'esempio seguente crea un cluster dedicato (utente singolo) per l'utente corrente con Databricks Runtime 15.4 LTS e criteri del cluster:

resources:
  clusters:
    my_cluster:
      num_workers: 0
      node_type_id: 'i3.xlarge'
      driver_node_type_id: 'i3.xlarge'
      spark_version: '15.4.x-scala2.12'
      spark_conf:
        'spark.executor.memory': '2g'
      autotermination_minutes: 60
      enable_elastic_disk: true
      single_user_name: ${workspace.current_user.userName}
      policy_id: '000128DB309672CA'
      enable_local_disk_encryption: false
      data_security_mode: SINGLE_USER
      runtime_engine: STANDARD

In questo esempio viene creato un cluster my_cluster semplice e viene impostato come cluster da usare per eseguire il notebook in my_job:

bundle:
  name: clusters

resources:
  clusters:
    my_cluster:
      num_workers: 2
      node_type_id: 'i3.xlarge'
      autoscale:
        min_workers: 2
        max_workers: 7
      spark_version: '13.3.x-scala2.12'
      spark_conf:
        'spark.executor.memory': '2g'

  jobs:
    my_job:
      tasks:
        - task_key: test_task
          notebook_task:
            notebook_path: './src/my_notebook.py'
          existing_cluster_id: ${resources.clusters.my_cluster.id}

cruscotto

Type: Map

La risorsa dashboard consente di gestire dashboard di intelligenza artificiale/business intelligence in un pacchetto. Per informazioni sui dashboard di intelligenza artificiale/BI, vedere Dashboard.

Se è stato distribuito un bundle che contiene un dashboard dall'ambiente locale e quindi si usa l'interfaccia utente per modificare tale dashboard, le modifiche apportate tramite l'interfaccia utente non vengono applicate al file JSON del dashboard nel bundle locale, a meno che non venga aggiornato in modo esplicito usando bundle generate. È possibile usare l'opzione --watch per eseguire continuamente il polling e recuperare le modifiche al dashboard. Vedere databricks bundle generate.

Inoltre, se si tenta di distribuire un bundle dall'ambiente locale che contiene un file JSON del dashboard diverso da quello nell'area di lavoro remota, si verificherà un errore. Per forzare il deploy e quindi sovrascrivere il dashboard nell'area di lavoro remota con quello locale, usare l'opzione --force. Vedere databricks bundle deploy.

Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.232.0

Note

Quando si utilizzano pacchetti di asset di Databricks con il supporto Git per il dashboard, impedire la generazione di dashboard duplicati aggiungendo il mapping di sincronizzazione per escludere i dashboard dalla sincronizzazione dei file:

sync:
  exclude:
    - src/*.lvdash.json

dashboards:
  <dashboard-name>:
    <dashboard-field-name>: <dashboard-field-value>

Key	Type	Description
`dataset_catalog`	String	Valore del catalogo predefinito usato da tutti i set di dati nel dashboard, se non specificato diversamente nella query. Ad esempio, la configurazione che imposta questo campo, vedere Catalogo dashboard e parametrizzazione dello schema. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.283.0
`dataset_schema`	String	Valore dello schema predefinito usato da tutti i set di dati nel dashboard se non diversamente specificato nella query. Ad esempio, la configurazione che imposta questo campo, vedere Catalogo dashboard e parametrizzazione dello schema. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.283.0
`display_name`	String	Il nome visualizzato del dashboard. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.232.0
`embed_credentials`	Boolean	Indica se le credenziali di identità di distribuzione del bundle vengono utilizzate per eseguire le query per tutti i visualizzatori del dashboard. Se è impostato su `false`, vengono usate le credenziali di un visualizzatore. Il valore predefinito è `false`. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.232.0
`etag`	String	Etag per il dashboard. È possibile specificare facoltativamente gli aggiornamenti per assicurarsi che il dashboard non sia stato modificato dopo l'ultima lettura. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.234.0
`file_path`	String	Percorso locale dell'asset del dashboard, incluso il nome del file. I dashboard esportati hanno sempre l'estensione di file `.lvdash.json`. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.232.0
`lifecycle`	Map	Contiene le impostazioni del ciclo di vita per una risorsa. Controlla il comportamento della risorsa quando viene distribuita o distrutta. Vedere ciclo di vita.
`parent_path`	String	Percorso dell'area di lavoro della cartella contenente il dashboard. Include una barra iniziale e nessuna barra finale. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.232.0
`path`	String	Percorso dell'area di lavoro dell'asset del dashboard, incluso il nome dell'asset. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.234.0
`permissions`	Sequence	Autorizzazioni del dashboard. Vedere autorizzazioni. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.232.0
`serialized_dashboard`	Any	Contenuti del dashboard in formato stringa serializzata. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.232.0
`warehouse_id`	String	L'ID magazzino utilizzato per far funzionare il cruscotto. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.232.0

Example

L'esempio seguente include e distribuisce il dashboard di esempio NYC Taxi Trip Analysis nella workspace di Databricks.

resources:
  dashboards:
    nyc_taxi_trip_analysis:
      display_name: 'NYC Taxi Trip Analysis'
      file_path: ../src/nyc_taxi_trip_analysis.lvdash.json
      warehouse_id: ${var.warehouse_id}

database_catalog

Type: Map

La risorsa del catalogo di database consente di definire cataloghi di database che corrispondono alle istanze di database in un bundle. Un catalogo di database è un database Lakebase registrato come catalogo unity.

Per informazioni sui cataloghi di database, vedere Creare un catalogo.

Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.265.0

database_catalogs:
  <database_catalog-name>:
    <database_catalog-field-name>: <database_catalog-field-value>

Key	Type	Description
`create_database_if_not_exists`	Boolean	Indica se creare il database se non esiste. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.265.0
`database_instance_name`	String	Nome dell'istanza che ospita il database. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.265.0
`database_name`	String	Nome del database (in un'istanza) associato al catalogo. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.265.0
`lifecycle`	Map	Contiene le impostazioni del ciclo di vita per una risorsa, incluso il comportamento della risorsa quando viene distribuita o eliminata definitivamente. Vedere ciclo di vita. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.265.0
`name`	String	Nome del catalogo in Unity Catalog. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.265.0

Example

Nell'esempio seguente viene definita un'istanza di database con un catalogo di database corrispondente:

resources:
  database_instances:
    my_instance:
      name: my-instance
      capacity: CU_1
  database_catalogs:
    my_catalog:
      database_instance_name: ${resources.database_instances.my_instance.name}
      name: example_catalog
      database_name: my_database
      create_database_if_not_exists: true

database_instance

Type: Map

La risorsa dell'istanza del database consente di definire istanze di database in un bundle. Un'istanza del database Lakebase gestisce le risorse di archiviazione e di calcolo e fornisce gli endpoint a cui gli utenti si connettono.

Importante

Quando si distribuisce un bundle con un'istanza di database, l'istanza inizia immediatamente l'esecuzione ed è soggetta ai prezzi. Vedere Prezzi di Lakebase.

Per informazioni sulle istanze di database, vedere Che cos'è un'istanza del database?

Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.265.0

database_instances:
  <database_instance-name>:
    <database_instance-field-name>: <database_instance-field-value>

Key	Type	Description
`capacity`	String	SKU dell'istanza di . I valori validi sono `CU_1`, `CU_2`, `CU_4`, `CU_8`. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.265.0
`custom_tags`	Sequence	Elenco di coppie chiave-valore che specificano tag personalizzati associati all'istanza. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.273.0
`enable_pg_native_login`	Boolean	Indica se l'istanza ha abilitato l'accesso con password nativa PG. Il valore predefinito è `true`. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.267.0
`enable_readable_secondaries`	Boolean	Indica se abilitare i database secondari per gestire il traffico di sola lettura. Il valore predefinito è `false`. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.265.0
`lifecycle`	Map	Contiene le impostazioni del ciclo di vita per una risorsa. Controlla il comportamento della risorsa quando viene distribuita o distrutta. Vedere ciclo di vita. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.268.0
`name`	String	Nome dell'istanza. Si tratta dell'identificatore univoco per l'istanza. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.265.0
`node_count`	Integer	Numero di nodi nell'istanza, composto da 1 database primario e da 0 o più database secondari. Il valore predefinito è 1 database primario e 0 secondari. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.265.0
`parent_instance_ref`	Map	Riferimento dell'istanza padre. Questa opzione è disponibile solo se l'istanza è figlio. Vedere Istanza padre. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.265.0
`permissions`	Sequence	Autorizzazioni dell'istanza del database. Vedere autorizzazioni. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.265.0
`retention_window_in_days`	Integer	Finestra di conservazione per l'istanza di . Questo è l'intervallo di tempo in giorni per cui vengono conservati i dati cronologici. Il valore predefinito è 7 giorni. I valori validi sono compresi tra 2 e 35 giorni. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.265.0
`stopped`	Boolean	Indica se l'istanza viene arrestata. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.265.0
`usage_policy_id`	String	Politica di utilizzo desiderata da associare all'istanza. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.273.0

database_instance.parent_instance_ref

Type: Map

Riferimento dell'istanza padre. Questa opzione è disponibile solo se l'istanza è figlio.

Key	Type	Description
`branch_time`	String	Tempo del ramo dell'istanza del database di riferimento. Per un'istanza di riferimento padre, si tratta del punto nel tempo dell'istanza padre da cui è stata creata l'istanza. Per un'istanza di riferimento figlio, si tratta del punto nel tempo dell'istanza da cui è stata creata l'istanza figlio.
`lsn`	String	LSN WAL specificato dall'utente dell'istanza del database di riferimento.
`name`	String	Nome dell'istanza del database di riferimento.

Example

Nell'esempio seguente viene definita un'istanza di database con un catalogo di database corrispondente:

resources:
  database_instances:
    my_instance:
      name: my-instance
      capacity: CU_1
  database_catalogs:
    my_catalog:
      database_instance_name: ${resources.database_instances.my_instance.name}
      name: example_catalog
      database_name: my_database
      create_database_if_not_exists: true

Per un bundle di esempio che illustra come definire un'istanza del database e il catalogo di database corrispondente, vedere il repository GitHub di esempi di bundle.

esperimento

Type: Map

La risorsa dell'esperimento consente di definire esperimenti MLflow come un insieme. Per informazioni sugli esperimenti di MLflow, vedere Organizzare le esecuzioni di allenamento con esperimenti di MLflow.

Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0

experiments:
  <experiment-name>:
    <experiment-field-name>: <experiment-field-value>

Key	Type	Description
`artifact_location`	String	Posizione in cui vengono archiviati gli artefatti per l'esperimento. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`lifecycle`	Map	Contiene le impostazioni del ciclo di vita per una risorsa. Controlla il comportamento della risorsa quando viene distribuita o distrutta. Vedere ciclo di vita. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.268.0
`name`	String	Il nome amichevole che identifica l'esperimento. Un nome dell'esperimento deve essere un percorso assoluto nell'area di lavoro di Databricks, ad esempio `/Workspace/Users/someone@example.com/my_experiment`. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`permissions`	Sequence	Autorizzazioni dell'esperimento. Vedere autorizzazioni. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`tags`	Sequence	Coppie chiave-valore di metadati aggiuntive. Consulta i tag. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0

Example

L'esempio seguente definisce un esperimento che tutti gli utenti possono visualizzare:

resources:
  experiments:
    experiment:
      name: /Workspace/Users/someone@example.com/my_experiment
      permissions:
        - level: CAN_READ
          group_name: users
      description: MLflow experiment used to track runs

lavoro

Type: Map

Le attività sono supportate in Python per i pacchetti di risorse di Databricks. Vedere databricks.bundles.jobs.

La risorsa di lavoro consente di definire i lavori e le attività corrispondenti nel pacchetto.

Per informazioni sui lavori, vedere Lakeflow Jobs. Per un'esercitazione che usa un modello di bundle di asset di Databricks per creare un processo, vedere Sviluppare un processo con i bundle di asset di Databricks.

Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0

jobs:
  <job-name>:
    <job-field-name>: <job-field-value>

Key	Type	Description
`budget_policy_id`	String	ID della politica di budget specificata dall'utente da utilizzare per questa attività. Se non specificato, è possibile applicare una politica di budget predefinita durante la creazione o la modifica dell'incarico. Vedere `effective_budget_policy_id` per i criteri di budget usati da questo carico di lavoro. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.231.0
`continuous`	Map	Una proprietà continua opzionale per questo lavoro. La proprietà continua garantisce che sia sempre in esecuzione una sola esecuzione. È possibile usare solo uno di `schedule` e `continuous` . Vedere Continuous( Continua). Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`deployment`	Map	Informazioni sul deployment per le attività gestite da fonti esterne. Vedi Deployment (Distribuzione). Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`description`	String	Descrizione facoltativa per il lavoro. La lunghezza massima è di 27700 caratteri nella codifica UTF-8. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`email_notifications`	Map	Un set facoltativo di indirizzi di posta elettronica che riceve una notifica quando inizia o completa l'esecuzione del processo, nonché quando questo processo viene eliminato. Vedere email_notifications. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`environments`	Sequence	Un elenco delle specifiche dell'ambiente di esecuzione delle attività a cui le attività serverless di questo compito possono fare riferimento. È necessario che sia presente un ambiente per le attività serverless. Per le attività del notebook serverless, l'ambiente è accessibile nel pannello dell'ambiente del notebook. Per altre attività serverless, è necessario specificare l'ambiente attività usando environment_key nelle impostazioni dell'attività. Consulta gli ambienti. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`format`	String	Deprecated. Formato del lavoro.
`git_source`	Map	Specifica facoltativa per un repository Git remoto contenente il codice sorgente usato dalle attività. Vedere job.git_source. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0 Importante: Il `git_source` campo e il campo attività `source` impostato su `GIT` non sono consigliati per i bundle, perché i percorsi relativi locali potrebbero non puntare allo stesso contenuto nel repository Git e i bundle prevedono che un processo distribuito abbia lo stesso contenuto della copia locale da cui è stata distribuita. Clona invece l'archivio in locale e imposta il tuo progetto bundle all'interno di questo archivio, cosicché l'origine delle attività sia l'area di lavoro.
`health`	Map	Set facoltativo di regole di salute che è possibile definire per questo lavoro. Vedere Integrità. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`job_clusters`	Sequence	Elenco delle specifiche del cluster di lavori che possono essere condivise e riutilizzate dalle attività di questo lavoro. Vedere job_clusters. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`lifecycle`	Map	Contiene le impostazioni del ciclo di vita per una risorsa. Controlla il comportamento della risorsa quando viene distribuita o distrutta. Vedere ciclo di vita. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.268.0
`max_concurrent_runs`	Integer	Numero massimo consentito facoltativo di esecuzioni simultanee del lavoro. Impostare questo valore se si vuole essere in grado di eseguire più esecuzioni dello stesso processo contemporaneamente.
`name`	String	Nome facoltativo per il lavoro. La lunghezza massima è di 4096 byte nella codifica UTF-8. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`notification_settings`	Map	Impostazioni di notifica facoltative usate durante l'invio di notifiche a ciascuno dei `email_notifications` e `webhook_notifications` per questo processo. Vedere notification_settings. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`parameters`	Sequence	Definizioni di parametri a livello di attività. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`performance_target`	String	Definisce quanto performante o conveniente dovrebbe essere l'esecuzione dell'attività su serverless. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.241.0
`permissions`	Sequence	Autorizzazioni del lavoro. Vedere autorizzazioni. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`queue`	Map	Le impostazioni della coda del processo. Vedere la coda. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`run_as`	Map	Impostazione di sola scrittura. Specifica l'utente o l'entità servizio sotto cui viene eseguito il processo. Se non specificato, l'attività viene eseguita come utente che ha creato l'attività. Specificare `user_name` o `service_principal_name` . In caso contrario, viene generato un errore. Vedere run_as. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`schedule`	Map	Pianificazione periodica facoltativa per questa attività. Il comportamento predefinito è che il processo viene eseguito solo quando viene attivato facendo clic su "Esegui ora" nell'interfaccia utente dei processi o inviando una richiesta API a `runNow`. Vedere programma. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`tags`	Map	Mappa dei tag associati al processo. Questi vengono inoltrati al cluster come etichette di cluster per i gruppi di lavoro e sono soggetti alle stesse limitazioni delle etichette di cluster. È possibile aggiungere al lavoro un massimo di 25 tag. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`tasks`	Sequence	Elenco delle specifiche dell'attività da svolgere da questo lavoro. Vedere Aggiungere attività ai processi nei bundle di asset di Databricks. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.237.0
`timeout_seconds`	Integer	Un timeout facoltativo viene applicato a ogni esecuzione di questo processo. Un valore di `0` indica che non è previsto alcun timeout. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`trigger`	Map	Configurazione per attivare un'esecuzione quando vengono soddisfatte determinate condizioni. Vedi trigger. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`usage_policy_id`	String	ID dei criteri di utilizzo da usare per questo processo. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.273.0
`webhook_notifications`	Map	Una raccolta di ID di notifica di sistema per notificare quando l'esecuzione di questo processo inizia o viene completata. Vedere webhook_notifications. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0

job.continuo

Type: Map

Configurazione per l'esecuzione continua dell'attività.

Key	Type	Description
`pause_status`	String	Indica se il processo continuo viene sospeso o meno. Valori validi: `PAUSED`, `UNPAUSED`.
`task_retry_mode`	String	Indicare il modo in cui il processo continuo applica i tentativi a livello di attività. I valori validi sono `NEVER` e `ON_FAILURE`. Il valore predefinito è `NEVER`.

processo di implementazione (job.deployment)

Type: Map

Informazioni sul deployment per le attività gestite da fonti esterne.

Key	Type	Description
`kind`	String	Tipo di distribuzione. Ad esempio: `BUNDLE`.
`metadata_file_path`	String	Percorso del file di metadati per la distribuzione.

processo.notifiche_email

Type: Map

Impostazioni di notifica tramite posta elettronica per le esecuzioni dei job.

Key	Type	Description
`on_start`	Sequence	Elenco di indirizzi di posta elettronica da notificare all'avvio di un'esecuzione.
`on_success`	Sequence	Elenco di indirizzi di posta elettronica da notificare quando un'esecuzione ha esito positivo.
`on_failure`	Sequence	Elenco di indirizzi di posta elettronica da notificare quando un'esecuzione non riesce.
`on_duration_warning_threshold_exceeded`	Sequence	Un elenco di indirizzi di posta elettronica da notificare quando un tempo di esecuzione supera la soglia di avviso.
`no_alert_for_skipped_runs`	Boolean	Indica se saltare l'invio di avvisi per le esecuzioni saltate.
`on_streaming_backlog_exceeded`	Sequence	Elenco di indirizzi di posta elettronica da notificare quando vengono superate le soglie di backlog di streaming per qualsiasi flusso. Le soglie di backlog di streaming possono essere impostate nel `health` campo usando le metriche seguenti: `STREAMING_BACKLOG_BYTES`, `STREAMING_BACKLOG_RECORDS`, `STREAMING_BACKLOG_SECONDS`o `STREAMING_BACKLOG_FILES`. Gli avvisi si basano sulla media di 10 minuti di queste metriche. Se il problema persiste, le notifiche vengono inviate nuovamente ogni 30 minuti.

job.environments

Type: Sequence

Elenco delle specifiche dell'ambiente di esecuzione dei compiti a cui possono fare riferimento i compiti serverless di un processo.

Ogni elemento nell'elenco è :JobEnvironment

Key	Type	Description
`environment_key`	String	Chiave di un ambiente. Deve essere univoco all'interno di un processo.
`spec`	Map	Entità che rappresenta un ambiente serverless. Vedere job.environments.spec.

job.environments.spec

Type: Map

Entità che rappresenta un ambiente serverless.

Key	Type	Description
`client`	String	Deprecated. Versione client.
`dependencies`	Sequence	Elenco delle dipendenze pip, come supportato dalla versione di pip in questo ambiente.
`environment_version`	String	Obbligatorio. Versione dell'ambiente usata dall'ambiente. Ogni versione include una versione python specifica e un set di pacchetti Python. La versione è una stringa costituita da un numero intero.

job.git_source

Type: Map

Configurazione del repository Git per il codice sorgente del processo.

Key	Type	Description
`git_branch`	String	Nome del ramo da archiviare e utilizzare da questo processo. Questo campo non può essere specificato insieme a `git_tag` o `git_commit`.
`git_commit`	String	Eseguire il commit per essere estratto e usato da questo processo. Questo campo non può essere specificato insieme a `git_branch` o `git_tag`.
`git_provider`	String	Identificatore univoco del servizio usato per ospitare il repository Git. Il valore non fa distinzione tra maiuscole e minuscole. I valori validi sono `gitHub`, `bitbucketCloud`, `gitLabazureDevOpsServices`, `gitHubEnterprise`, `bitbucketServer`. `gitLabEnterpriseEdition`
`git_snapshot`	Map	Stato di sola lettura del repository remoto al momento dell'esecuzione del job. Questo campo è incluso solo nelle esecuzioni dei lavori. Vedere git_snapshot.
`git_tag`	String	Nome del tag da archiviare e usare da questo processo. Questo campo non può essere specificato insieme a `git_branch` o `git_commit`.
`git_url`	String	URL del repository da clonare da questo processo.

job.git_source.git_snapshot

Type: Map

Snapshot di sola lettura delle informazioni di commit.

Key	Type	Description
`used_commit`	String	Commit usato per eseguire l'esecuzione. Se `git_branch` è stato specificato, questo punta all'oggetto HEAD del ramo al momento dell'esecuzione; se `git_tag` è stato specificato, questo punta al commit a cui il tag fa riferimento.

salute.lavoro

Type: Map

Configurazione del monitoraggio dell'integrità per il lavoro.

Key	Type	Description
`rules`	Sequence	Elenco delle regole di salute del lavoro. Ogni regola contiene un `metric` e `op` (operatore) e `value`. Vedere job.health.rules.

regole.di.salute.del.lavoro

Type: Sequence

Elenco delle regole di salute del lavoro.

Ogni elemento nell'elenco è :JobHealthRule

Key	Type	Description
`metric`	String	Specifica la metrica di integrità valutata per una determinata regola di integrità. `RUN_DURATION_SECONDS`: tempo totale previsto per un'esecuzione del programma in secondi. `STREAMING_BACKLOG_BYTES`: stima dei byte massimi di dati in attesa di essere utilizzati in tutti i flussi. Questa metrica è disponibile in anteprima pubblica. `STREAMING_BACKLOG_RECORDS`: stima del ritardo di offset massimo tra tutti i flussi. Questa metrica è disponibile in anteprima pubblica. `STREAMING_BACKLOG_SECONDS`: stima del ritardo massimo del consumatore attraverso tutti i flussi. Questa metrica è disponibile in anteprima pubblica. `STREAMING_BACKLOG_FILES`: stima del numero massimo di file in sospeso in tutti i flussi. Questa metrica è disponibile in anteprima pubblica.
`op`	String	Specifica l'operatore usato per confrontare il valore della metrica di integrità con la soglia specificata.
`value`	Integer	Specifica il valore soglia che la metrica di integrità deve rispettare per soddisfare la regola di integrità.

job.job_clusters

Type: Sequence

Elenco delle specifiche del cluster di lavori che possono essere condivise e riutilizzate dalle attività di questo lavoro. Le librerie non possono essere dichiarate in un cluster di processi condivisi. È necessario dichiarare librerie dipendenti nelle impostazioni delle attività.

Ogni elemento nell'elenco è :JobCluster

Key	Type	Description
`job_cluster_key`	String	Nome univoco per il cluster di processi. Questo campo è obbligatorio e deve essere univoco all'interno del processo. `JobTaskSettings` può fare riferimento a questo campo per determinare quale cluster avviare per l'esecuzione dell'attività.
`new_cluster`	Map	Se new_cluster, una descrizione di un cluster creato per ogni attività. Consulta cluster.

job.impostazioni_di_notifica

Type: Map

Impostazioni di notifica applicabili a tutte le notifiche per il lavoro.

Key	Type	Description
`no_alert_for_skipped_runs`	Boolean	Indica se saltare l'invio di avvisi per le esecuzioni saltate.
`no_alert_for_canceled_runs`	Boolean	Indica se ignorare l'invio di avvisi per le esecuzioni annullate.

job.queue

Type: Map

Impostazioni della coda per il compito.

Key	Type	Description
`enabled`	Boolean	Indica se abilitare la coda per il processo.

programma.job.schedulazione

Type: Map

Pianificare la configurazione per l'esecuzione periodica del processo.

Key	Type	Description
`quartz_cron_expression`	String	Un'espressione Cron che usa la sintassi di Quartz che specifica quando viene eseguita l'attività. Ad esempio, `0 0 9 * * ?` esegue il processo ogni giorno alle 9:00 UTC.
`timezone_id`	String	Fuso orario per la pianificazione. Ad esempio, `America/Los_Angeles` o `UTC`.
`pause_status`	String	Indica se il programma è sospeso o meno. Valori validi: `PAUSED`, `UNPAUSED`.

compito.attivatore

Type: Map

Attivare la configurazione per l'esecuzione di processi basati su eventi.

Key	Type	Description
`file_arrival`	Map	Attivazione sull'arrivo di un file. Consulta file_arrival.
`table`	Map	Trigger basato su una tabella. Vedere la tabella.
`table_update`	Map	Trigger basato sugli aggiornamenti delle tabelle. Vedere table_update.
`periodic`	Map	Trigger periodico. Vedere periodico.

processo.attivare.arrivo_file

Type: Map

Attivare la configurazione in base all'arrivo dei file.

Key	Type	Description
`url`	String	Percorso del file da monitorare per i nuovi file.
`min_time_between_triggers_seconds`	Integer	Tempo minimo in secondi tra gli eventi di trigger.
`wait_after_last_change_seconds`	Integer	Tempo di attesa in secondi dopo l'ultima modifica del file prima dell'attivazione.

job.trigger.table

Type: Map

Configurazione del trigger basata su una tabella.

Key	Type	Description
`table_names`	Sequence	Elenco di nomi di tabella da monitorare.
`condition`	String	Condizione SQL che deve essere soddisfatta per attivare il processo.

processo.attivare.aggiorna_tabella

Type: Map

Configurazione del trigger basata sugli aggiornamenti della tabella.

Key	Type	Description
`table_names`	Sequence	Elenco di nomi di tabella da monitorare per gli aggiornamenti.
`condition`	String	Condizione SQL che deve essere soddisfatta per attivare il processo.
`wait_after_last_change_seconds`	Integer	Tempo di attesa in secondi dopo l'ultimo aggiornamento della tabella prima dell'attivazione.

processo.attivatore.periodico

Type: Map

Configurazione del trigger periodico.

Key	Type	Description
`interval`	Integer	Valore dell'intervallo per il trigger periodico.
`unit`	String	Unità di tempo per l'intervallo. Valori validi: `SECONDS`, `MINUTES`, `HOURS`, `DAYS`, `WEEKS`.

job.notifiche_webhook

Type: Map

Impostazioni di notifica webhook per le esecuzioni di attività.

Key	Type	Description
`on_start`	Sequence	Elenco di ID delle notifiche webhook da utilizzare per avvisare all'inizio di un'esecuzione.
`on_success`	Sequence	Elenco di ID notifica webhook da notificare quando un'esecuzione ha esito positivo.
`on_failure`	Sequence	Elenco di ID notifica webhook da notificare quando un'esecuzione ha esito negativo.
`on_duration_warning_threshold_exceeded`	Sequence	Elenco di ID di notifica webhook che devono essere notificati quando la durata di un'esecuzione supera la soglia di avviso.
`on_streaming_backlog_exceeded`	Sequence	Elenco di ID di notifica di sistema da chiamare quando vengono superate le soglie di backlog di streaming per qualsiasi flusso. Le soglie di backlog di streaming possono essere impostate nel `health` campo usando le metriche seguenti: `STREAMING_BACKLOG_BYTES`, `STREAMING_BACKLOG_RECORDS`, `STREAMING_BACKLOG_SECONDS`o `STREAMING_BACKLOG_FILES`. Gli avvisi si basano sulla media di 10 minuti di queste metriche. Se il problema persiste, le notifiche vengono inviate nuovamente ogni 30 minuti. È possibile specificare un massimo di 3 destinazioni.

Examples

L'esempio seguente definisce un processo con la chiave di risorsa hello-job e un'attività di notebook:

resources:
  jobs:
    hello-job:
      name: hello-job
      tasks:
        - task_key: hello-task
          notebook_task:
            notebook_path: ./hello.py

L'esempio seguente definisce un processo con un notebook SQL:

resources:
  jobs:
    job_with_sql_notebook:
      name: 'Job to demonstrate using a SQL notebook with a SQL warehouse'
      tasks:
        - task_key: notebook
          notebook_task:
            notebook_path: ./select.sql
            warehouse_id: 799f096837fzzzz4

Per altri esempi di configurazione dei processi, vedere Configurazione del processo.

Per informazioni sulla definizione dei compiti di lavoro e sull'override delle impostazioni di lavoro, vedere:

modello (obsoleto)

Type: Map

La risorsa modello consente di definire modelli legacy nei pacchetti. Databricks consiglia di usare invece i modelli registrati di Unity Catalog .

Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0

endpoint_servizio_modello

Type: Map

La risorsa model_serving_endpoint consente di definire modello che gestisce gli endpoint. Vedere Gestire i modelli che gestiscono gli endpoint.

Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0

model_serving_endpoints:
  <model_serving_endpoint-name>:
    <model_serving_endpoint-field-name>: <model_serving_endpoint-field-value>

Key	Type	Description
`ai_gateway`	Map	Configurazione del gateway di intelligenza artificiale per l'endpoint di gestione. NOTA: attualmente sono supportati solo gli endpoint di velocità effettiva con provisioning e modello esterno. Vedere ai_gateway. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.230.0
`budget_policy_id`	String	ID dei criteri di budget da usare per questo endpoint. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.244.0
`config`	Map	Configurazione principale dell'endpoint di gestione. Consulta config. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`description`	String	Descrizione dell'endpoint di gestione. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.260.0
`email_notifications`	Map	Configurazione delle notifiche tramite posta elettronica per l'endpoint di gestione. Vedere email_notifications. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.264.0
`lifecycle`	Map	Contiene le impostazioni del ciclo di vita per una risorsa. Controlla il comportamento della risorsa quando viene distribuita o distrutta. Vedere ciclo di vita. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.268.0
`name`	String	Nome dell'endpoint di servizio. Questo campo è obbligatorio e deve essere univoco in un'area di lavoro di Databricks. Un nome endpoint può essere costituito da caratteri alfanumerici, trattini e caratteri di sottolineatura. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`permissions`	Sequence	Il modello che gestisce le autorizzazioni dell'endpoint. Vedere autorizzazioni. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`rate_limits`	Sequence	Deprecated. Limiti di frequenza da applicare all'endpoint di servizio. Usare il gateway di intelligenza artificiale per gestire i limiti di frequenza. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`route_optimized`	Boolean	Abilitare l'ottimizzazione della route per l'endpoint di servizio. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`tags`	Sequence	Tag da associare all'endpoint di gestione e propagati automaticamente ai log di fatturazione. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0

model_serving_endpoint.email_notifications

Type: Map

Configurazione delle notifiche tramite posta elettronica per l'endpoint di gestione.

Key	Type	Description
`on_update_failure`	Sequence	Elenco di indirizzi di posta elettronica da notificare quando un endpoint non riesce ad aggiornare la configurazione o lo stato.
`on_update_success`	Sequence	Elenco di indirizzi di posta elettronica per ricevere una notifica quando un endpoint aggiorna correttamente la configurazione o lo stato.

endpoint_servizio_modelli.gateway_ai

Type: Map

Configurazione del gateway di intelligenza artificiale per l'endpoint di gestione.

Key	Type	Description
`fallback_config`	Map	Configurazione per il fallback del traffico che esegue automaticamente il fallback ad altre entità servite se la richiesta a un'entità servita non riesce con determinati codici di errore, per aumentare la disponibilità. Vedere fallback_config.
`guardrails`	Map	Configurazione di Guardrail. Vedi barriere di sicurezza.
`inference_table_config`	Map	Configurazione per la registrazione dell'inferenza nelle tabelle del catalogo Unity. Vedere inference_table_config.
`rate_limits`	Sequence	Configurazioni del limite di velocità.
`usage_tracking_config`	Map	Configurazione per tenere traccia dell'utilizzo. Vedere usage_tracking_config.

model_serving_endpoint.ai_gateway.fallback_config

Type: Map

Configurazione per il fallback del traffico che esegue automaticamente il fallback ad altre entità gestite se una richiesta ha esito negativo con determinati codici di errore.

Key	Type	Description
`enabled`	Boolean	Indica se il fallback è abilitato per questo endpoint.

endpoint_di_servizio_modello.passarella_ai.barriere_protettive

Type: Map

La configurazione delle barriere del gateway dell'intelligenza artificiale.

Key	Type	Description
`input`	Map	Configurazione delle protezioni di input con campi come `safety`, `pii`.
`output`	Map	La configurazione delle protezioni di output con campi come `safety`, `pii`.
`invalid_keywords`	Sequence	Elenco di parole chiave da bloccare.

model_serving_endpoint.ai_gateway.inference_table_config

Type: Map

Configurazione per la registrazione dell'inferenza nelle tabelle del catalogo Unity.

Key	Type	Description
`catalog_name`	String	Nome del catalogo in Unity Catalog.
`schema_name`	String	Nome dello schema in Unity Catalog.
`table_name_prefix`	String	Prefisso per i nomi delle tabelle di inferenza.
`enabled`	Boolean	Indica se la registrazione della tabella di inferenza è abilitata.

model_serving_endpoint.ai_gateway.configurazione_tracciamento_utilizzo

Type: Map

Configurazione del gateway di intelligenza artificiale per tenere traccia dell'utilizzo.

Key	Type	Description
`enabled`	Boolean	Indica se il rilevamento dell'utilizzo è abilitato.

model_serving_endpoint.config

Type: Map

Configurazione principale dell'endpoint di gestione.

Key	Type	Description
`served_entities`	Sequence	Elenco di entità servite per l'endpoint da gestire. Ogni entità servita contiene campi come `entity_name`, `entity_version`, `workload_size`, `scale_to_zero_enabled`, `workload_type`, `environment_vars`.
`served_models`	Sequence	(Deprecato: usare `served_entities` invece) Elenco di modelli serviti per l'endpoint da gestire.
`traffic_config`	Map	Configurazione del traffico che definisce come devono essere instradate le chiamate all'endpoint di servizio. Vedere traffic_config.
`auto_capture_config`	Map	Configurazione per le tabelle di inferenza che registra automaticamente le richieste e le risposte al catalogo Unity. Vedere auto_capture_config.

punto_di_servizio_model.config.configurazione_traffico

Type: Map

Configurazione del traffico che definisce come devono essere instradate le chiamate all'endpoint di servizio.

Key	Type	Description
`routes`	Sequence	Elenco di route per la distribuzione del traffico. Ogni route contiene `served_model_name` e `traffic_percentage`.

model_serving_endpoint.config.auto_capture_config

Type: Map

Configurazione per le tabelle di inferenza che registra automaticamente le richieste e le risposte al catalogo Unity.

Key	Type	Description
`catalog_name`	String	Nome del catalogo in Unity Catalog.
`schema_name`	String	Nome dello schema in Unity Catalog.
`table_name_prefix`	String	Prefisso per i nomi delle tabelle di inferenza.
`enabled`	Boolean	Indica se la registrazione della tabella di inferenza è abilitata.

Example

L'esempio seguente definisce un endpoint di gestione di un modello di Catalogo Unity:

resources:
  model_serving_endpoints:
    uc_model_serving_endpoint:
      name: 'uc-model-endpoint'
      config:
        served_entities:
          - entity_name: 'myCatalog.mySchema.my-ads-model'
            entity_version: '10'
            workload_size: 'Small'
            scale_to_zero_enabled: 'true'
        traffic_config:
          routes:
            - served_model_name: 'my-ads-model-10'
              traffic_percentage: '100'
      tags:
        - key: 'team'
          value: 'data science'

flusso di lavoro

Type: Map

Le pipeline sono supportate in Python per i bundle di asset di Databricks. Vedere databricks.bundles.pipelines.

La risorsa della pipeline consente di creare pipeline. Per informazioni sulle pipeline, vedere Pipeline dichiarative di Lakeflow Spark. Per un'esercitazione che usa il modello Databricks Asset Bundles per creare una pipeline, vedere Sviluppare pipeline dichiarative di Lakeflow Spark con Databricks Asset Bundles.

Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0

pipelines:
  <pipeline-name>:
    <pipeline-field-name>: <pipeline-field-value>

Key	Type	Description
`allow_duplicate_names`	Boolean	Se false, la distribuzione avrà esito negativo se il nome è in conflitto con quello di un'altra pipeline. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.261.0
`budget_policy_id`	String	Politica di budget di questa pipeline. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.230.0
`catalog`	String	Catalogo in Unity Catalog in cui pubblicare i dati da questa pipeline. Se `target` viene specificato, le tabelle in questa pipeline vengono pubblicate in uno schema `target` all'interno di `catalog`, ad esempio `catalog`.`target`.`table`. Se `target` non viene specificato, non viene pubblicato alcun dato nel catalogo unity. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`channel`	String	Canale di rilascio delle pipeline dichiarative di Lakeflow Spark che specifica quale versione di Lakeflow Spark Declarative Pipelines utilizzare. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`clusters`	Sequence	Impostazioni del cluster per questa distribuzione della pipeline. Consulta cluster. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`configuration`	Map	La configurazione per l'esecuzione della pipeline. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`continuous`	Boolean	Indica se la pipeline è continua o attivata su comando. Questo sostituisce `trigger`. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`deployment`	Map	Tipo di distribuzione di questa pipeline. Vedi Deployment (Distribuzione). Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`development`	Boolean	Indica se la pipeline è in modalità di sviluppo. Il valore predefinito è falso. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`dry_run`	Boolean	Indica se la pipeline è una pipeline di esecuzione a secco.
`edition`	String	Edizione del prodotto della linea di produzione. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`environment`	Map	Specifica dell'ambiente per questa pipeline usata per installare le dipendenze nell'ambiente di calcolo serverless. Vedere ambiente. Questa chiave è supportata solo nell'interfaccia della riga di comando di Databricks versione 0.258 e successive. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.257.0
`event_log`	Map	Configurazione del registro eventi per questa pipeline. Vedere event_log. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.246.0
`filters`	Map	Filtri che determinano quali pacchetti della pipeline includere nel grafico distribuito. Vedere i filtri. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`gateway_definition`	Map	Configurazione per una pipeline del gateway. Queste impostazioni non possono essere usate con le `ingestion_definition` impostazioni. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`id`	String	Identificatore univoco per questa pipeline. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`ingestion_definition`	Map	Configurazione per una pipeline di inserimento gestita. Queste impostazioni non possono essere usate con le `libraries`impostazioni , `schema`, `target`o `catalog` . Vedere ingestion_definition. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`libraries`	Sequence	Elenco di librerie o codice necessario per questa distribuzione. Vedere pipeline.libraries. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`lifecycle`	Map	Contiene le impostazioni del ciclo di vita per una risorsa. Controlla il comportamento della risorsa quando viene distribuita o distrutta. Vedere ciclo di vita. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.268.0
`name`	String	Nome amichevole per questa pipeline. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`notifications`	Sequence	Impostazioni di notifica per questa pipeline. Vedere le notifiche. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`permissions`	Sequence	Autorizzazioni della pipeline. Vedere autorizzazioni. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`photon`	Boolean	Indica se Photon è abilitato per questa pipeline. Questa chiave viene ignorata se `serverless` è impostata su `true`. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`restart_window`	Map	Definisce una finestra di riavvio per questa pipeline. È possibile riavviare le pipeline all'interno di questa finestra senza cadere dietro.
`root_path`	String	Percorso radice per questa pipeline. Viene usata come directory radice durante la modifica della pipeline nell'interfaccia utente di Databricks e viene aggiunta a sys.path quando si eseguono file Python nel corso dell'esecuzione della pipeline. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.253.0
`run_as`	Map	L'identità con cui viene eseguita la pipeline. Se non specificato, la pipeline viene eseguita dall'utente che l'ha creata. È possibile specificare solo `user_name` o `service_principal_name` . Se vengono specificati entrambi, viene generato un errore. Vedere run_as. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.241.0
`schema`	String	Schema predefinito (database) in cui le tabelle vengono lette o pubblicate. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.230.0
`serverless`	Boolean	Indica se l'ambiente di calcolo serverless è abilitato per questa pipeline. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`storage`	String	Cartella principale di DBFS per la memorizzazione di checkpoint e tabelle. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`tags`	Map	Mappa dei tag associati alla pipeline. Questi vengono inoltrati al cluster come tag del cluster e pertanto sono soggetti alle stesse limitazioni. È possibile aggiungere alla pipeline un massimo di 25 tag. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.256.0
`target`	String	Schema di destinazione (database) a cui aggiungere tabelle in questa pipeline. È necessario specificare esattamente uno di `schema` o `target` . Per pubblicare in Unity Catalog, specificare anche `catalog`. Questo campo legacy è obsoleto per la creazione della pipeline a favore del campo `schema`. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`usage_policy_id`	String	ID dei criteri di utilizzo da usare per questa pipeline. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.273.0

pipeline.distribuzione

Type: Map

Configurazione del tipo di distribuzione per la pipeline.

Key	Type	Description
`kind`	String	Tipo di distribuzione. Ad esempio: `BUNDLE`.
`metadata_file_path`	String	Percorso del file di metadati per la distribuzione.

pipeline.ambiente

Type: Map

Specifica dell'ambiente per l'installazione delle dipendenze nell'ambiente di calcolo serverless.

Key	Type	Description
`dependencies`	Sequence	Elenco delle dipendenze pip, come supportato dalla versione di pip in questo ambiente. Ogni dipendenza è una riga di file del requisito pip.

pipeline.registro_eventi

Type: Map

Configurazione del registro eventi per la pipeline.

Key	Type	Description
`catalog`	String	Il catalogo di Unity Catalog in cui è pubblicato il registro eventi.
`name`	String	Il nome al quale viene pubblicato il registro eventi in Unity Catalog.
`schema`	String	Lo schema del catalogo Unity in cui è pubblicato il registro eventi.

pipeline.filtri

Type: Map

Filtri che determinano quali pacchetti di pipeline includere nel grafico distribuito.

Key	Type	Description
`include`	Sequence	Elenco dei nomi dei pacchetti da includere.
`exclude`	Sequence	Elenco di nomi di pacchetti da escludere.

pipeline.ingestion_definition

Type: Map

Configurazione per una pipeline di inserimento gestita. Queste impostazioni non possono essere usate con le librariesimpostazioni , schema, targeto catalog .

Key	Type	Description
`connection_name`	String	Nome della connessione da usare per l'inserimento.
`ingestion_gateway_id`	String	ID del gateway di inserimento.
`objects`	Sequence	Obbligatorio. Impostazioni che specificano le tabelle da replicare e la destinazione per le tabelle replicate. Ogni oggetto può essere schemaSpec, TableSpec o ReportSpec.
`source_configurations`	Sequence	Configurazioni di origine di primo livello.
`table_configuration`	Map	Configurazione per le tabelle di ingestione. Vedere table_configuration.

SchemaSpec

Type: Map

Specifica dell'oggetto schema per l'inserimento di tutte le tabelle da uno schema.

Key	Type	Description
`source_schema`	String	Nome dello schema di origine da inserire.
`destination_catalog`	String	Nome del catalogo di destinazione in Unity Catalog.
`destination_schema`	String	Nome dello schema di destinazione in Unity Catalog.
`table_configuration`	Map	Configurazione da applicare a tutte le tabelle in questo schema. Vedere pipeline.ingestion_definition.table_configuration.

TableSpec

Type: Map

Specifica dell'oggetto Table per l'ingestione di una tabella specifica.

Key	Type	Description
`source_schema`	String	Nome dello schema di origine contenente la tabella.
`source_table`	String	Nome della tabella di origine da inserire.
`destination_catalog`	String	Nome del catalogo di destinazione in Unity Catalog.
`destination_schema`	String	Nome dello schema di destinazione in Unity Catalog.
`destination_table`	String	Nome della tabella di destinazione in Unity Catalog.
`table_configuration`	Map	Configurazione per questa tabella specifica. Vedere pipeline.ingestion_definition.table_configuration.

Specifica del Report

Type: Map

Specifica dell'oggetto report per l'inserimento di report di analisi.

Key	Type	Description
`source_url`	String	URL del report di origine.
`source_report`	String	Nome o identificatore del report di origine.
`destination_catalog`	String	Nome del catalogo di destinazione in Unity Catalog.
`destination_schema`	String	Nome dello schema di destinazione in Unity Catalog.
`destination_table`	String	Nome della tabella di destinazione per i dati del report.
`table_configuration`	Map	Configurazione per la tabella del report. Vedere pipeline.ingestion_definition.table_configuration.

pipeline.ingestion_definition.source_configurations

Type: Map

Configurazione per la sorgente.

Key	Type	Description
`catalog`	Map	Parametri di configurazione dell'origine a livello di catalogo. Vedere il catalogo.

pipeline.definizione_di_ingestione.configurazione_sorgente.catalogo

Type: Map

Parametri di configurazione dell'origine a livello di catalogo

Key	Type	Description
`postgres`	Map	Parametri di configurazione a livello di catalogo specifici di Postgres. Contiene una `slot_config` chiave che è una `Map` rappresentante la configurazione dello slot Postgres da utilizzare per la replica logica.
`source_catalog`	String	Nome del catalogo di origine.

pipeline.definizione_ingestione.configurazione_tabella

Type: Map

Opzioni di configurazione per le tabelle di inserimento.

Key	Type	Description
`exclude_columns`	Sequence	Elenco di nomi di colonna da escludere per l'inserimento. Se non specificato, `include_columns` controlla completamente le colonne da inserire. Se specificato, tutte le altre colonne incluse quelle future verranno incluse automaticamente per l'inserimento. Questo campo è mutuamente esclusivo con `include_columns`.
`include_columns`	Sequence	Elenco di nomi di colonna da includere per l'ingestione. Se non specificato, verranno incluse tutte le colonne ad eccezione di quelle incluse `exclude_columns` . Le colonne future verranno incluse automaticamente. Se specificato, tutte le altre colonne future verranno automaticamente escluse dall'inserimento. Questo campo è mutuamente esclusivo con `exclude_columns`.
`primary_keys`	Sequence	Elenco di nomi di colonna da utilizzare come chiavi primarie per la tabella.
`sequence_by`	Sequence	Nomi di colonna che specificano l'ordine logico degli eventi nei dati di origine. Le pipeline dichiarative spark usano questa sequenziazione per gestire gli eventi di modifica che arrivano non in ordine.

pipeline.libraries

Type: Sequence

Definisce l'elenco di librerie o codice necessari per questa pipeline.

Ogni elemento nell'elenco è una definizione:

Key	Type	Description
`file`	Map	Percorso di un file che definisce una pipeline e archiviato in Databricks Repos. Vedere pipeline.libraries.file.
`glob`	Map	Campo unificato da includere il codice sorgente. Ogni voce può essere un percorso del notebook, un percorso di file o un percorso di cartella che termina `/**`. Questo campo non può essere utilizzato insieme a `notebook` o `file`. Vedere pipeline.libraries.glob.
`notebook`	Map	Il percorso di un notebook che definisce una pipeline e viene memorizzato nell'area di lavoro Databricks. Vedere pipeline.libraries.notebook.
`whl`	String	Questo campo è deprecato

pipeline.libraries.file

Type: Map

Percorso di un file che definisce una pipeline e archiviato in Databricks Repos.

Key	Type	Description
`path`	String	Percorso assoluto del codice sorgente.

pipeline.libraries.glob

Type: Map

Campo unificato da includere il codice sorgente. Ogni voce può essere un percorso del notebook, un percorso di file o un percorso di cartella che termina /**. Questo campo non può essere utilizzato insieme a notebook o file.

Key	Type	Description
`include`	String	Codice sorgente da includere per le pipeline

pipeline.libraries.notebook

Type: Map

Il percorso di un notebook che definisce una pipeline e viene memorizzato nell'area di lavoro Databricks.

Key	Type	Description
`path`	String	Percorso assoluto del codice sorgente.

pipeline.notifications

Type: Sequence

Impostazioni di notifica per questa pipeline. Ogni elemento della sequenza è una configurazione di notifica.

Key	Type	Description
`alerts`	Sequence	Elenco di avvisi che attivano le notifiche. I valori validi includono `on-update-success`, `on-update-failure`, `on-update-fatal-failure`, `on-flow-failure`.
`email_recipients`	Sequence	Elenco di indirizzi di posta elettronica da notificare quando viene attivato un avviso configurato.

Example

L'esempio seguente definisce una pipeline con la chiave di risorsa hello-pipeline:

resources:
  pipelines:
    hello-pipeline:
      name: hello-pipeline
      clusters:
        - label: default
          num_workers: 1
      development: true
      continuous: false
      channel: CURRENT
      edition: CORE
      photon: false
      libraries:
        - notebook:
            path: ./pipeline.py

Per altri esempi di configurazione della pipeline, vedere Configurazione della pipeline.

postgres_branch

Type:Map

La risorsa del ramo Postgres consente di definire rami Lakebase in un bundle. È anche necessario definire i progetti Postgres e gli endpoint di calcolo corrispondenti.

Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0

postgres_branches:
  <postgres_branch-name>:
    <postgres_branch-field-name>: <postgres_branches-field-value>

Key	Type	Description
`branch_id`	String	ID da utilizzare per il ramo. Questo diventa il componente finale del nome della risorsa del ramo. L'ID è obbligatorio e deve avere una lunghezza di 1-63 caratteri, iniziare con una lettera minuscola e contenere solo lettere minuscole, numeri e trattini. Ad esempio, `development` diventa `projects/my-app/branches/development`. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0
`expire_time`	String	Timestamp di scadenza assoluto. Se impostato, il ramo scadrà in questo momento. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0
`is_protected`	Boolean	Se impostato su true, protegge il ramo dall'eliminazione e dalla reimpostazione. Gli endpoint di calcolo associati e il progetto non possono essere eliminati mentre il ramo è protetto. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0
`no_expiry`	Boolean	Disabilitare in modo esplicito la scadenza. Se impostato su true, il ramo non scadrà. Se impostato su false, la richiesta non è valida; specificare invece ttl o expire_time. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0
`parent`	String	Progetto in cui verrà creato questo ramo. Formato: `projects/{project_id}` Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0
`source_branch`	String	Nome del ramo di origine da cui è stato creato questo ramo (derivazione dei dati per il recupero temporizzato). Se non specificato, per impostazione predefinita viene impostato il ramo predefinito del progetto. Formato: `projects/{project_id}/branches/{branch_id}` Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0
`source_branch_lsn`	String	Numero di sequenza del log (LSN) nel ramo di origine da cui è stato creato questo ramo. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0
`source_branch_time`	String	Punto nel tempo nel ramo di origine da cui è stato creato questo ramo. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0
`ttl`	String	Durata relativa da tempo a tempo reale. Se impostato, il ramo scadrà a creation_time + ttl. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0

Example

Vedere postgres_projects esempio.

postgres_endpoint

Type: Map

La risorsa postgres_endpoints consente di definire gli endpoint di calcolo lakebase in un bundle. È inoltre necessario definire i progetti Lakebase e i rami Lakebase corrispondenti.

Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0

postgres_endpoints:
  <postgres_endpoint-name>:
    <postgres_endpoint-field-name>: <postgres_endpoint-field-value>

Key	Type	Description
`autoscaling_limit_max_cu`	Number	Numero massimo di unità di calcolo. Il valore minimo è 0,5. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0
`autoscaling_limit_min_cu`	Number	Numero minimo di unità di calcolo. Il valore minimo è 0,5. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0
`disabled`	Boolean	Indica se limitare le connessioni all'endpoint di calcolo. L'abilitazione di questa opzione pianifica un'operazione di calcolo di sospensione. Un endpoint di calcolo disabilitato non può essere abilitato da una connessione o da un'azione della console. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0
`endpoint_id`	String	ID da usare per l'endpoint. Questo diventa il componente finale del nome della risorsa dell'endpoint. L'ID è obbligatorio e deve avere una lunghezza di 1-63 caratteri, iniziare con una lettera minuscola e contenere solo lettere minuscole, numeri e trattini. Ad esempio, `primary` diventa `projects/my-app/branches/development/endpoints/primary`. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0
`endpoint_type`	String	Tipo di endpoint. Un ramo può avere un solo endpoint READ_WRITE. Valori possibili: `ENDPOINT_TYPE_READ_WRITE`, `ENDPOINT_TYPE_READ_ONLY`. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0
`no_suspension`	Boolean	Se impostato su true, disabilita in modo esplicito la sospensione automatica (mai sospesa). Se specificato, deve essere impostato su true. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0
`parent`	String	Ramo in cui verrà creato questo endpoint. Formato: `projects/{project_id}/branches/{branch_id}` Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0
`settings`	Map	Raccolta di impostazioni per un endpoint di calcolo. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0
`suspend_timeout_duration`	String	Durata dell'inattività dopo la quale l'endpoint di calcolo viene sospeso automaticamente. Se specificato deve essere compreso tra 60 e 604800s (da 1 minuto a 1 settimana). Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0

Example

Vedere postgres_projects esempio.

postgres_project

Type: Map

La risorsa di progetto Postgres consente di definire progetti di database Postgres con scalabilità automatica di Lakebase in un bundle. È anche necessario definire i rami e gli endpoint di calcolo Postgres corrispondenti.

Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0

postgres_projects:
  <postgres_project-name>:
    <postgres_project-field-name>: <postgres_project-field-value>

Key	Type	Description
`default_endpoint_settings`	Map	Raccolta di impostazioni per un endpoint di calcolo. Vedere postgres_project.default_endpoint_settings. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0
`display_name`	String	Nome del progetto leggibile. La lunghezza deve essere compresa tra 1 e 256 caratteri. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0
`history_retention_duration`	String	Numero di secondi per conservare la cronologia condivisa per il ripristino temporizzato per tutti i rami del progetto. Il valore deve essere compreso tra 0 e 2592000s (fino a 30 giorni). Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0
`pg_version`	Integer	Numero di versione principale di Postgres. Le versioni supportate sono 16 e 17. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0
`project_id`	String	ID da utilizzare per il progetto. Questo diventa il componente finale del nome della risorsa del progetto. L'ID è obbligatorio e deve avere una lunghezza di 1-63 caratteri, iniziare con una lettera minuscola e contenere solo lettere minuscole, numeri e trattini. Ad esempio, `my-app` diventa `projects/my-app`. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.287.0

Esempio di

resources:
  postgres_projects:
    my_db:
      project_id: test-prod-app
      display_name: 'Production Database'
      pg_version: 17

  postgres_branches:
    main:
      parent: ${resources.postgres_projects.my_db.id}
      branch_id: main
      is_protected: false
      no_expiry: true

  postgres_endpoints:
    primary:
      parent: ${resources.postgres_branches.main.id}
      endpoint_id: primary
      endpoint_type: ENDPOINT_TYPE_READ_WRITE
      autoscaling_limit_min_cu: 0.5
      autoscaling_limit_max_cu: 4

postgres_project.default_endpoint_settings

Type: Map

Key	Type	Description
`autoscaling_limit_max_cu`	Number	Numero massimo di unità di calcolo. Il valore minimo è 0,5.
`autoscaling_limit_min_cu`	Number	Numero minimo di unità di calcolo. Il valore minimo è 0,5.
`no_suspension`	Boolean	Se impostato su true, disabilita in modo esplicito la sospensione automatica (mai sospesa). Se specificato, deve essere impostato su true.
`pg_settings`	Map	Rappresentazione non elaborata delle impostazioni di Postgres.
`suspend_timeout_duration`	String	Durata dell'inattività dopo la quale l'endpoint di calcolo viene sospeso automaticamente. Se specificato deve essere compreso tra 60 e 604800s (da 1 minuto a 1 settimana).

monitor_qualità (Catalogo Unity)

Type: Map

La risorsa quality_monitor consente di definire un monitor di tabella del Catalogo Unity . Per informazioni sui monitoraggi, vedere Profiling dei dati.

Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0

quality_monitors:
  <quality_monitor-name>:
    <quality_monitor-field-name>: <quality_monitor-field-value>

Key	Type	Description
`assets_dir`	String	Directory in cui archiviare gli asset di monitoraggio,ad esempio dashboard, tabelle delle metriche. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`baseline_table_name`	String	Nome della tabella di base da cui vengono calcolate le metriche di deriva. Anche le colonne nella tabella monitorata devono essere presenti nella tabella di base. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`custom_metrics`	Sequence	Metriche personalizzate da calcolare nella tabella monitorata. Queste metriche possono essere aggregate, metriche derivate (da metriche aggregate già calcolate) o metriche di derivazione (confronto delle metriche tra le finestre temporali). Vedere custom_metrics. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`inference_log`	Map	Configurazione per il monitoraggio dei log di inferenza. Vedere inference_log. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`latest_monitor_failure_msg`	String	Messaggio di errore più recente per un errore di monitoraggio. Si tratta di un campo di sola lettura popolato quando un monitoraggio ha esito negativo. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.264.0
`lifecycle`	Map	Contiene le impostazioni del ciclo di vita per una risorsa. Controlla il comportamento della risorsa quando viene distribuita o distrutta. Vedere ciclo di vita. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.268.0
`notifications`	Map	Impostazioni di notifica per il monitoraggio. Vedere le notifiche. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`output_schema_name`	String	Schema in cui vengono create le tabelle delle metriche di output. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`schedule`	Map	Pianificazione per l'aggiornamento automatico e l'aggiornamento delle tabelle delle metriche. Vedere programma. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`skip_builtin_dashboard`	Boolean	Se ignorare la creazione di un dashboard predefinito che riepiloga le metriche relative alla qualità dei dati. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`slicing_exprs`	Sequence	Elenco di espressioni di colonna con cui suddividere i dati per un'analisi mirata. I dati vengono raggruppati in base a ogni espressione in modo indipendente, generando una sezione separata per ogni predicato e i relativi complementi. Per le colonne con cardinalità elevata, verranno generati solo i primi 100 valori univoci basati sulla frequenza. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`snapshot`	Map	Configurazione per il monitoraggio delle tabelle snapshot. Vedere snapshot. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`table_name`	String	Nome completo della tabella. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.235.0
`time_series`	Map	Configurazione per il monitoraggio delle tabelle delle serie temporali. Vedere time_series. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`warehouse_id`	String	Argomento facoltativo per specificare il magazzino per la creazione del dashboard. Se non specificato, verrà utilizzato il primo magazzino in esecuzione. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0

quality_monitor.custom_metrics

Type: Sequence

Elenco di definizioni di metriche personalizzate.

Ogni elemento nell'elenco è :CustomMetric

Key	Type	Description
`definition`	String	Modello Jinja per un'espressione SQL che specifica come calcolare la metrica. Vedere Creare la definizione della metrica.
`input_columns`	Sequence	Un elenco di nomi di colonna nella tabella di input per cui la metrica deve essere calcolata. Può essere usato `:table` per indicare che la metrica necessita di informazioni da più colonne.
`name`	String	Nome della metrica nelle tabelle di output.
`output_data_type`	String	Formato di output della metrica personalizzata.
`type`	String	Può essere solo uno di `CUSTOM_METRIC_TYPE_AGGREGATE`, `CUSTOM_METRIC_TYPE_DERIVED`o `CUSTOM_METRIC_TYPE_DRIFT`. Le metriche `CUSTOM_METRIC_TYPE_AGGREGATE` e `CUSTOM_METRIC_TYPE_DERIVED` vengono calcolate su una singola tabella, mentre le metriche `CUSTOM_METRIC_TYPE_DRIFT` confrontano le tabelle di base e di input, o le due finestre temporali consecutive. CUSTOM_METRIC_TYPE_AGGREGATE: dipende solo dalle colonne esistenti della tua tabella CUSTOM_METRIC_TYPE_DERIVED: dipendono dalle metriche aggregate calcolate in precedenza CUSTOM_METRIC_TYPE_DRIFT: dipende da metriche aggregate o derivate calcolate precedentemente

quality_monitor.inference_log

Type: Map

Configurazione per il monitoraggio dei log di inferenza.

Key	Type	Description
`granularities`	Sequence	Granularità temporale per l'aggregazione dei log di inferenza, ad esempio `["1 day"]`.
`model_id_col`	String	Nome della colonna contenente l'ID modello.
`prediction_col`	String	Nome della colonna contenente la stima.
`timestamp_col`	String	Nome della colonna contenente il timestamp.
`problem_type`	String	Tipo di problema di Machine Learning. I valori validi includono `PROBLEM_TYPE_CLASSIFICATION`, `PROBLEM_TYPE_REGRESSION`.
`label_col`	String	Nome della colonna contenente l'etichetta (verità principale).
`prediction_proba_col`	String	Nome della colonna contenente le probabilità di stima.

monitor_qualità.notifiche

Type: Map

Impostazioni di notifica per il monitoraggio.

Key	Type	Description
`on_failure`	Map	Impostazioni di notifica quando il monitoraggio ha esito negativo. Consultare on_failure.
`on_new_classification_tag_detected`	Map	Impostazioni di notifica quando vengono rilevati nuovi tag di classificazione. Vedere on_new_classification_tag_detected.

monitor_qualità.notifiche.su_fallimento

Type: Map

Impostazioni di notifica quando il monitoraggio ha esito negativo.

Key	Type	Description
`email_addresses`	Sequence	Elenco di indirizzi di posta elettronica a cui inviare una notifica in caso di errore di monitoraggio.

quality_monitor.notifiche.su_nuova_rilevazione_tag_classificazione

Type: Map

Impostazioni di notifica quando vengono rilevati nuovi tag di classificazione.

Key	Type	Description
`email_addresses`	Sequence	Elenco di indirizzi di posta elettronica da notificare quando vengono rilevati nuovi tag di classificazione.

quality_monitor.programmazione

Type: Map

Pianificare l'aggiornamento automatico e l'aggiornamento delle tabelle delle metriche.

Key	Type	Description
`quartz_cron_expression`	String	Espressione cron che usa la sintassi Quartz. Ad esempio, `0 0 8 * * ?` viene eseguito ogni giorno alle 8:00 AM.
`timezone_id`	String	Fuso orario per la pianificazione, ad esempio `UTC`, `America/Los_Angeles`.
`pause_status`	String	Indica se il programma è sospeso. Valori validi: `PAUSED`, `UNPAUSED`.

monitor_di_qualità.istantanea

Type: Map

Configurazione per il monitoraggio delle tabelle snapshot.

monitor_di_qualità.serie_temporale

Configurazione per il monitoraggio delle tabelle delle serie temporali.

Key	Type	Description
`granularities`	Sequence	Granularità temporale per l'aggregazione dei dati delle serie temporali, ad esempio `["30 minutes"]`.
`timestamp_col`	String	Nome della colonna contenente il timestamp.

Examples

Gli esempi seguenti definiscono i monitoraggi qualitativi per i tipi di profilo InferenceLog, TimeSeries e Snapshot .

# InferenceLog profile type
resources:
  quality_monitors:
    my_quality_monitor:
      table_name: dev.mlops_schema.predictions
      output_schema_name: ${bundle.target}.mlops_schema
      assets_dir: /Workspace/Users/${workspace.current_user.userName}/databricks_lakehouse_monitoring
      inference_log:
        granularities: [1 day]
        model_id_col: model_id
        prediction_col: prediction
        label_col: price
        problem_type: PROBLEM_TYPE_REGRESSION
        timestamp_col: timestamp
      schedule:
        quartz_cron_expression: 0 0 8 * * ? # Run Every day at 8am
        timezone_id: UTC

# TimeSeries profile type
resources:
  quality_monitors:
    my_quality_monitor:
      table_name: dev.mlops_schema.predictions
      output_schema_name: ${bundle.target}.mlops_schema
      assets_dir: /Workspace/Users/${workspace.current_user.userName}/databricks_lakehouse_monitoring
      time_series:
        granularities: [30 minutes]
        timestamp_col: timestamp
      schedule:
        quartz_cron_expression: 0 0 8 * * ? # Run Every day at 8am
        timezone_id: UTC

# Snapshot profile type
resources:
  quality_monitors:
    my_quality_monitor:
      table_name: dev.mlops_schema.predictions
      output_schema_name: ${bundle.target}.mlops_schema
      assets_dir: /Workspace/Users/${workspace.current_user.userName}/databricks_lakehouse_monitoring
      snapshot: {}
      schedule:
        quartz_cron_expression: 0 0 8 * * ? # Run Every day at 8am
        timezone_id: UTC

L'esempio seguente configura un monitoraggio qualità e un processo di ripetizione del training del modello corrispondente in base al monitoraggio:

# Quality monitoring workflow
resources:
  quality_monitors:
    mlops_quality_monitor:
      table_name: ${bundle.target}.mlops_demo.predictions
      output_schema_name: ${bundle.target}.mlops_demo
      assets_dir: /Users/${workspace.current_user.userName}/databricks_lakehouse_monitoring
      inference_log:
        granularities: [1 hour]
        model_id_col: model_version
        prediction_col: prediction
        label_col: fare_amount
        problem_type: PROBLEM_TYPE_REGRESSION
        timestamp_col: inference_timestamp
      schedule:
        quartz_cron_expression: 57 0 14 * * ? # refresh monitoring metrics every day at 7 am PT
        timezone_id: UTC
  jobs:
    retraining_job:
      name: ${bundle.target}-mlops_demo-monitoring-retraining-job
      tasks:
        - task_key: monitored_metric_violation_check
          notebook_task:
            notebook_path: ../monitoring/notebooks/MonitoredMetricViolationCheck.py
            base_parameters:
              env: ${bundle.target}
              table_name_under_monitor: ${bundle.target}.mlops_demo.predictions
              metric_to_monitor: r2_score
              metric_violation_threshold: 0.7
              num_evaluation_windows: 24
              num_violation_windows: 5 # 5 out of the past 24 windows have metrics lower than threshold

        - task_key: is_metric_violated
          depends_on:
            - task_key: monitored_metric_violation_check
          condition_task:
            op: EQUAL_TO
            left: '{{tasks.monitored_metric_violation_check.values.is_metric_violated}}'
            right: 'true'

        - task_key: trigger_retraining
          depends_on:
            - task_key: is_metric_violated
              outcome: 'true'
          run_job_task:
            job_id: ${resources.jobs.model_training_job.id}

      schedule:
        quartz_cron_expression: '0 0 15 * * ?' # daily at 8 am PDT
        timezone_id: UTC

      # To get notifications, provide a list of emails to the on_failure argument.
      #
      #  email_notifications:
      #    on_failure:
      #      - someone@example.com

modello_registrato (Catalogo Unity)

Type: Map

La risorsa modello registrata consente di definire modelli in Unity Catalog. Per informazioni su Unity Catalog modelli registrati, vedere Gestire il ciclo di vita del modello in Unity Catalog.

Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0

registered_models:
  <registered_model-name>:
    <registered_model-field-name>: <registered_model-field-value>

Key	Type	Description
`aliases`	Sequence	Elenco di alias associati al modello registrato. Vedere registered_model.aliases. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.273.0
`browse_only`	Boolean	Indica se il soggetto è limitato al recupero dei metadati per l'oggetto associato tramite il privilegio BROWSE, quando include_browse è abilitato nella richiesta. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.273.0
`catalog_name`	String	Nome del catalogo in cui risiedono lo schema e il modello registrato. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`comment`	String	Commento associato al modello registrato. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`created_at`	Integer	Timestamp di creazione del modello registrato in millisecondi dall'epoca Unix. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.273.0
`created_by`	String	Identificatore dell'utente che ha creato il modello registrato. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.273.0
`full_name`	String	Nome completo a tre livelli del modello registrato. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.273.0
`grants`	Sequence	Concessioni associate al modello registrato. Vedere Grant. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`lifecycle`	Map	Contiene le impostazioni del ciclo di vita per una risorsa. Controlla il comportamento della risorsa quando viene distribuita o distrutta. Vedere ciclo di vita. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.268.0
`metastore_id`	String	Identificatore univoco del metastore. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.273.0
`name`	String	Nome del modello registrato. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`owner`	String	Identificatore dell'utente proprietario del modello registrato. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.273.0
`schema_name`	String	Nome dello schema in cui risiede il modello registrato. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`storage_location`	String	Ubicazione di archiviazione nel cloud in cui vengono conservati i file di dati del modello versione. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`updated_at`	String	Timestamp dell'ultimo aggiornamento del modello registrato in millisecondi dall'epoca Unix. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.273.0
`updated_by`	String	Identificatore dell'utente che ha aggiornato il modello registrato l'ultima volta. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.273.0

registered_model.aliases (alias del modello registrato)

Type: Sequence

Elenco di alias associati al modello registrato.

Ogni elemento nell'elenco è :Alias

Key	Type	Description
`alias_name`	String	Nome dell'alias, ad esempio 'champion' o 'latest_stable'
`catalog_name`	String	Nome del catalogo contenente la versione del modello
`id`	String	Identificatore univoco dell'alias
`model_name`	String	Nome del modello padre registrato della versione del modello, relativo allo schema padre
`schema_name`	String	Nome dello schema contenente la versione del modello, relativo al catalogo padre
`version_num`	Integer	Numero di versione intero della versione del modello a cui punta questo alias.

Example

L'esempio seguente definisce un modello registrato nel catalogo unity:

resources:
  registered_models:
    model:
      name: my_model
      catalog_name: ${bundle.target}
      schema_name: mlops_schema
      comment: Registered model in Unity Catalog for ${bundle.target} deployment target
      grants:
        - privileges:
            - EXECUTE
          principal: account users

schema (Unity Catalog)

Type: Map

Gli schemi sono supportati in Python per i bundle di asset di Databricks. Vedere databricks.bundles.schemas.

Il tipo di risorsa schema consente di definire schemi del catalogo Unity per tabelle e altri asset nei flussi di lavoro e nelle pipeline creati come parte di un bundle. Uno schema, diverso da altri tipi di risorse, presenta le limitazioni seguenti:

Il proprietario di una risorsa dello schema è sempre l'utente della distribuzione e non può essere modificato. Se run_as viene specificato nel bundle, verrà ignorato dalle operazioni sullo schema.
Per la risorsa dello schema sono disponibili solo i campi supportati dall'API di creazione dell'oggetto Schema corrispondente . Ad esempio, enable_predictive_optimization non è supportato perché è disponibile solo nell'API di aggiornamento .

Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0

schemas:
  <schema-name>:
    <schema-field-name>: <schema-field-value>

Key	Type	Description
`catalog_name`	String	Nome del catalogo principale. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`comment`	String	Descrizione di testo in formato libero fornita dall'utente. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`grants`	Sequence	Sovvenzioni associate allo schema. Vedere Grant. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`lifecycle`	Map	Contiene le impostazioni del ciclo di vita per una risorsa. Controlla il comportamento della risorsa quando viene distribuita o distrutta. Vedere ciclo di vita. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.268.0
`name`	String	Il nome dello schema, in relazione al catalogo principale. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`properties`	Map	Mappa delle proprietà chiave-valore associate allo schema. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0
`storage_root`	String	URL radice di archiviazione per le tabelle gestite all'interno dello schema. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0

Examples

L'esempio seguente definisce una pipeline con la chiave di risorsa my_pipeline che crea uno schema del catalogo Unity con la chiave my_schema come destinazione:

resources:
  pipelines:
    my_pipeline:
      name: test-pipeline-{{.unique_id}}
      libraries:
        - notebook:
            path: ../src/nb.ipynb
        - file:
            path: ../src/range.sql
      development: true
      catalog: ${resources.schemas.my_schema.catalog_name}
      target: ${resources.schemas.my_schema.id}

  schemas:
    my_schema:
      name: test-schema-{{.unique_id}}
      catalog_name: main
      comment: This schema was created by Databricks Asset Bundles.

Un mapping delle autorizzazioni di primo livello non è supportato dai pacchetti di asset di Databricks, quindi se si desidera impostare le autorizzazioni per uno schema, definire le autorizzazioni per lo schema nel mapping schemas. Per altre informazioni sulle concessioni, vedere Mostrare, concedere e revocare i privilegi.

L'esempio seguente definisce uno schema del catalogo Unity con concessioni:

resources:
  schemas:
    my_schema:
      name: test-schema
      grants:
        - principal: users
          privileges:
            - SELECT
        - principal: my_team
          privileges:
            - CAN_MANAGE
      catalog_name: main

ambito_segreto

Type: Map

La risorsa secret_scope consente di definire ambiti segreti all'interno di un pacchetto. Per informazioni sugli ambiti dei segreti, vedere Gestione dei segreti.

Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.252.0

secret_scopes:
  <secret_scope-name>:
    <secret_scope-field-name>: <secret_scope-field-value>

Key	Type	Description
`backend_type`	String	Il tipo di back-end con cui verrà creato lo scope. Se non specificato, per impostazione predefinita viene impostato su `DATABRICKS`. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.252.0
`keyvault_metadata`	Map	I metadati per l'ambito riservato sono `backend_typeAZURE_KEYVAULT`. Vedere keyvault_metadata. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.252.0
`lifecycle`	Map	Contiene le impostazioni del ciclo di vita per una risorsa. Controlla il comportamento della risorsa quando viene distribuita o distrutta. Vedere ciclo di vita. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.268.0
`name`	String	Nome dell'ambito richiesto dall'utente. I nomi di ambito sono univoci. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.252.0
`permissions`	Sequence	Autorizzazioni da applicare allo spazio segreto. Le autorizzazioni vengono gestite tramite elenchi di controllo di accesso con ambito segreto. Vedere autorizzazioni. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.252.0

secret_scope.keyvault_metadata

Type: Map

Metadati per gli ambiti segreti supportati da Azure Key Vault.

Key	Type	Description
`resource_id`	String	L'ID della risorsa Azure del Key Vault.
`dns_name`	String	Nome DNS del Key Vault di Azure.

Examples

L'esempio seguente definisce un ambito di segreti che usa un back end di un Key Vault:

resources:
  secret_scopes:
    secret_scope_azure:
      name: test-secrets-azure-backend
      backend_type: 'AZURE_KEYVAULT'
      keyvault_metadata:
        resource_id: my_azure_keyvault_id
        dns_name: my_azure_keyvault_dns_name

Nell'esempio seguente viene impostato un elenco di controllo di accesso personalizzato usando gli ambiti e le autorizzazioni dei segreti:

resources:
  secret_scopes:
    my_secret_scope:
      name: my_secret_scope
      permissions:
        - user_name: admins
          level: WRITE
        - user_name: users
          level: READ

Per un bundle di esempio che illustra come definire un ambito segreto e un processo con un'attività che la legge in un bundle, vedere il repository GitHub di esempi di bundle.

sql_warehouse

Type: Map

La risorsa SQL Warehouse consente di definire un SQL warehouse in un bundle. Per informazioni sui data warehouse, vedere Data warehousing in Azure Databricks.

Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.260.0

sql_warehouses:
  <sql-warehouse-name>:
    <sql-warehouse-field-name>: <sql-warehouse-field-value>

Key	Type	Description
`auto_stop_mins`	Integer	Il periodo di tempo in minuti in cui un magazzino SQL deve essere inattivo (ad esempio, nessuna query in esecuzione), prima che venga arrestato automaticamente. I valori validi sono 0, che indica che non viene eseguito alcun autostop, o maggiore o uguale a 10. Il valore predefinito è 120. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.260.0
`channel`	Map	Dettagli del canale. Vedere canale. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.260.0
`cluster_size`	String	Dimensioni dei cluster allocati per questo magazzino. L'aumento delle dimensioni di un cluster Spark consente di eseguire query di dimensioni maggiori. Se si vuole aumentare il numero di query simultanee, ottimizzare max_num_clusters. Per i valori supportati, vedere cluster_size. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.260.0
`creator_name`	String	Nome dell'utente che ha creato il magazzino. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.260.0
`enable_photon`	Boolean	Indica se il magazzino deve usare cluster ottimizzati per Photon. Il valore predefinito è falso. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.260.0
`enable_serverless_compute`	Boolean	Se il magazzino deve utilizzare l'elaborazione serverless. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.260.0
`instance_profile_arn`	String	Deprecated. Profilo di istanza usato per passare il ruolo IAM al cluster. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.260.0
`lifecycle`	Map	Contiene le impostazioni del ciclo di vita per una risorsa. Controlla il comportamento della risorsa quando viene distribuita o distrutta. Vedere ciclo di vita. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.268.0
`max_num_clusters`	Integer	Il numero massimo di cluster che l'autoscaler creerà per gestire le query concorrenti. I valori devono essere minori o uguali a 30 e maggiori o uguali a `min_num_clusters`. L'impostazione predefinita è min_clusters se non impostato. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.260.0
`min_num_clusters`	Integer	Il numero minimo di cluster disponibili che verranno mantenuti per questo SQL Warehouse. L'aumento garantirà che un numero maggiore di cluster sia sempre in esecuzione e quindi possa ridurre il tempo di avvio a freddo per le nuove query. Questo comportamento è simile ai core riservati e revocabili in un gestore risorse. I valori devono essere maggiori di 0 e minori o uguali a min(max_num_clusters, 30). Il valore predefinito è 1. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.260.0
`name`	String	Nome logico per il cluster. Il nome deve essere univoco all'interno di un'organizzazione e meno di 100 caratteri. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.260.0
`permissions`	Sequence	Autorizzazioni da applicare al magazzino. Vedere autorizzazioni. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.260.0
`spot_instance_policy`	String	Indica se usare istanze spot. I valori validi sono `POLICY_UNSPECIFIED`, `COST_OPTIMIZED`, `RELIABILITY_OPTIMIZED`. Il valore predefinito è `COST_OPTIMIZED`. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.260.0
`tags`	Map	Set di coppie chiave-valore che verranno contrassegnate su tutte le risorse (ad esempio, istanze AWS e volumi EBS) associate a questo SQL warehouse. Il numero di tag deve essere minore di 45. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.260.0
`warehouse_type`	String	Tipo di magazzino, `PRO` o `CLASSIC`. Se si vuole usare il calcolo serverless, impostare questo campo su `PRO` e impostare anche il campo `enable_serverless_compute` su `true`. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.260.0

sql_warehouse.channel

Type: Map

Configurazione del canale per SQL Warehouse.

Key	Type	Description
`name`	String	Nome del canale. I valori validi includono `CHANNEL_NAME_CURRENT`, `CHANNEL_NAME_PREVIEW`, `CHANNEL_NAME_CUSTOM`.
`dbsql_version`	String	Versione di DBSQL per i canali personalizzati.

Example

L'esempio seguente definisce un'istanza di SQL Warehouse:

resources:
  sql_warehouses:
    my_sql_warehouse:
      name: my_sql_warehouse
      cluster_size: X-Large
      enable_serverless_compute: true
      max_num_clusters: 3
      min_num_clusters: 1
      auto_stop_mins: 60
      warehouse_type: PRO

tabella_database_sincronizzata

Type: Map

La risorsa tabella di database sincronizzata consente di definire tabelle di database Lakebase in un bundle.

Per informazioni sulle tabelle di database sincronizzate, vedere Che cos'è un'istanza del database?

Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.266.0

synced_database_tables:
  <synced_database_table-name>:
    <synced_database_table-field-name>: <synced_database_table-field-value>

Key	Type	Description
`database_instance_name`	String	Nome dell'istanza del database di destinazione. Questa operazione è necessaria quando si creano tabelle di database sincronizzate in cataloghi standard. Questa opzione è facoltativa quando si creano tabelle di database sincronizzate nei cataloghi registrati. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.266.0
`lifecycle`	Map	Contiene le impostazioni del ciclo di vita per una risorsa. Controlla il comportamento della risorsa quando viene distribuita o distrutta. Vedere ciclo di vita. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.268.0
`logical_database_name`	String	Nome dell'oggetto di database Postgres di destinazione (database logico) per questa tabella. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.266.0
`name`	String	Nome completo della tabella, nel formato `catalog.schema.table`. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.266.0
`spec`	Map	Specifica della tabella di database. Vedere la specifica della tabella di database sincronizzata. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.266.0

tabella_database_sincronizzata.spec

Type: Map

Specifica della tabella di database.

Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.266.0

Key	Type	Description
`create_database_objects_if_missing`	Boolean	Indica se creare il database logico e le risorse dello schema della tabella sincronizzata, se non esistono già.
`existing_pipeline_id`	String	L'ID per una pipeline esistente. Se questa opzione è impostata, la tabella sincronizzata verrà inserita nella pipeline esistente a cui si fa riferimento. In questo modo si evita di creare una nuova pipeline e di condividere le risorse di calcolo esistenti. In questo caso, l'oggetto `scheduling_policy` di questa tabella sincronizzata deve corrispondere ai criteri di pianificazione della pipeline esistente. Al massimo uno di `existing_pipeline_id` e `new_pipeline_spec` deve essere definito.
`new_pipeline_spec`	Map	La specifica per una nuova conduttura. Vedere new_pipeline_spec. Al massimo uno di `existing_pipeline_id` e `new_pipeline_spec` deve essere definito.
`primary_key_columns`	Sequence	Elenco dei nomi di colonna che costituiscono la chiave primaria.
`scheduling_policy`	String	Criteri di pianificazione per la sincronizzazione. I valori validi includono `SNAPSHOT`, `CONTINUOUS`.
`source_table_full_name`	String	Nome completo della tabella di origine nel formato `catalog.schema.table`.
`timeseries_key`	String	Chiave della serie temporale per deduplicare le righe con la stessa chiave primaria.

tabella_di_database_sincronizzata.spec.nuova_pipeline_specifica

Type: Map

La specifica per una nuova pipeline utilizzata dalla tabella del database sincronizzato.

Key	Type	Description
`budget_policy_id`	String	L'ID della politica di budget da impostare nella pipeline appena creata.
`storage_catalog`	String	Catalogo per la pipeline in cui archiviare file intermedi, ad esempio checkpoint e registri eventi. Deve trattarsi di un catalogo standard in cui l'utente dispone delle autorizzazioni per creare tabelle Delta.
`storage_schema`	String	Lo schema della pipeline per archiviare file intermedi, come checkpoint e registri di eventi. Deve trovarsi nel catalogo standard in cui l'utente dispone delle autorizzazioni per creare tabelle Delta.

Examples

Nell'esempio seguente viene definita una tabella di database sincronizzata all'interno di un catalogo di database corrispondente:

resources:
  database_instances:
    my_instance:
      name: my-instance
      capacity: CU_1
  database_catalogs:
    my_catalog:
      database_instance_name: my-instance
      database_name: 'my_database'
      name: my_catalog
      create_database_if_not_exists: true
  synced_database_tables:
    my_synced_table:
      name: ${resources.database_catalogs.my_catalog.name}.${resources.database_catalogs.my_catalog.database_name}.my_destination_table
      database_instance_name: ${resources.database_catalogs.my_catalog.database_instance_name}
      logical_database_name: ${resources.database_catalogs.my_catalog.database_name}
      spec:
        source_table_full_name: 'my_source_table'
        scheduling_policy: SNAPSHOT
        primary_key_columns:
          - my_pk_column
        new_pipeline_spec:
          storage_catalog: 'my_delta_catalog'
          storage_schema: 'my_delta_schema'

Nell'esempio seguente viene definita una tabella di database sincronizzata all'interno di un catalogo standard:

resources:
  synced_database_tables:
    my_synced_table:
      name: 'my_standard_catalog.public.synced_table'
      # database_instance_name is required for synced tables created in standard catalogs.
      database_instance_name: 'my-database-instance'
      # logical_database_name is required for synced tables created in standard catalogs:
      logical_database_name: ${resources.database_catalogs.my_catalog.database_name}
      spec:
        source_table_full_name: 'source_catalog.schema.table'
        scheduling_policy: SNAPSHOT
        primary_key_columns:
          - my_pk_column
        create_database_objects_if_missing: true
        new_pipeline_spec:
          storage_catalog: 'my_delta_catalog'
          storage_schema: 'my_delta_schema'

In questo esempio viene creata una tabella di database sincronizzata e viene personalizzata la pianificazione della pipeline. Si presuppone che tu abbia già:

Istanza di database denominata my-database-instance
Il catalogo standard denominato my_standard_catalog
Schema nel catalogo standard denominato default
Tabella delta di origine denominata source_delta.schema.customer con la chiave primaria c_custkey

resources:
  synced_database_tables:
    my_synced_table:
      name: 'my_standard_catalog.default.my_synced_table'
      database_instance_name: 'my-database-instance'
      logical_database_name: 'test_db'
      spec:
        source_table_full_name: 'source_delta.schema.customer'
        scheduling_policy: SNAPSHOT
        primary_key_columns:
          - c_custkey
        create_database_objects_if_missing: true
        new_pipeline_spec:
          storage_catalog: 'source_delta'
          storage_schema: 'schema'

  jobs:
    sync_pipeline_schedule_job:
      name: sync_pipeline_schedule_job
      description: 'Job to schedule synced database table pipeline.'
      tasks:
        - task_key: synced-table-pipeline
          pipeline_task:
            pipeline_id: ${resources.synced_database_tables.my_synced_table.data_synchronization_status.pipeline_id}
      schedule:
        quartz_cron_expression: '0 0 0 * * ?'

volume (Unity Catalog)

Type: Map

I volumi sono supportati in Python per gli Asset Bundles di Databricks. Vedere databricks.bundles.volumes.

Il tipo di risorsa volume consente di definire e creare volumi di Unity Catalog come parte di un pacchetto. Quando si distribuisce un bundle con un volume definito, tenere presente che:

Non è possibile fare riferimento a un volume nel artifact_path per il bundle fino a che non è presente nello spazio di lavoro. Di conseguenza, se si vuole utilizzare i Databricks Asset Bundle per creare il volume, è necessario definire prima il volume nel bundle, distribuirlo per creare il volume, e quindi farvi riferimento in artifact_path nelle distribuzioni successive.
I volumi nel bundle non vengono anteposti al prefisso dev_${workspace.current_user.short_name} quando la destinazione di distribuzione ha mode: development configurata. Tuttavia, è possibile configurare manualmente questo prefisso. Vedere impostazioni predefinite personalizzate.

Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.236.0

volumes:
  <volume-name>:
    <volume-field-name>: <volume-field-value>

Key	Type	Description
`catalog_name`	String	Nome del catalogo dello schema e del volume. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.236.0
`comment`	String	Commento associato al volume. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.236.0
`grants`	Sequence	Sovvenzioni associate al volume. Vedere Grant. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.236.0
`lifecycle`	Map	Contiene le impostazioni del ciclo di vita per una risorsa. Controlla il comportamento della risorsa quando viene distribuita o distrutta. Vedere ciclo di vita. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.268.0
`name`	String	Nome del volume. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.236.0
`schema_name`	String	Nome dello schema in cui si trova il volume. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.236.0
`storage_location`	String	Posizione di archiviazione nel cloud. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.236.0
`volume_type`	String	Tipo di volume, `EXTERNAL` o `MANAGED`. Un volume esterno si trova nella posizione esterna specificata. Un volume gestito si trova nel percorso predefinito specificato dallo schema padre, dal catalogo padre o dal metastore. Vedere Volumi gestiti e esterni.

Example

L'esempio seguente crea un volume del catalogo Unity con la chiave my_volume_id:

resources:
  volumes:
    my_volume_id:
      catalog_name: main
      name: my_volume
      schema_name: my_schema

Per un esempio di bundle che esegue un'operazione che scrive su un file nel volume di Unity Catalog, consultare il repository GitHub bundle-examples .

Oggetti comuni

sovvenzione

Type: Map

Definisce il principal e i privilegi da concedere a tale principal. Per altre informazioni sulle concessioni, vedere Mostrare, concedere e revocare i privilegi.

Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.229.0

Key	Type	Description
`principal`	String	Nome dell'entità a cui verranno concessi privilegi. Può trattarsi di un utente, un gruppo o un'entità servizio.
`privileges`	Sequence	Privilegi da concedere all'entità specificata. I valori validi dipendono dal tipo di risorsa , ad esempio , `SELECT`, `MODIFYCREATE`, `USAGEREAD_FILESWRITE_FILESEXECUTE`. `ALL_PRIVILEGES`

Example

L'esempio seguente definisce uno schema del catalogo Unity con concessioni:

resources:
  schemas:
    my_schema:
      name: test-schema
      grants:
        - principal: users
          privileges:
            - SELECT
        - principal: my_team
          privileges:
            - CAN_MANAGE
      catalog_name: main

ciclo di vita

Type: Map

Contiene le impostazioni del ciclo di vita per una risorsa. Controlla il comportamento della risorsa quando viene distribuita o distrutta.

Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.268.0

Key	Type	Description
`prevent_destroy`	Boolean	Impostazione del ciclo di vita per impedire che la risorsa venga eliminata definitivamente. Aggiunta nell'interfaccia della riga di comando di Databricks versione 0.268.0

Valutazione

Questa pagina ti è stata utile?

Last updated on 2026-02-14

Condividi tramite

Risorse dei pacchetti di risorse Databricks

Risorse disponibili

vigile

alert.valutazione

avviso.valutazione.notifica

allerta.valutazione.notifica.sottoscrizioni

allerta.valutazione.sorgente

soglia.valutazione.allerta

avviso.valutazione.soglia.valore

avviso.programmazione

Examples

applicazione

app.config

app.risorse

database delle risorse dell'app

app.resources.experiment

app.resources.genie_space

app.resources.job

app.resources.secret

app.risorse.punto_di_servizio

app.resources.sql_warehouse

app.resources.uc_securable

Examples

catalogs

Example

cluster

cluster.autoscale

cluster.aws_attributes

cluster.azure_attributes

cluster.azure_attributes.log_analytics_info

cluster.gcp_attributes

cluster.cluster_log_conf

cluster.cluster_log_conf.dbfs

cluster.cluster_log_conf.s3

cluster.cluster_log_conf.volumi

cluster.docker_image

cluster.docker_image.autenticazione_di_base

cluster.init_scripts

cluster.init_scripts.dbfs

cluster.init_scripts.spazio di lavoro

cluster.init_scripts.s3

cluster.init_scripts.abfss

cluster.init_scripts.gcs

cluster.init_scripts.volumes

cluster.workload_type (tipo di carico di lavoro)

cluster.tipo_di_carico.clienti

Examples

cruscotto

Example

database_catalog

Example

database_instance

database_instance.parent_instance_ref

Example

esperimento

Example

lavoro

job.continuo

processo di implementazione (job.deployment)

processo.notifiche_email

job.environments

job.environments.spec

job.git_source

job.git_source.git_snapshot

salute.lavoro

regole.di.salute.del.lavoro

job.job_clusters

job.impostazioni_di_notifica

job.queue

programma.job.schedulazione

compito.attivatore

processo.attivare.arrivo_file

job.trigger.table

processo.attivare.aggiorna_tabella

processo.attivatore.periodico

job.notifiche_webhook

Examples

modello (obsoleto)

endpoint_servizio_modello