Recursos de Conjuntos de recursos de Databricks

Databricks Asset Bundles permite especificar información sobre los recursos de Azure Databricks utilizados por el paquete en el mapeo de resources en la configuración del paquete. Consulte asignación de recursos y referencia de clave de recursos.

En esta página se proporciona una referencia de configuración para todos los tipos de recursos admitidos para agrupaciones y se proporcionan detalles y un ejemplo para cada tipo admitido. Para obtener ejemplos adicionales, consulte Ejemplos de configuración de agrupación.

El esquema JSON para agrupaciones que se usa para validar la configuración de YAML está en el repositorio de GitHub de la CLI de Databricks.

Tip

Para generar YAML para cualquier recurso existente, use el comando databricks bundle generate. Consulte generación de conjuntos de databricks.

Recursos compatibles

En la tabla siguiente se enumeran los tipos de recursos admitidos para agrupaciones (YAML y Python, si procede). Algunos recursos se pueden crear definiendo en una agrupación e implementando la agrupación, y algunos recursos solo se pueden crear haciendo referencia a un recurso existente para incluirlo en la agrupación.

La configuración de recursos define un objeto de Databricks que corresponde a un objeto de API REST de Databricks . Los campos de solicitud de creación admitidos del objeto de LA API REST, expresados como YAML, son las claves admitidas del recurso. Los vínculos a la documentación del objeto correspondiente de cada recurso se encuentran en la tabla siguiente.

Tip

El comando databricks bundle validate devuelve advertencias si se encuentran propiedades de recursos desconocidas en los archivos de configuración de agrupación.

Resource	Compatibilidad con Python	Objeto de API REST correspondiente
alert		Objeto de alerta
app		Objeto de aplicación
cluster		Objeto de conglomerado
dashboard		Objeto de panel
database_catalog		Objeto de catálogo de base de datos
database_instance		Objeto de instancia de base de datos
experiment		objeto del experimento
job	Trabajos	Job (objeto)
el modelo (heredado)		Objeto del Modelo (heredado)
model_serving_endpoint		modelo de servicio del objeto de punto de conexión
pipeline	Pipelines	Pipeline (objeto)
quality_monitor		Objeto monitor de calidad
registered_model (Catálogo de Unity)		Objeto de modelo registrado
esquema (Unity Catalog)	Schemas	Schema (objeto)
secret_scope		Objeto de ámbito secreto
sql_warehouse		Objeto de almacenamiento de SQL
tabla_de_base_de_datos_sincronizada		Objeto de tabla de base de datos sincronizada
volumen (catálogo de Unity)	Volúmenes	Volume (objeto)

alerta

Type: Map

El recurso de alerta define una alerta de SQL (v2).

alerts:
  <alert-name>:
    <alert-field-name>: <alert-field-value>

Key	Type	Description
`custom_description`	String	Optional. Descripción personalizada de la alerta. Se admite la plantilla de mustache.
`custom_summary`	String	Optional. Resumen personalizado de la alerta. Admite la plantilla Mustache.
`display_name`	String	Obligatorio. Nombre visible de la alerta, por ejemplo, `Example alert`.
`evaluation`	Map	Obligatorio. Configuración de evaluación de la alerta. Consulte alert.evaluation.
`parent_path`	String	Optional. Ruta del área de trabajo de la carpeta que contiene la alerta. Solo se puede establecer en la creación y no se puede actualizar. Ejemplo: `/Users/someone@example.com`.
`permissions`	Sequence	Permisos de alerta. Consulte los permisos.
`query_text`	String	Obligatorio. Texto de la consulta que se va a ejecutar, por ejemplo, `SELECT 1`.
`run_as`	Map	Optional. Especifica la identidad que se usará para ejecutar la alerta. Este campo permite configurar alertas para que se ejecuten como un usuario o una entidad de servicio específicos. Consulte run_as. Para la identidad de usuario: establezca `user_name` en el correo electrónico de un usuario de área de trabajo activa. Los usuarios solo pueden establecerlo en su propio correo electrónico. Para la entidad de servicio: establezca `service_principal_name` en el identificador de aplicación. Requiere el rol "servicePrincipal" o "user". Si no se especifica, la alerta se ejecutará como el usuario de solicitud.
`schedule`	Map	Obligatorio. Configuración de programación de la alerta. Consulte alert.schedule.
`warehouse_id`	String	Obligatorio. Identificador del SQL Warehouse asociado a la alerta, por ejemplo, `a7066a8ef796be84`.

evaluación de alertas

Type: Map

Configuración de evaluación de la alerta.

Key	Type	Description
`comparison_operator`	String	Operador utilizado para la comparación en la evaluación de alertas.
`empty_result_state`	String	Estado de alerta si el resultado está vacío. Evite establecer este campo en `UNKNOWN` porque se planea que el estado `UNKNOWN` esté en desuso.
`notification`	Map	El usuario o cualquier otro destino al que se notificará cuando se active la alerta. Consulte alert.evaluation.notification.
`source`	Map	Columna de origen del resultado que se va a usar para evaluar la alerta. Consulte alert.evaluation.source.
`threshold`	Map	Umbral que se va a usar para la evaluación de alertas. Puede ser una columna o un valor. Consulte alert.evaluation.threshold.

alert.evaluation.notification

Type: Map

El usuario u otro destino que se notificará cuando se active la alerta.

Key	Type	Description
`notify_on_ok`	Boolean	Optional. Si se debe notificar a los suscriptores de alerta cuando la alerta vuelve a la normalidad.
`retrigger_seconds`	Integer	Optional. Número de segundos que una alerta espera después de desencadenarse antes de poder enviar otra notificación. Si se configura en `0` o si se omite, la alerta no enviará más notificaciones después del primer detonante. Establecer este valor en `1` permite que la alerta envíe una notificación en cada evaluación en la que se cumpla la condición, haciendo que siempre se reactive para fines de notificación.
`subscriptions`	Sequence	Optional. Lista desordenada de suscripciones de notificación. Consulte alert.evaluation.notification.subscriptions.

alert.evaluation.notification.subscriptions

Type: Sequence

Una lista desordenada de suscripciones de notificación.

Cada elemento de la lista es un AlertSubscription:

Key	Type	Description
`destination_id`	String	Identificador del destino de la notificación.
`user_email`	String	Dirección de correo electrónico del usuario para notificar.

alert.evaluation.source

Type: Map

Columna de origen del resultado que se va a usar para evaluar la alerta.

Key	Type	Description
`aggregation`	String	Método de agregación que se va a aplicar a la columna de origen. Los valores válidos son `SUM`, `COUNT`, `COUNT_DISTINCT`, `AVGMEDIAN`, , `MIN`, , , `MAXSTDDEV`
`display`	String	Nombre visible de la columna de origen.
`name`	String	Nombre de la columna de origen del resultado de la consulta.

umbral.evaluación.alerta

Type: Map

Umbral que se va a usar para la evaluación de alertas, puede ser una columna o un valor.

Key	Type	Description
`column`	Map	Referencia de columna que se va a usar como umbral. Consulte alert.evaluation.source.
`value`	Map	Valor literal que se va a usar como umbral. Consulte alert.evaluation.threshold.value.

alert.evaluación.umbral.valor

Type: Map

Valor literal que se va a usar como umbral. Especifique uno de los siguientes tipos de valor.

Key	Type	Description
`bool_value`	Boolean	Optional. Valor booleano para el umbral, por ejemplo, `true`.
`double_value`	Double	Optional. Valor numérico para el umbral, por ejemplo, `1.25`.
`string_value`	String	Optional. Valor de cadena para el umbral, por ejemplo, `test`.

alert.schedule

Type: Map

Configuración de programación de la alerta.

Key	Type	Description
`pause_status`	String	Optional. Indica si esta programación está en pausa o no. Valores válidos: `UNPAUSED`, `PAUSED`. Predeterminado: `UNPAUSED`.
`quartz_cron_schedule`	String	Obligatorio. Expresión cron usando la sintaxis de Quartz que especifica el calendario para esta tubería. El formato de cuarzo se describe en formato de programador de cuarzo.
`timezone_id`	String	Obligatorio. Identificador de zona horaria de Java. La programación se resolverá con esta zona horaria. Esto se combinará con el `quartz_cron_schedule` para determinar el horario. Consulte SET TIME ZONE para obtener más información.

Examples

La siguiente configuración de ejemplo define una alerta con una evaluación sencilla:

resources:
  alerts:
    my_alert:
      display_name: my_alert
      evaluation:
        comparison_operator: EQUAL
        source:
          name: '1'
        threshold:
          value:
            double_value: 2
      query_text: select 2
      schedule:
        quartz_cron_schedule: '44 19 */1 * * ?'
        timezone_id: Europe/Amsterdam
      warehouse_id: 799f096837fzzzz4

La siguiente configuración de ejemplo define una alerta con permisos que evalúa el uso de la agregación y envía notificaciones:

resources:
  alerts:
    my_alert:
      permissions:
        - level: CAN_MANAGE
          user_name: someone@example.com
      custom_summary: 'My alert'
      display_name: 'My alert'
      evaluation:
        comparison_operator: 'EQUAL'
        notification:
          notify_on_ok: false
          retrigger_seconds: 1
        source:
          aggregation: 'MAX'
          display: '1'
          name: '1'
        threshold:
          value:
            double_value: 2
      query_text: 'select 2'
      schedule:
        pause_status: 'UNPAUSED'
        quartz_cron_schedule: '44 19 */1 * * ?'
        timezone_id: 'Europe/Amsterdam'
      warehouse_id: 799f096837fzzzz4

aplicación

Type: Map

El recurso de aplicación define una Aplicación de Databricks. Para obtener información sobre Las aplicaciones de Databricks, consulte Aplicaciones de Databricks.

Para agregar una aplicación, especifique la configuración para definir la aplicación, incluida la source_code_path necesaria.

Tip

Puede inicializar una agrupación con una aplicación Streamlit Databricks mediante el siguiente comando:

databricks bundle init https://github.com/databricks/bundle-examples --template-dir contrib/templates/streamlit-app

apps:
  <app-name>:
    <app-field-name>: <app-field-value>

Key	Type	Description
`budget_policy_id`	String	Identificador de la política de presupuesto de la aplicación.
`compute_size`	String	Tamaño de cómputo de la aplicación. Los valores válidos son `MEDIUM` o `LARGE` pero dependen de la configuración del área de trabajo.
`config`	Map	Deprecated. En su lugar, defina los comandos de configuración de la aplicación y las variables de entorno en el `app.yaml` archivo. Consulte Configuración de una aplicación de Databricks.
`description`	String	Descripción de la aplicación.
`lifecycle`	Map	Comportamiento del recurso cuando se implementa o se destruye. Consulte ciclo de vida.
`name`	String	Nombre de la aplicación. El nombre debe contener únicamente caracteres alfanuméricos en minúsculas y guiones. Debe ser único dentro del área de trabajo.
`permissions`	Sequence	Permisos de la aplicación. Consulte los permisos.
`resources`	Sequence	Recursos de proceso clásico de la aplicación. Consulte app.resources.
`source_code_path`	String	Ruta local `./app` del código fuente de la aplicación Databricks.
`user_api_scopes`	Sequence	Ámbitos de la API de usuario.

app.recursos

Type: Sequence

Lista de recursos de proceso para la aplicación.

Cada elemento de la lista es un AppResource:

Key	Type	Description
`description`	String	Descripción del recurso de la aplicación.
`database`	Map	Configuración que identifica la base de datos de Lakebase que se va a usar. Consulte app.resources.database.
`genie_space`	Map	Configuración que identifica el espacio de Genie que se va a usar. Consulte app.resources.genie_space.
`job`	Map	Configuración que identifica el recurso de trabajo que se va a usar. Consulte app.resources.job.
`name`	String	Nombre del recurso de la aplicación.
`secret`	Map	Configuración que identifica el recurso secreto de Azure Databricks que se va a usar. Consulte app.resources.secret.
`serving_endpoint`	Map	Configuración que identifica el modelo que sirve el recurso de punto de conexión que se va a usar. Consulte app.resources.serving_endpoint.
`sql_warehouse`	Map	Configuración que identifica el recurso de SQL Warehouse que se va a usar. Consulte app.resources.sql_warehouse.
`uc_securable`	Map	Configuración que identifica el volumen del catálogo de Unity que se va a usar. Consulte app.resources.uc_securable.

app.recursos.base_de_datos

Type: Map

Configuración que identifica la base de datos de Lakebase que se va a usar.

Key	Type	Description
`database_name`	String	El nombre de la base de datos.
`instance_name`	String	Nombre de la instancia de base de datos.
`permission`	String	Nivel de permiso de la base de datos. Los valores válidos son `CAN_CONNECT_AND_CREATE`.

app.resources.genie_space

Type: Map

Configuración que identifica el espacio de Genie que se va a usar.

Key	Type	Description
`name`	String	Nombre del espacio de Genie.
`permission`	String	Nivel de permiso para el espacio. Los valores válidos incluyen `CAN_VIEW`, `CAN_EDIT`, `CAN_MANAGE`, `CAN_RUN`.
`space_id`	String	Identificador del espacio de Genie, por ejemplo `550e8400-e29b-41d4-a716-999955440000`.

app.resources.job

Type: Map

Configuración que identifica el recurso de trabajo que se va a usar.

Key	Type	Description
`id`	String	Id. del trabajo.
`permission`	String	Nivel de autorización para el puesto. Los valores válidos incluyen `CAN_VIEW`, `CAN_MANAGE_RUN`, `CAN_MANAGE`, `IS_OWNER`.

app.recursos.secreto

Type: Map

Configuración que identifica el recurso secreto de Azure Databricks que se va a usar.

Key	Type	Description
`key`	String	La clave del secreto para otorgar permiso.
`permission`	String	Nivel de permiso para un secreto. Los valores válidos incluyen `READ`, `WRITE`, `MANAGE`.
`scope`	String	Nombre del objetivo secreto.

app.resources.punto_de_servicio

Type: Map

Configuración que identifica el modelo que sirve el recurso de punto de conexión que se va a usar.

Key	Type	Description
`name`	String	Nombre del punto de conexión de servicio.
`permission`	String	Nivel de permiso del endpoint de servicio. Los valores válidos incluyen `CAN_QUERY`, `CAN_MANAGE`, `CAN_VIEW`.

app.resources.sql_warehouse

Type: Map

Configuración que identifica el almacenamiento de SQL que se va a usar.

Key	Type	Description
`id`	String	El identificador del SQL Warehouse.
`permission`	String	Nivel de permiso para SQL Warehouse. Los valores válidos incluyen `CAN_USE`, `CAN_MANAGE`, `IS_OWNER`.

app.resources.uc_securable

Type: Map

Configuración que identifica el volumen del catálogo de Unity que se va a usar.

Key	Type	Description
`permission`	String	Nivel de permiso para el catálogo de Unity protegible. Los valores válidos son `READ_VOLUME` y `WRITE_VOLUME`.
`securable_full_name`	String	Nombre completo del catálogo de Unity protegible en el formato `catalog.schema.volume`.
`securable_type`	String	El tipo de elemento securizable del catálogo de Unity. Los valores válidos son `VOLUME`.

Example

En el ejemplo siguiente se crea una aplicación denominada my_app que administra un trabajo creado por la agrupación:

resources:
  jobs:
    # Define a job in the bundle
    hello_world:
      name: hello_world
      tasks:
        - task_key: task
          spark_python_task:
            python_file: ../src/main.py
          environment_key: default

      environments:
        - environment_key: default
          spec:
            environment_version: '2'

  # Define an app that manages the job in the bundle
  apps:
    job_manager:
      name: 'job_manager_app'
      description: 'An app which manages a job created by this bundle'

      # The location of the source code for the app
      source_code_path: ../src/app

      # The resources in the bundle which this app has access to. This binds the resource in the app with the bundle resource.
      resources:
        - name: 'app-job'
          job:
            id: ${resources.jobs.hello_world.id}
            permission: 'CAN_MANAGE_RUN'

La correspondiente app.yaml define la configuración para ejecutar la aplicación:

command:
  - flask
  - --app
  - app
  - run
  - --debug
env:
  - name: JOB_ID
    valueFrom: 'app-job'

Para obtener la agrupación de ejemplo de aplicación de Databricks completa, consulte el Repositorio de GitHub de bundle-examples.

clúster

Type: Map

El recurso de clúster define un clúster.

clusters:
  <cluster-name>:
    <cluster-field-name>: <cluster-field-value>

Key	Type	Description
`apply_policy_default_values`	Boolean	Cuando se establece en true, los valores fijos y predeterminados de la directiva se usarán para los campos que se omiten. Cuando se establece en false, solo se aplicarán los valores fijos de la directiva.
`autoscale`	Map	Parámetros necesarios para escalar y reducir verticalmente automáticamente los clústeres en función de la carga. Consulte escalado automático.
`autotermination_minutes`	Integer	Finaliza automáticamente el clúster tras estar inactivo durante el tiempo especificado en minutos. Si no se establece, este clúster no se terminará automáticamente. Si se especifica, el umbral debe estar comprendido entre 10 y 10000 minutos. Los usuarios también pueden establecer este valor en 0 para deshabilitar explícitamente la terminación automática.
`aws_attributes`	Map	Atributos relacionados con clústeres que se ejecutan en Amazon Web Services. Si no se especifica en la creación del clúster, se usará un conjunto de valores predeterminados. Consulte aws_attributes.
`azure_attributes`	Map	Atributos relacionados con clústeres que se ejecutan en Microsoft Azure. Si no se especifica en la creación del clúster, se usará un conjunto de valores predeterminados. Consulte azure_attributes.
`cluster_log_conf`	Map	Configuración para entregar registros de Spark a un destino de almacenamiento a largo plazo. Consulte cluster_log_conf.
`cluster_name`	String	Nombre del clúster solicitado por el usuario. Esto no tiene que ser único. Si no se especifica en la creación, el nombre del clúster será una cadena vacía.
`custom_tags`	Map	Etiquetas adicionales para los recursos del clúster. Databricks etiquetará todos los recursos del clúster (por ejemplo, instancias de AWS y volúmenes EBS) con estas etiquetas además de `default_tags`.
`data_security_mode`	String	Modelo de gobernanza de datos que se va a usar al acceder a datos desde un clúster. Los valores válidos incluyen `NONE`, `SINGLE_USER`, `USER_ISOLATIONLEGACY_SINGLE_USER`, , `LEGACY_TABLE_ACL`, . `LEGACY_PASSTHROUGH`
`docker_image`	Map	Imagen personalizada de Docker. Consulte docker_image.
`driver_instance_pool_id`	String	Identificador opcional del grupo de instancias para el controlador al que pertenece el clúster. El clúster de grupo utiliza el grupo de instancias con el identificador (instance_pool_id) si el grupo de controladores no está asignado.
`driver_node_type_id`	String	Tipo de nodo del controlador de Spark. Tenga en cuenta que este campo es opcional; si no se establece, el tipo de nodo de controlador se establecerá como el mismo valor `node_type_id` que se definió anteriormente. Este campo, junto con node_type_id, no debe establecerse si se establece virtual_cluster_size. Si se especifican driver_node_type_id, node_type_id y virtual_cluster_size, driver_node_type_id y node_type_id tienen prioridad.
`enable_elastic_disk`	Boolean	Escalado automático de almacenamiento local: cuando está habilitado, este clúster adquirirá dinámicamente espacio en disco adicional cuando sus trabajos de Spark se estén ejecutando con poco espacio en disco. Esta característica requiere permisos específicos de AWS para funcionar correctamente; consulte la Guía del usuario para obtener más detalles.
`enable_local_disk_encryption`	Boolean	Si se habilita LUKS en los discos locales de las máquinas virtuales del clúster
`gcp_attributes`	Map	Atributos relacionados con clústeres que se ejecutan en Google Cloud Platform. Si no se especifica en la creación del clúster, se usará un conjunto de valores predeterminados. Consulte gcp_attributes.
`init_scripts`	Sequence	Configuración para almacenar scripts de inicialización. Se puede especificar cualquier número de destinos. Los scripts se ejecutan de manera secuencial en el orden proporcionado. Consulte init_scripts.
`instance_pool_id`	String	Identificador opcional del grupo de instancias al que pertenece el clúster.
`is_single_node`	Boolean	Este campo solo se puede usar cuando `kind = CLASSIC_PREVIEW`. Cuando se establece en true, Databricks establecerá automáticamente un solo nodo relacionado con `custom_tags`, `spark_conf`y `num_workers`
`kind`	String	El tipo de proceso descrito por esta especificación de proceso.
`node_type_id`	String	Este campo codifica, mediante un solo valor, los recursos disponibles para cada uno de los nodos de Spark de este clúster. Por ejemplo, los nodos de Spark se pueden aprovisionar y optimizar para cargas de trabajo intensivas de memoria o proceso. Se puede recuperar una lista de los tipos de nodo disponibles mediante la llamada API :method:clusters/listNodeTypes.
`num_workers`	Integer	Número de nodos de trabajo que debería tener este clúster. Un clúster tiene un Spark Driver y `num_workers` ejecutores para un total de `num_workers` + 1 nodos de Spark.
`permissions`	Sequence	Permisos del clúster. Consulte los permisos.
`policy_id`	String	Identificador de la directiva de clúster que se usa para crear el clúster si es aplicable.
`runtime_engine`	String	Determina el motor de ejecución del clúster, ya sea `STANDARD` o `PHOTON`.
`single_user_name`	String	Nombre de usuario único si data_security_mode es `SINGLE_USER`
`spark_conf`	Map	Objeto que contiene un conjunto de pares de clave-valor de configuración de Spark opcionales especificado por el usuario. Los usuarios también pueden pasar una cadena de opciones adicionales de JVM al controlador y a los ejecutores mediante `spark.driver.extraJavaOptions` y `spark.executor.extraJavaOptions` respectivamente.
`spark_env_vars`	Map	Objeto que contiene un conjunto de pares de clave-valor de variables de entorno opcionales especificadas por el usuario.
`spark_version`	String	La versión de Spark del clúster, por ejemplo `3.3.x-scala2.11`. Se puede recuperar una lista de las versiones de Spark disponibles mediante la llamada a la API :method:clusters/sparkVersions.
`ssh_public_keys`	Sequence	Contenido de clave pública SSH que se agregará a cada nodo de Spark de este clúster. Las claves privadas correspondientes se pueden usar para iniciar sesión con el nombre `ubuntu` de usuario en el puerto `2200`. Se pueden especificar hasta 10 claves.
`use_ml_runtime`	Boolean	Este campo solo se puede usar cuando `kind = CLASSIC_PREVIEW`. `effective_spark_version` viene determinado por `spark_version` (versión de DBR), este campo `use_ml_runtime`, y si `node_type_id` es un nodo de GPU o no.
`workload_type`	Map	Atributos de clúster que se muestran para los tipos de carga de trabajo de clústeres. Consulte workload_type.

cluster.autoscale

Type: Map

Parámetros para escalar y reducir verticalmente automáticamente los clústeres en función de la carga.

Key	Type	Description
`min_workers`	Integer	Número mínimo de trabajos a los que el clúster se puede reducir verticalmente cuando se infrautiliza. También es el número inicial de trabajos que tendrá el clúster después de la creación.
`max_workers`	Integer	Número máximo de trabajos a los que el clúster se puede escalar verticalmente cuando se sobrecarga. `max_workers` debe ser estrictamente mayor que `min_workers`.

clúster.aws_attributes

Type: Map

Atributos relacionados con clústeres que se ejecutan en Amazon Web Services.

Key	Type	Description
`zone_id`	String	Identificador de la zona de disponibilidad o el centro de datos en el que reside el clúster. Esta cadena tendrá una forma como `us-west-2a`.
`availability`	String	Tipo de disponibilidad usado para todos los nodos posteriores más allá de los `first_on_demand`. Los valores válidos son `SPOT`, `ON_DEMAND`, `SPOT_WITH_FALLBACK`.
`spot_bid_price_percent`	Integer	El precio máximo de las instancias puntuales de AWS, como porcentaje del precio a petición del tipo de instancia correspondiente.
`instance_profile_arn`	String	Los nodos de este clúster solo se colocarán en instancias de AWS con este perfil de instancia.
`first_on_demand`	Integer	Los primeros `first_on_demand` nodos del clúster se colocarán en instancias a petición. Este valor debe ser mayor que `0`, para asegurarse de que el nodo del controlador de clúster se coloca en una instancia a petición.
`ebs_volume_type`	String	Tipo de volúmenes EBS que se lanzarán con este clúster. Los valores válidos son `GENERAL_PURPOSE_SSD` y `THROUGHPUT_OPTIMIZED_HDD`.
`ebs_volume_count`	Integer	Número de volúmenes lanzados para cada instancia.
`ebs_volume_size`	Integer	Tamaño de cada volumen EBS (en GiB) asignado a cada instancia.
`ebs_volume_iops`	Integer	Número de IOPS por volumen de EBS gp3.
`ebs_volume_throughput`	Integer	Rendimiento por volumen de EBS gp3, en MiB por segundo.

cluster.azure_attributes

Type: Map

Atributos relacionados con clústeres que se ejecutan en Microsoft Azure.

Key	Type	Description
`first_on_demand`	Integer	Los primeros `first_on_demand` nodos del clúster se colocarán en instancias a petición.
`availability`	String	Tipo de disponibilidad usado para todos los nodos posteriores más allá de los `first_on_demand`. Los valores válidos son `SPOT_AZURE`, `ON_DEMAND_AZURE`, `SPOT_WITH_FALLBACK_AZURE`.
`spot_bid_max_price`	Number	El precio máximo de las instancias de acceso puntual de Azure. Use `-1` para especificar el precio más bajo.

cluster.gcp_attributes

Type: Map

Atributos relacionados con clústeres que se ejecutan en Google Cloud Platform.

Key	Type	Description
`use_preemptible_executors`	Boolean	Si se van a usar ejecutores preemptibles. Los ejecutores preemptibles son instancias de GCE preemptibles que GCE puede reclamar en cualquier momento.
`google_service_account`	String	La cuenta de servicio de Google que usarán las instancias de máquina virtual del clúster de Databricks.
`local_ssd_count`	Integer	Número de SSD locales que se van a adjuntar a cada nodo del clúster. El valor predeterminado es `0`.
`zone_id`	String	Identificador de la zona de disponibilidad o el centro de datos en el que reside el clúster.
`availability`	String	Tipo de disponibilidad usado para todos los nodos. Los valores válidos son `PREEMPTIBLE_GCP`, `ON_DEMAND_GCP`, `PREEMPTIBLE_WITH_FALLBACK_GCP`.
`boot_disk_size`	Integer	Tamaño del disco de arranque en GB. Los valores suelen oscilar entre 100 y 1000.

cluster.cluster_log_conf

Configuración para entregar registros de Spark a un destino de almacenamiento a largo plazo.

Key	Type	Description
`dbfs`	Map	Ubicación de DBFS para la entrega de logs del clúster. Consulte dbfs.
`s3`	Map	Ubicación de S3 para el envío de registros del clúster. Consulte s3.
`volumes`	Map	Ubicación de volúmenes para la entrega de registros del clúster. Consulte volúmenes.

cluster.cluster_log_conf.dbfs

Type: Map

Ubicación de DBFS para la entrega de logs del clúster.

Key	Type	Description
`destination`	String	Ruta de DBFS para la entrega de logs del clúster (por ejemplo, `dbfs:/cluster-logs`).

cluster.cluster_log_conf.s3

Type: Map

Ubicación de S3 para el envío de registros del clúster.

Key	Type	Description
`destination`	String	URI de S3 para la entrega de logs del clúster (por ejemplo, `s3://my-bucket/cluster-logs`).
`region`	String	La región de AWS del bucket S3.
`endpoint`	String	Dirección URL del punto de conexión S3 (opcional).
`enable_encryption`	Boolean	Si se habilita el cifrado para los registros de clúster.
`encryption_type`	String	Tipo de cifrado. Los valores válidos incluyen `SSE_S3`, `SSE_KMS`.
`kms_key`	String	ARN de clave KMS para el cifrado (cuando se usa `SSE_KMS`).
`canned_acl`	String	La ACL enlatada que se va a aplicar a los logs de clúster.

cluster.cluster_log_conf.volúmenes

Type: Map

Ubicación de volúmenes para la entrega de registros del clúster.

Key	Type	Description
`destination`	String	Ruta de volumen para la entrega del registro del clúster (por ejemplo, `/Volumes/catalog/schema/volume/cluster_log`).

cluster.docker_image

Type: Map

Configuración personalizada de la imagen de Docker.

Key	Type	Description
`url`	String	Dirección URL de la imagen de Docker.
`basic_auth`	Map	Autenticación básica para el repositorio de Docker. Consulte basic_auth.

cluster.docker_image.basic_auth

Type: Map

Autenticación básica para el repositorio de Docker.

Key	Type	Description
`username`	String	Nombre de usuario para la autenticación del registro de Docker.
`password`	String	Contraseña para la autenticación del registro de Docker.

archivo_de_inicialización_del_clúster

Type: Map

Configuración para almacenar scripts de inicialización. Debe especificarse al menos un tipo de ubicación.

Key	Type	Description
`dbfs`	Map	Ubicación de DBFS del script de inicialización. Consulte dbfs.
`workspace`	Map	Ubicación del área de trabajo del script de inicialización. Consulte el área de trabajo.
`s3`	Map	Ubicación S3 del script de inicialización. Consulte s3.
`abfss`	Map	Ubicación de ABFSS del script de inicialización. Vea abfss.
`gcs`	Map	Ubicación GCS del script de inicialización. Consulte gcs.
`volumes`	Map	Ubicación de los volúmenes UC del script de inicio. Consulte volúmenes.

cluster.init_scripts.dbfs

Type: Map

Ubicación de DBFS del script de inicialización.

Key	Type	Description
`destination`	String	La ruta de acceso de DBFS del script de inicialización.

cluster.init_scripts.espacio_de_trabajo

Type: Map

Ubicación del área de trabajo del script de inicialización.

Key	Type	Description
`destination`	String	Ruta de acceso del área de trabajo del script de inicialización.

cluster.init_scripts.s3

Type: Map

Ubicación S3 del script de inicialización.

Key	Type	Description
`destination`	String	URI S3 del script de inicialización.
`region`	String	La región de AWS del bucket S3.
`endpoint`	String	Dirección URL del punto de conexión S3 (opcional).

cluster.init_scripts.abfss

Type: Map

Ubicación de ABFSS del script de inicialización.

Key	Type	Description
`destination`	String	Ruta del ABFSS del script de inicialización.

cluster.init_scripts.gcs

Type: Map

Ubicación GCS del script de inicialización.

Key	Type	Description
`destination`	String	Ruta GCS del script de inicialización.

cluster.init_scripts.volumes

Type: Map

Ubicación de volúmenes del script de inicialización.

Key	Type	Description
`destination`	String	Ruta de acceso de UC Volumes del script de inicialización.

cluster.tipo_de_carga_de_trabajo

Type: Map

Atributos de clúster que muestran los tipos de carga de trabajo del clúster.

Key	Type	Description
`clients`	Map	Define qué tipo de clientes pueden usar el clúster. Consulte clientes.

cluster.tipo_de_carga.clientes

Type: Map

Tipo de clientes para este trabajo de carga de computación.

Key	Type	Description
`jobs`	Boolean	Si el clúster puede ejecutar trabajos.
`notebooks`	Boolean	Si el clúster puede ejecutar cuadernos.

Examples

En el ejemplo siguiente se crea un clúster dedicado (de usuario único) para el usuario actual con Databricks Runtime 15.4 LTS y una directiva de clúster:

resources:
  clusters:
    my_cluster:
      num_workers: 0
      node_type_id: 'i3.xlarge'
      driver_node_type_id: 'i3.xlarge'
      spark_version: '15.4.x-scala2.12'
      spark_conf:
        'spark.executor.memory': '2g'
      autotermination_minutes: 60
      enable_elastic_disk: true
      single_user_name: ${workspace.current_user.userName}
      policy_id: '000128DB309672CA'
      enable_local_disk_encryption: false
      data_security_mode: SINGLE_USER
      runtime_engine": STANDARD

En este ejemplo se crea un clúster my_cluster sencillo y se establece que como clúster que se va a usar para ejecutar el cuaderno en my_job:

bundle:
  name: clusters

resources:
  clusters:
    my_cluster:
      num_workers: 2
      node_type_id: 'i3.xlarge'
      autoscale:
        min_workers: 2
        max_workers: 7
      spark_version: '13.3.x-scala2.12'
      spark_conf:
        'spark.executor.memory': '2g'

  jobs:
    my_job:
      tasks:
        - task_key: test_task
          notebook_task:
            notebook_path: './src/my_notebook.py'
          existing_cluster_id: ${resources.clusters.my_cluster.id}

panel

Type: Map

El recurso de panel permite administrar paneles de AI/BI como un conjunto. Para obtener información sobre los paneles de AI/BI, consulte Paneles.

Si ha implementado un paquete que contiene un panel del entorno local y, a continuación, usa la interfaz de usuario para modificar ese panel, las modificaciones realizadas a través de la interfaz de usuario no se aplican al archivo JSON del panel en el conjunto local a menos que lo actualice explícitamente mediante bundle generate. Puede usar la opción --watch para sondear y recuperar continuamente los cambios en el panel. Consulte generación de conjuntos de databricks.

Además, si intenta implementar una agrupación desde el entorno local que contiene un archivo JSON de panel diferente al del área de trabajo remota, se producirá un error. Para forzar la implementación y sobrescribir el panel en el área de trabajo remota por el local, utilice la opción --force. Consulte implementación de conjuntos de databricks.

Note

Al usar paquetes de activos de Databricks con compatibilidad con Git para paneles, evite que se generen paneles duplicados agregando la asignación de sincronización para excluir los paneles de sincronizarse como archivos:

sync:
  exclude:
    - src/*.lvdash.json

dashboards:
  <dashboard-name>:
    <dashboard-field-name>: <dashboard-field-value>

Key	Type	Description
`display_name`	String	El nombre para mostrar del panel.
`embed_credentials`	Boolean	Si las credenciales de identidad de implementación de paquete se usan para ejecutar consultas para todos los usuarios del panel de control. Si se establece en `false`, se usan las credenciales de un visor. El valor predeterminado es `false`.
`etag`	String	Etag del panel. Se puede proporcionar opcionalmente en las actualizaciones para garantizar que el panel no se ha modificado desde la última lectura.
`file_path`	String	Ruta de acceso local del recurso del panel, incluido el nombre de archivo. Los paneles exportados siempre tienen la extensión de archivo `.lvdash.json`.
`permissions`	Sequence	Permisos del panel de control Consulte los permisos.
`serialized_dashboard`	Any	Contenido del panel en forma de cadena serializada.
`warehouse_id`	String	Identificador de almacén que se usa para ejecutar el panel.

Example

En el ejemplo siguiente se incluye e implementa el ejemplo panel de Análisis de carreras de taxis de Nueva York en el área de trabajo de Databricks.

resources:
  dashboards:
    nyc_taxi_trip_analysis:
      display_name: 'NYC Taxi Trip Analysis'
      file_path: ../src/nyc_taxi_trip_analysis.lvdash.json
      warehouse_id: ${var.warehouse_id}

catálogo_de_base_de_datos

Type: Map

El recurso de catálogo de bases de datos permite definir catálogos de bases de datos que corresponden a instancias de base de datos de un lote. Un catálogo de bases de datos es una base de datos de Lakebase que se registra como un catálogo de Unity Catalog.

Para obtener información sobre los catálogos de bases de datos, consulte Creación de un catálogo.

database_catalogs:
  <database_catalog-name>:
    <database_catalog-field-name>: <database_catalog-field-value>

Key	Type	Description
`create_database_if_not_exists`	Boolean	Si desea crear la base de datos si no existe.
`database_instance_name`	String	Nombre de la instancia que contiene la base de datos.
`database_name`	String	Nombre de la base de datos (en una instancia) asociada al catálogo.
`lifecycle`	Map	Contiene la configuración del ciclo de vida de un recurso, incluido el comportamiento del recurso cuando se implementa o se destruye. Consulte ciclo de vida.
`name`	String	Nombre del catálogo en Unity Catalog.

Example

En el ejemplo siguiente se define una instancia de base de datos con un catálogo de bases de datos correspondiente:

resources:
  database_instances:
    my_instance:
      name: my-instance
      capacity: CU_1
  database_catalogs:
    my_catalog:
      database_instance_name: ${resources.database_instances.my_instance.name}
      name: example_catalog
      database_name: my_database
      create_database_if_not_exists: true

instancia_de_base_de_datos

Type: Map

El recurso de instancia de base de datos permite definir instancias de base de datos en un lote. Una instancia de base de datos de Lakebase administra los recursos de almacenamiento y proceso y proporciona los puntos de conexión a los que se conectan los usuarios.

Importante

Al implementar un paquete con una instancia de base de datos, la instancia comienza a ejecutarse inmediatamente y está sujeta a tarifas. Consulte Precios de Lakebase.

Para obtener información sobre las instancias de base de datos, consulte ¿Qué es una instancia de base de datos?.

database_instances:
  <database_instance-name>:
    <database_instance-field-name>: <database_instance-field-value>

Key	Type	Description
`capacity`	String	SKU de la instancia. Los valores válidos son `CU_1`, `CU_2`, `CU_4`, `CU_8`.
`custom_tags`	Sequence	Lista de pares clave-valor que especifican etiquetas personalizadas asociadas a la instancia.
`enable_pg_native_login`	Boolean	Indica si la instancia tiene habilitado el inicio de sesión de contraseña nativa de PG. Tiene como valor predeterminado `true`.
`enable_readable_secondaries`	Boolean	Si se habilitan secundarias para atender el tráfico de solo lectura. Tiene como valor predeterminado `false`.
`lifecycle`	Map	Contiene la configuración del ciclo de vida de un recurso. Controla el comportamiento del recurso cuando se implementa o se destruye. Consulte ciclo de vida.
`name`	String	Nombre de la instancia. Este es el identificador único de la instancia.
`node_count`	Integer	Número de nodos de la instancia, compuesto por 1 principal y 0 o más secundarias. El valor predeterminado es 1 principal y 0 secundarias.
`parent_instance_ref`	Map	Referencia de la instancia primaria. Esto solo está disponible si la instancia es una instancia hijo. Consulte la instancia primaria.
`permissions`	Sequence	Permisos de la instancia de base de datos. Consulte los permisos.
`retention_window_in_days`	Integer	Ventana de retención de la instancia. Este es el período de tiempo en días durante el que se conservan los datos históricos. El valor predeterminado es 7 días. Los valores válidos son de 2 a 35 días.
`stopped`	Boolean	Indica si la instancia está detenida.
`usage_policy_id`	String	Directiva de uso deseada que se va a asociar a la instancia.

instancia_de_base_de_datos.enlace_de_instancia_padre

Type: Map

Referencia de la instancia primaria. Esto solo está disponible si la instancia es una instancia hijo.

Key	Type	Description
`branch_time`	String	Tiempo de bifurcación de la instancia de base de datos ref. Para una instancia de referencia de padre, este es el punto en el tiempo de la instancia de padre desde la cual se creó la instancia. Para una instancia de referencia secundaria, este es el punto en el tiempo en la instancia desde el cual se creó la instancia secundaria.
`lsn`	String	LSN WAL especificado por el usuario de la instancia de base de datos de referencia.
`name`	String	Nombre de la instancia de la base de datos de referencia.

Example

En el ejemplo siguiente se define una instancia de base de datos con un catálogo de bases de datos correspondiente:

resources:
  database_instances:
    my_instance:
      name: my-instance
      capacity: CU_1
  database_catalogs:
    my_catalog:
      database_instance_name: ${resources.database_instances.my_instance.name}
      name: example_catalog
      database_name: my_database
      create_database_if_not_exists: true

Para obtener un paquete de ejemplo que muestra cómo definir una instancia de base de datos y el catálogo de bases de datos correspondiente, consulte el repositorio de GitHub bundle-examples.

experimento

Type: Map

El recurso de experimento permite definir Experimentos de MLflow en un conjunto. Para obtener información sobre los experimentos de MLflow, consulte Organizar ejecuciones de entrenamiento con experimentos de MLflow.

experiments:
  <experiment-name>:
    <experiment-field-name>: <experiment-field-value>

Key	Type	Description
`artifact_location`	String	Ubicación donde se almacenan los artefactos del experimento.
`lifecycle`	Map	Contiene la configuración del ciclo de vida de un recurso. Controla el comportamiento del recurso cuando se implementa o se destruye. Consulte ciclo de vida.
`name`	String	Nombre amigable que identifica el experimento. Un nombre de experimento debe ser una ruta de acceso absoluta en el área de trabajo de Databricks, por ejemplo `/Workspace/Users/someone@example.com/my_experiment`.
`permissions`	Sequence	Permisos del experimento. Consulte los permisos.
`tags`	Sequence	Pares clave-valor de metadatos adicionales. Consulte etiquetas.

Example

En el ejemplo siguiente se define un experimento que todos los usuarios pueden ver:

resources:
  experiments:
    experiment:
      name: /Workspace/Users/someone@example.com/my_experiment
      permissions:
        - level: CAN_READ
          group_name: users
      description: MLflow experiment used to track runs

trabajo

Type: Map

Los trabajos se admiten en Python para conjuntos de recursos de Databricks. Consulte databricks.bundles.jobs.

El recurso de trabajo permite definir trabajos y sus tareas correspondientes en la agrupación.

Para obtener información sobre los trabajos, consulte Trabajos de Lakeflow. Para ver un tutorial que usa una plantilla de Conjuntos de recursos de Databricks para crear un trabajo, consulte Desarrollo de un trabajo con Conjuntos de recursos de Databricks.

jobs:
  <job-name>:
    <job-field-name>: <job-field-value>

Key	Type	Description
`budget_policy_id`	String	El id de la directiva de presupuesto especificada por el usuario que se utilizará para este trabajo. Si no se especifica, se puede aplicar una directiva de presupuesto predeterminada al crear o modificar el trabajo. Consulte `effective_budget_policy_id` para la directiva de presupuesto utilizada por esta carga de trabajo.
`continuous`	Map	Propiedad continua opcional para este trabajo. La propiedad continua garantizará que siempre haya un proceso en ejecución. Solo se puede usar uno de `schedule` y `continuous`. Consulte continuo.
`deployment`	Map	Información de despliegue para trabajos gestionados por fuentes externas. Consulte Implementación.
`description`	String	Descripción opcional del trabajo. La longitud máxima es de 27700 caracteres en codificación UTF-8.
`edit_mode`	String	Modo de edición del trabajo, ya sea `UI_LOCKED` o `EDITABLE`.
`email_notifications`	Map	Conjunto opcional de direcciones de correo electrónico que se notifican cuando se inician o completan las ejecuciones de este trabajo, así como cuando se elimina este trabajo. Consulte email_notifications.
`environments`	Sequence	Lista de especificaciones del entorno de ejecución de tareas a las que pueden hacer referencia las tareas sin servidor de este trabajo. Es necesario que un entorno esté presente para las tareas sin servidor. Para las tareas de cuaderno sin servidor, el entorno es accesible en el panel del entorno del cuaderno. Para otras tareas sin servidor, es necesario especificar el entorno de tareas mediante environment_key en la configuración de la tarea. Consulte entornos.
`format`	String	Deprecated. Formato del trabajo.
`git_source`	Map	Especificación opcional para un repositorio de Git remoto que contiene el código fuente que usan las tareas. Consulte job.git_source. Importante: Los campos `git_source` y `source` configurados como `GIT` no se recomiendan para conjuntos, ya que es posible que las rutas de acceso relativas locales no apunten al mismo contenido en el repositorio de Git, y los conjuntos esperan que un trabajo implementado tenga el mismo contenido que la copia local desde donde se implementó. En su lugar, clone el repositorio localmente y configure el proyecto de agrupación dentro de este repositorio, de modo que el origen de las tareas sea el área de trabajo.
`health`	Map	Conjunto opcional de reglas de mantenimiento que se pueden definir para este trabajo. Consulte la salud.
`job_clusters`	Sequence	Lista de especificaciones de clúster de trabajos que las tareas de este trabajo pueden compartir y reutilizar. Consulte job_clusters.
`max_concurrent_runs`	Integer	Número máximo permitido opcional de ejecuciones simultáneas del trabajo. Establezca este valor si desea poder ejecutar varias ejecuciones del mismo trabajo de manera simultánea.
`name`	String	Nombre opcional del trabajo. La longitud máxima es de 4096 bytes en codificación UTF-8.
`notification_settings`	Map	Configuración de notificación opcional que se usa al enviar notificaciones a `email_notifications` y `webhook_notifications` para este trabajo. Consulte notification_settings.
`parameters`	Sequence	Definiciones de parámetros de nivel de trabajo.
`performance_target`	String	Define cómo debe ser el rendimiento o la eficiencia del costo en la ejecución sobre serverless.
`permissions`	Sequence	Permisos del trabajo. Consulte los permisos.
`queue`	Map	Configuración de cola del trabajo. Consulte cola.
`run_as`	Map	Configuración de solo escritura. Especifica el usuario o la entidad de servicio en la que se ejecuta el trabajo. Si no se especifica, el trabajo se ejecuta como el usuario que creó el trabajo. Se debe especificar `user_name` o `service_principal_name`. Si no se establece, se produce un error. Consulte run_as.
`schedule`	Map	Programación periódica opcional para este trabajo. El comportamiento predeterminado es que el trabajo solo se ejecuta cuando se desencadena haciendo clic en "Ejecutar ahora" en la interfaz de usuario de trabajos o enviando una solicitud de API a `runNow`. Consulte programación.
`tags`	Map	Mapa de etiquetas asociadas al trabajo. Estos se reenvían al clúster como etiquetas de clúster para clústeres de trabajo y están sujetos a las mismas limitaciones que las etiquetas de clúster. Se puede agregar un máximo de 25 etiquetas al trabajo.
`tasks`	Sequence	Lista de especificaciones de tareas que se ejecutarán por este trabajo. Consulte Agregar tareas a trabajos en conjuntos de recursos de Databricks.
`timeout_seconds`	Integer	Límite de tiempo opcional que se aplica a cada ejecución de esta tarea. Un valor de `0` significa sin límite de tiempo.
`trigger`	Map	Configuración para desencadenar una ejecución cuando se cumplen determinadas condiciones. Consulte desencadenador.
`webhook_notifications`	Map	Colección de identificadores de notificación del sistema que se van a notificar cuando las ejecuciones de este trabajo comienzan o se completan. Consulte webhook_notifications.

trabajo.continuo

Type: Map

Configuración para la ejecución continua del trabajo.

Key	Type	Description
`pause_status`	String	Indica si el trabajo continuo está en pausa o no. Valores válidos: `PAUSED`, `UNPAUSED`.
`task_retry_mode`	String	Indique cómo el trabajo en curso está aplicando reintentos a nivel de tarea. Los valores válidos son `NEVER` y `ON_FAILURE`. Tiene como valor predeterminado `NEVER`.

job.implementación

Type: Map

Información de despliegue para trabajos gestionados por fuentes externas.

Key	Type	Description
`kind`	String	Tipo de implementación. Por ejemplo: `BUNDLE`.
`metadata_file_path`	String	Ruta de acceso al archivo de metadatos de la implementación.

trabajo.notificaciones_por_correo_electrónico

Type: Map

Configuración de notificaciones por correo electrónico para ejecuciones de trabajos.

Key	Type	Description
`on_start`	Sequence	Lista de direcciones de correo electrónico que se van a notificar cuando se inicia una ejecución.
`on_success`	Sequence	Lista de direcciones de correo electrónico que se deben notificar cuando una ejecución se realiza correctamente.
`on_failure`	Sequence	Lista de direcciones de correo electrónico que se deben notificar cuando se produce un error en una ejecución.
`on_duration_warning_threshold_exceeded`	Sequence	Lista de direcciones de correo electrónico que se deben notificar cuando una duración de ejecución supera el umbral de advertencia.
`no_alert_for_skipped_runs`	Boolean	Si se debe omitir el envío de alertas para ejecuciones saltadas.

trabajo.entornos

Type: Sequence

Lista de especificaciones del entorno de ejecución de tareas a las que pueden hacer referencia las tareas sin servidor de un trabajo.

Cada elemento de la lista es: JobEnvironment

Key	Type	Description
`environment_key`	String	Clave de un entorno. Debe ser único dentro de un trabajo.
`spec`	Map	Entidad que representa un entorno sin servidor. Consulte job.environments.spec.

job.environments.spec

Type: Map

Entidad que representa un entorno sin servidor.

Key	Type	Description
`client`	String	Deprecated. La versión del cliente.
`dependencies`	Sequence	Lista de dependencias de pip, como admite la versión de pip en este entorno.
`environment_version`	String	Obligatorio. Versión del entorno usada por el entorno. Cada versión incluye una versión específica de Python y un conjunto de paquetes de Python. La versión es una cadena que consta de un entero.

job.git_source

Type: Map

Configuración del repositorio de Git para el código fuente del trabajo.

Key	Type	Description
`git_branch`	String	Nombre de la rama que se extraerá y usará en esta tarea. Este campo no se puede especificar junto con `git_tag` o `git_commit`.
`git_commit`	String	Confirme que se va a desprotegir y usar este trabajo. Este campo no se puede especificar junto con `git_branch` o `git_tag`.
`git_provider`	String	Identificador único del servicio usado para hospedar el repositorio de Git. El valor no distingue mayúsculas de minúsculas. Los valores válidos son `gitHub`, `bitbucketCloud`, `gitLab`, `azureDevOpsServicesgitHubEnterprise`, , `bitbucketServer`, . `gitLabEnterpriseEdition`
`git_snapshot`	Map	Estado de solo lectura del repositorio remoto en el momento en que se ejecutó el trabajo. Este campo solo se incluye en ejecuciones de trabajo. Consulte git_snapshot.
`git_tag`	String	Nombre de la etiqueta que se va a desprotegir y usar en este trabajo. Este campo no se puede especificar junto con `git_branch` o `git_commit`.
`git_url`	String	Dirección URL del repositorio que va a clonar este trabajo.

job.git_source.git_snapshot

Type: Map

Instantánea de información de confirmación de solo lectura.

Key	Type	Description
`used_commit`	String	Confirmación que se usó para ejecutar la ejecución. Si `git_branch` se especificó, apunta a la HEAD de la rama en el momento de la ejecución; si `git_tag` se especificó, apunta al commit al que apunta la etiqueta.

estado.salud

Type: Map

Configuración de supervisión de la salud del trabajo.

Key	Type	Description
`rules`	Sequence	Lista de reglas de salud laboral. Cada regla contiene un `metric` y un `op` (operador) y un `value`. Consulte job.health.rules.

trabajo.salud.reglas

Type: Sequence

Lista de reglas de salud laboral.

Cada elemento de la lista es: JobHealthRule

Key	Type	Description
`metric`	String	Especifica la métrica de salud que se está evaluando para una regla de salud determinada. `RUN_DURATION_SECONDS`: tiempo total esperado para una ejecución en segundos. `STREAMING_BACKLOG_BYTES`: una estimación del máximo de bytes de datos pendientes de consumir en todos los flujos. Esta métrica está en versión preliminar pública. `STREAMING_BACKLOG_RECORDS`: una estimación del retraso de desplazamiento máximo en todas las secuencias. Esta métrica está en versión preliminar pública. `STREAMING_BACKLOG_SECONDS`: una estimación del retraso máximo de consumo en todos los flujos. Esta métrica está en versión preliminar pública. `STREAMING_BACKLOG_FILES`: una estimación del número máximo de archivos pendientes en todas las secuencias. Esta métrica está en versión preliminar pública.
`op`	String	Especifica el operador utilizado para comparar el valor de la métrica de salud con el umbral especificado.
`value`	Integer	Especifica el valor de umbral que debe cumplir la métrica de mantenimiento para satisfacer la regla de mantenimiento.

trabajo.clusters_de_tareas

Type: Sequence

Lista de especificaciones de clúster de trabajos que las tareas de este trabajo pueden compartir y reutilizar. Las bibliotecas no se pueden declarar en un clúster de trabajos compartidos. Debe declarar bibliotecas dependientes en la configuración de tareas.

Cada elemento de la lista es: JobCluster

Key	Type	Description
`job_cluster_key`	String	Un nombre único para el clúster de trabajos. Este campo es obligatorio y debe ser único dentro del trabajo. `JobTaskSettings` puede hacer referencia a este campo para determinar qué clúster se va a iniciar para la ejecución de la tarea.
`new_cluster`	Map	Si new_cluster, una descripción de un clúster que se crea para cada tarea. Consulte el clúster.

trabajo.configuración_de_notificaciones

Type: Map

Configuración de notificación que se aplica a todas las notificaciones del trabajo.

Key	Type	Description
`no_alert_for_skipped_runs`	Boolean	Si se debe omitir el envío de alertas para ejecuciones saltadas.
`no_alert_for_canceled_runs`	Boolean	Si se debe omitir el envío de alertas por ejecuciones canceladas.

job.queue

Type: Map

Configuración de cola para la tarea.

Key	Type	Description
`enabled`	Boolean	Si se va a habilitar la puesta en cola para el trabajo.

programación.trabajos

Type: Map

Programar la configuración para la ejecución periódica del trabajo.

Key	Type	Description
`quartz_cron_expression`	String	Expresión Cron con sintaxis de Quartz que especifica cuándo se ejecuta la tarea. Por ejemplo, `0 0 9 * * ?` ejecuta el trabajo todos los días a las 9:00 UTC.
`timezone_id`	String	Zona horaria de la programación. Por ejemplo, `America/Los_Angeles` o `UTC`.
`pause_status`	String	Indica si la programación está en pausa o no. Valores válidos: `PAUSED`, `UNPAUSED`.

job.trigger

Type: Map

Configuración del trigger para la ejecución de trabajos impulsados por eventos.

Key	Type	Description
`file_arrival`	Map	Desencadenador basado en la llegada de archivos. Consulte file_arrival.
`table`	Map	Desencadenador basado en una tabla. Consulte la tabla.
`table_update`	Map	Desencadenador basado en las actualizaciones de la tabla. Consulte table_update.
`periodic`	Map	Activador periódico. Consulte periódicamente.

trabajo.disparador.llegada_archivo

Type: Map

Configuración de desencadenadores basada en la llegada de archivos.

Key	Type	Description
`url`	String	Ruta de acceso que se va a supervisar en busca de nuevos archivos.
`min_time_between_triggers_seconds`	Integer	Tiempo mínimo en segundos entre eventos de activación.
`wait_after_last_change_seconds`	Integer	Tiempo de espera en segundos después del último cambio de archivo antes de desencadenarse.

job.trigger.table

Type: Map

Configuración de activación basada en una tabla.

Key	Type	Description
`table_names`	Sequence	Lista de nombres de tabla para supervisar.
`condition`	String	Condición SQL que se debe cumplir para desencadenar el trabajo.

trabajo.activar.actualización_tabla

Type: Map

Configuración de desencadenador basada en actualizaciones de tabla.

Key	Type	Description
`table_names`	Sequence	Lista de nombres de tabla para supervisar las actualizaciones.
`condition`	String	Condición SQL que se debe cumplir para desencadenar el trabajo.
`wait_after_last_change_seconds`	Integer	Tiempo de espera en segundos después de la última actualización de la tabla antes de desencadenarse.

trabajo.activación.periódica

Type: Map

Configuración periódica del desencadenador.

Key	Type	Description
`interval`	Integer	Valor de intervalo del desencadenador periódico.
`unit`	String	Unidad de tiempo para el intervalo. Valores válidos: `SECONDS`, `MINUTES`, `HOURS`, `DAYS`, `WEEKS`.

trabajo.notificaciones_de_webhook

Type: Map

Configuración de notificación de webhook para la ejecución de trabajos.

Key	Type	Description
`on_start`	Sequence	Lista de identificadores de notificación de webhook que se deben notificar cuando se inicia una ejecución.
`on_success`	Sequence	Lista de identificadores de notificación de webhook que se deben notificar cuando una ejecución tiene éxito.
`on_failure`	Sequence	Lista de identificadores de notificación de webhook que se deben notificar cuando se produce un error en una ejecución.
`on_duration_warning_threshold_exceeded`	Sequence	Lista de identificadores de notificación de webhook para avisar cuando la duración de ejecución supera el umbral de advertencia.

Examples

En el ejemplo siguiente se define un trabajo con la clave de recurso hello-job con una tarea de cuaderno:

resources:
  jobs:
    hello-job:
      name: hello-job
      tasks:
        - task_key: hello-task
          notebook_task:
            notebook_path: ./hello.py

En el ejemplo siguiente se define un trabajo con un cuaderno de SQL:

resources:
  jobs:
    job_with_sql_notebook:
      name: 'Job to demonstrate using a SQL notebook with a SQL warehouse'
      tasks:
        - task_key: notebook
          notebook_task:
            notebook_path: ./select.sql
            warehouse_id: 799f096837fzzzz4

Para obtener ejemplos de configuración de trabajos adicionales, consulte Configuración del trabajo.

Para obtener información sobre cómo definir tareas de trabajo e invalidar la configuración del trabajo, consulte:

modelo (heredado)

Type: Map

El recurso de modelo permite definir modelos heredados en agrupaciones. Databricks recomienda que use modelos registrados de Unity Catalog en su lugar.

punto_de_servicio_del_modelo

Type: Map

El recurso model_serving_endpoint permite definir puntos de conexión de modelo de servicio. Consulte Administración de puntos de conexión de modelo de servicio.

model_serving_endpoints:
  <model_serving_endpoint-name>:
    <model_serving_endpoint-field-name>: <model_serving_endpoint-field-value>

Key	Type	Description
`ai_gateway`	Map	Configuración de puerta de enlace de IA para el punto de conexión de servicio. NOTA: Actualmente solo se admiten los puntos de conexión de rendimiento aprovisionados y el modelo externo. Consulte ai_gateway.
`config`	Map	Configuración principal del punto de conexión de servicio. Consulte config.
`name`	String	Nombre del punto de conexión de servicio. Este campo es obligatorio y debe ser único en un área de trabajo de Databricks. Un nombre de punto de conexión puede constar de caracteres alfanuméricos, guiones y caracteres de subrayado.
`permissions`	Sequence	Los permisos del Modelo de puntos de conexión de servicio. Consulte los permisos.
`rate_limits`	Sequence	Deprecated. Límites de velocidad que se aplicarán al punto de servicio. Use AI Gateway para administrar los límites de velocidad.
`route_optimized`	Boolean	Active la optimización de rutas para el endpoint de servicio.
`tags`	Sequence	Etiquetas que se adjuntarán al punto final de servicio y se propagarán automáticamente a los registros de facturación.

punto_de_servicio_de_modelo.puerta_de_enlace_ia

Type: Map

Configuración del Gateway de IA para el punto de servicio.

Key	Type	Description
`guardrails`	Map	Configuración de guardarraíl. Consulte barreras de protección.
`inference_table_config`	Map	Configuración del registro de inferencia en tablas del catálogo de Unity. Consulte inference_table_config.
`rate_limits`	Sequence	Configuraciones de límite de velocidad.
`usage_tracking_config`	Map	Configuración para el seguimiento del uso. Consulte usage_tracking_config.

model_serving_endpoint.ai_gateway.guardrails

Type: Map

Configuración de barreras de puerta de enlace de AI.

Key	Type	Description
`input`	Map	Configuración de límites de protección de entrada con campos como `safety`, `pii`.
`output`	Map	Configuración de límites de protección de salida con campos como `safety`, `pii`.
`invalid_keywords`	Sequence	Lista de palabras clave que se van a bloquear.

punto_de_servicio_de_modelo.puerta_de_enlace_ia.configuración_de_tabla_de_inferencia

Type: Map

Configuración del registro de inferencia en tablas del catálogo de Unity.

Key	Type	Description
`catalog_name`	String	Nombre del catálogo en Unity Catalog.
`schema_name`	String	Nombre del esquema en el catálogo de Unity.
`table_name_prefix`	String	Prefijo para nombres de tabla de inferencia.
`enabled`	Boolean	Indica si el registro de tablas de inferencia está habilitado.

model_serving_endpoint.ai_gateway.configuración_de_seguimiento_de_uso

Type: Map

Configuración del portal de IA para el seguimiento del uso.

Key	Type	Description
`enabled`	Boolean	Indica si el seguimiento de uso está habilitado.

model_serving_endpoint.config

Type: Map

Configuración principal del punto de conexión de servicio.

Key	Type	Description
`served_entities`	Sequence	Lista de entidades a las que el punto de conexión proporcionará servicios. Cada entidad atendida contiene campos como `entity_name`, , `entity_versionworkload_size`, `scale_to_zero_enabled`, `workload_type`, . `environment_vars`
`served_models`	Sequence	(En desuso: use `served_entities` en su lugar) Una lista de modelos que el punto de conexión debe procesar.
`traffic_config`	Map	La configuración del tráfico que define cómo se deben enrutar las invocaciones al punto de conexión de servicio. Consulte traffic_config.
`auto_capture_config`	Map	Configuración de tablas de inferencia que registra automáticamente las solicitudes y respuestas al catálogo de Unity. Consulte auto_capture_config.

punto_de_servicio_de_modelo.config.configuración_de_tráfico

Type: Map

La configuración del tráfico que define cómo se deben enrutar las invocaciones al punto de conexión de servicio.

Key	Type	Description
`routes`	Sequence	Lista de rutas para la distribución del tráfico. Cada ruta contiene `served_model_name` y `traffic_percentage`.

model_serving_endpoint.config.auto_capture_config

Type: Map

Configuración de tablas de inferencia que registra automáticamente las solicitudes y respuestas al catálogo de Unity.

Key	Type	Description
`catalog_name`	String	Nombre del catálogo en Unity Catalog.
`schema_name`	String	Nombre del esquema en el catálogo de Unity.
`table_name_prefix`	String	Prefijo para nombres de tabla de inferencia.
`enabled`	Boolean	Indica si el registro de tablas de inferencia está habilitado.

Example

En el ejemplo siguiente se define un modelo de Catálogo de Unity que sirve el punto de conexión:

resources:
  model_serving_endpoints:
    uc_model_serving_endpoint:
      name: 'uc-model-endpoint'
      config:
        served_entities:
          - entity_name: 'myCatalog.mySchema.my-ads-model'
            entity_version: '10'
            workload_size: 'Small'
            scale_to_zero_enabled: 'true'
        traffic_config:
          routes:
            - served_model_name: 'my-ads-model-10'
              traffic_percentage: '100'
      tags:
        - key: 'team'
          value: 'data science'

canalización

Type: Map

Los pipelines son compatibles con Python para los paquetes de recursos de Databricks. Consulte databricks.bundles.pipelines.

El recurso de canalización permite crear canalizaciones. Para obtener información sobre las canalizaciones, consulte Canalizaciones declarativas de Spark de Lakeflow. Para consultar un tutorial que utiliza la plantilla Databricks Asset Bundles para crear una canalización, vea Desarrollar canalizaciones declarativas de Spark Lakeflow con Databricks Asset Bundles.

pipelines:
  <pipeline-name>:
    <pipeline-field-name>: <pipeline-field-value>

Key	Type	Description
`allow_duplicate_names`	Boolean	Si es falso, la implementación fallará si el nombre entra en conflicto con el de otra canalización.
`budget_policy_id`	String	Directiva de presupuesto de esta canalización.
`catalog`	String	Un catálogo en Unity Catalog donde publicar datos de esta canalización. Si se especifica `target`, las tablas de esta canalización se publican en un esquema `target` dentro de `catalog` (por ejemplo, `catalog`.`target`.`table`). Si `target` no se especifica, no se publica ningún dato en el catálogo de Unity.
`channel`	String	Canal de lanzamiento de las canalizaciones declarativas de Spark de Lakeflow que especifica qué versión de estas canalizaciones debe utilizarse.
`clusters`	Sequence	La configuración del clúster para esta implementación de canalización. Consulte el clúster.
`configuration`	Map	Configuración de esta ejecución de canalización.
`continuous`	Boolean	Indica si la canalización es continua o se desencadena. Esto reemplaza a `trigger`.
`deployment`	Map	Tipo de implementación de esta canalización. Consulte Implementación.
`development`	Boolean	Si la canalización está o no en modo de desarrollo. El valor predeterminado es False.
`dry_run`	Boolean	Si la canalización es una canalización de simulación.
`edition`	String	Edición del producto de canalización.
`environment`	Map	Especificación de entorno para esta canalización que se usa para instalar dependencias en el proceso sin servidor. Consulte entorno. Esta clave solo se admite en la VERSIÓN 0.258 de la CLI de Databricks y versiones posteriores.
`event_log`	Map	Configuración del registro de eventos para esta canalización. Consulte event_log.
`filters`	Map	Filtros que determinan qué paquetes de canalización se van a incluir en el gráfico implementado. Consulte filtros.
`id`	String	Identificador único de esta canalización.
`ingestion_definition`	Map	Configuración de una canalización de ingesta administrada. Estas configuraciones no se pueden usar con los ajustes `libraries`, `schema`, `target` o `catalog`. Consulte ingestion_definition.
`libraries`	Sequence	Lista de bibliotecas o código que necesita esta implementación. Consulte pipeline.libraries.
`lifecycle`	Map	Contiene la configuración del ciclo de vida de un recurso. Controla el comportamiento del recurso cuando se implementa o se destruye. Consulte ciclo de vida.
`name`	String	Nombre amigable para esta tubería.
`notifications`	Sequence	Configuración de notificación para esta canalización.
`permissions`	Sequence	Permisos de la canalización. Consulte los permisos.
`photon`	Boolean	Si Photon está habilitado para esta canalización.
`root_path`	String	Ruta de acceso raíz de esta canalización. Esto se usa como directorio raíz al editar la canalización en la interfaz de usuario de Databricks y se agrega a sys.path al ejecutar orígenes de Python durante la ejecución de la canalización.
`run_as`	Map	La identidad con la que se ejecuta la canalización. Si no se especifica, la canalización se ejecuta como el usuario que creó la canalización. Solo `user_name` o `service_principal_name` se puede especificar. Si se especifican ambos, se produce un error. Consulte run_as.
`schema`	String	Esquema predeterminado (base de datos) donde se leen o publican tablas.
`serverless`	Boolean	Si se habilita la computación sin servidor para esta canalización.
`storage`	String	Directorio raíz de DBFS para almacenar puntos de control y tablas.
`tags`	Map	Mapa de etiquetas asociadas a la canalización. Estos se reenvieron al clúster como etiquetas de clúster y, por tanto, están sujetos a las mismas limitaciones. Se pueden agregar un máximo de 25 etiquetas a la canalización.
`target`	String	Esquema de destino (base de datos) para agregar tablas a esta canalización. Se debe especificar exactamente uno de `schema` o `target`. Para publicar en el Catálogo de Unity, también especifique `catalog`. Este campo heredado está en desuso para la creación de canalizaciones en favor del campo `schema`.

pipeline.deployment

Type: Map

Configuración del tipo de implementación para el pipeline.

Key	Type	Description
`kind`	String	Tipo de implementación. Por ejemplo: `BUNDLE`.
`metadata_file_path`	String	Ruta de acceso al archivo de metadatos de la implementación.

pipeline.entorno

Type: Map

Especificación del entorno para instalar dependencias en cómputo sin servidor.

Key	Type	Description
`dependencies`	Sequence	Lista de dependencias de pip compatibles con la versión de pip en este entorno. Cada dependencia es una línea de un archivo de requerimientos pip.

pipeline.registro_de_eventos

Type: Map

Configuración del registro de eventos para la tubería.

Key	Type	Description
`catalog`	String	El catálogo de Unity Catalog bajo el cual se publica el registro de eventos.
`name`	String	El nombre en el que se publica el registro de eventos en el catálogo de Unity.
`schema`	String	El esquema del catálogo de Unity en el que se publica el registro de eventos.

pipeline.filtros

Type: Map

Filtra qué paquetes de canalización se van a incluir en el gráfico implementado.

Key	Type	Description
`include`	Sequence	Lista de nombres de paquete que se van a incluir.
`exclude`	Sequence	Lista de nombres de paquete que se van a excluir.

pipeline.ingestion_definition

Type: Map

Configuración de una canalización de ingesta administrada. Estas configuraciones no se pueden usar con los ajustes libraries, schema, target o catalog.

Key	Type	Description
`connection_name`	String	Nombre de la conexión que se va a usar para la ingesta.
`ingestion_gateway_id`	String	Identificador de la puerta de enlace de ingestión.
`objects`	Sequence	Obligatorio. Configuración que especifica tablas que se van a replicar y el destino de las tablas replicadas. Cada objeto puede ser schemaSpec, TableSpec o ReportSpec.
`source_configuration`	Map	Parámetros de configuración de origen de nivel de catálogo. Consulte source_configuration.
`table_configuration`	Map	Configuración de las tablas de ingesta. Consulte table_configuration.

SchemaSpec

Type: Map

Especificación de objeto de esquema para ingerir todas las tablas de un esquema.

Key	Type	Description
`source_schema`	String	Nombre del esquema de origen que se debe ingerir.
`destination_catalog`	String	Nombre del catálogo de destino en el catálogo de Unity.
`destination_schema`	String	Nombre del esquema de destino en el catálogo de Unity.
`table_configuration`	Map	Configuración que se va a aplicar a todas las tablas de este esquema. Consulte pipeline.ingestion_definition.table_configuration.

TableSpec

Type: Map

Especificación del objeto de tabla para la ingesta de una tabla específica.

Key	Type	Description
`source_schema`	String	Nombre del esquema de origen que contiene la tabla.
`source_table`	String	Nombre de la tabla de origen que se va a ingerir.
`destination_catalog`	String	Nombre del catálogo de destino en el catálogo de Unity.
`destination_schema`	String	Nombre del esquema de destino en el catálogo de Unity.
`destination_table`	String	Nombre de la tabla de destino en el catálogo de Unity.
`table_configuration`	Map	Configuración de esta tabla específica. Consulte pipeline.ingestion_definition.table_configuration.

EspecificaciónDeReporte

Type: Map

Especificación del objeto de informe para la ingesta de informes de análisis.

Key	Type	Description
`source_url`	String	Dirección URL del informe de origen.
`source_report`	String	Nombre o identificador del informe de origen.
`destination_catalog`	String	Nombre del catálogo de destino en el catálogo de Unity.
`destination_schema`	String	Nombre del esquema de destino en el catálogo de Unity.
`destination_table`	String	Nombre de la tabla de destino de los datos del informe.
`table_configuration`	Map	Configuración de la tabla de informes. Consulte pipeline.ingestion_definition.table_configuration.

tubería.definición_ingesta.configuración_fuente

Type: Map

Configuración de la fuente.

Key	Type	Description
`catalog`	Map	Parámetros de configuración de origen de nivel de catálogo. Consulte el catálogo.

pipeline.definición_de_ingestión.configuración_de_fuente.catálogo

Type: Map

Parámetros de configuración de nivel de catálogo para fuentes

Key	Type	Description
`postgres`	Map	Parámetros de configuración de nivel de catálogo específicos de Postgres. Contiene una `slot_config` clave que representa `Map` la configuración de ranura de Postgres que se va a usar para la replicación lógica.
`source_catalog`	String	Nombre del catálogo de origen.

tubería.definición_ingestión.configuración_tabla

Type: Map

Opciones de configuración para tablas de ingesta.

Key	Type	Description
`exclude_columns`	Sequence	Lista de nombres de columna que se excluirán para el procesamiento. Cuando no se especifica, `include_columns` gestiona completamente qué columnas serán ingeridas. Cuando se especifica, todas las demás columnas, incluidas las futuras, se incluirán automáticamente para la ingestión. Este campo se excluye mutuamente con `include_columns`.
`include_columns`	Sequence	Lista de nombres de columna que se van a incluir para la ingesta. Cuando no se especifica, se incluirán todas las columnas excepto las de `exclude_columns` . Las columnas futuras se incluirán automáticamente. Cuando se especifique, todas las columnas futuras restantes serán excluidas automáticamente de la ingesta. Este campo se excluye mutuamente con `exclude_columns`.
`primary_keys`	Sequence	Lista de nombres de columna que se van a usar como claves principales para la tabla.
`sequence_by`	Sequence	Nombres de columna que especifican el orden lógico de los eventos en los datos de origen. Spark Declarative Pipelines usa esta secuenciación para controlar los eventos de cambio que llegan fuera del orden.

pipeline.libraries

Type: Sequence

Define la lista de bibliotecas o código que necesita esta canalización.

Cada elemento de la lista es una definición:

Key	Type	Description
`file`	Map	La ruta de acceso a un archivo que define una canalización y se almacena en Databricks Repos. Consulte pipeline.libraries.file.
`glob`	Map	Campo unificado para incluir el código fuente. Cada entrada puede ser una ruta de acceso de cuaderno, una ruta de acceso de archivo o una ruta de acceso de carpeta que finaliza `/**`. Este campo no se puede usar junto con `notebook` o `file`. Consulte pipeline.libraries.glob.
`notebook`	Map	Ruta de acceso a un cuaderno que define una canalización y se almacena en el área de trabajo de Databricks. Consulte pipeline.libraries.notebook.
`whl`	String	Este campo está en desuso

pipeline.libraries.file

Type: Map

Ruta de acceso a un archivo que define una canalización y se almacena en los repositorios de Databricks.

Key	Type	Description
`path`	String	Ruta de acceso absoluta del código fuente.

pipeline.libraries.glob

Type: Map

Campo unificado para incluir el código fuente. Cada entrada puede ser una ruta de acceso de cuaderno, una ruta de acceso de archivo o una ruta de acceso de carpeta que finaliza /**. Este campo no se puede usar junto con notebook o file.

Key	Type	Description
`include`	String	Código fuente para incluir en canalizaciones

pipeline.libraries.notebook

Type: Map

Ruta de acceso a un cuaderno que define una canalización y se almacena en el área de trabajo de Databricks.

Key	Type	Description
`path`	String	Ruta de acceso absoluta del código fuente.

Example

En el ejemplo siguiente se define una canalización con la clave de recurso hello-pipeline:

resources:
  pipelines:
    hello-pipeline:
      name: hello-pipeline
      clusters:
        - label: default
          num_workers: 1
      development: true
      continuous: false
      channel: CURRENT
      edition: CORE
      photon: false
      libraries:
        - notebook:
            path: ./pipeline.py

Para obtener ejemplos de configuración de canalización adicionales, consulte Configuración de canalización.

quality_monitor (Catálogo de Unity)

Type: Map

El recurso quality_monitor permite definir un monitor de tabla de catálogo de Unity. Para obtener información sobre los monitores, consulte Generación de perfiles de datos.

quality_monitors:
  <quality_monitor-name>:
    <quality_monitor-field-name>: <quality_monitor-field-value>

Key	Type	Description
`assets_dir`	String	Directorio para almacenar recursos de supervisión (por ejemplo, panel, tablas de métricas).
`baseline_table_name`	String	Nombre de la tabla de línea base desde la que se calculan las métricas de desfase. Las columnas de la tabla supervisada también deben estar presentes en la tabla de línea base.
`custom_metrics`	Sequence	Métricas personalizadas para calcular en la tabla supervisada. Pueden ser métricas agregadas, métricas derivadas (de métricas agregadas ya calculadas) o métricas de desfase (comparando métricas entre ventanas de tiempo). Consulte custom_metrics.
`inference_log`	Map	Configuración para supervisar los registros de inferencia. Consulte inference_log.
`lifecycle`	Map	Contiene la configuración del ciclo de vida de un recurso. Controla el comportamiento del recurso cuando se implementa o se destruye. Consulte ciclo de vida.
`notifications`	Map	Configuración de notificación del monitor. Consulte las notificaciones.
`output_schema_name`	String	Esquema en el que se crean tablas de métricas de salida.
`schedule`	Map	Programación para actualizar y refrescar automáticamente las tablas de métricas. Consulte programación.
`skip_builtin_dashboard`	Boolean	Si se omite la creación de un panel predeterminado que resume las métricas de calidad de los datos.
`slicing_exprs`	Sequence	Lista de expresiones de columna con las que segmentar los datos para el análisis específico. Los datos se agrupan por cada expresión de forma independiente, lo que da como resultado un segmento independiente para cada predicado y sus complementos. En el caso de las columnas de cardinalidad alta, solo los 100 valores únicos principales por frecuencia generarán segmentos.
`snapshot`	Map	Configuración para supervisar tablas de instantáneas. Consulte instantánea.
`table_name`	String	Nombre completo de la tabla.
`time_series`	Map	Configuración para supervisar tablas de series temporales. Consulte time_series.
`warehouse_id`	String	Argumento opcional para especificar el almacenamiento para la creación del panel. Si no se especifica, se usará el primer almacén operativo.

monitor_de_calidad.métricas_personalizadas

Type: Sequence

Lista de definiciones de métricas personalizadas.

Cada elemento de la lista es: CustomMetric

Key	Type	Description
`definition`	String	Plantilla de Jinja para una expresión SQL que especifica cómo calcular la métrica. Consulte Creación de la definición de métricas.
`input_columns`	Sequence	Lista de nombres de columna de la tabla de entrada para la que se debe calcular la métrica. Puede usar `:table` para indicar que la métrica necesita información de varias columnas.
`name`	String	Nombre de la métrica en las tablas de salida.
`output_data_type`	String	Tipo de salida de la métrica personalizada.
`type`	String	Solo puede ser uno de `CUSTOM_METRIC_TYPE_AGGREGATE`, `CUSTOM_METRIC_TYPE_DERIVED`o `CUSTOM_METRIC_TYPE_DRIFT`. Las métricas `CUSTOM_METRIC_TYPE_AGGREGATE` y `CUSTOM_METRIC_TYPE_DERIVED` se calculan en una sola tabla, mientras que las métricas `CUSTOM_METRIC_TYPE_DRIFT` se comparan entre la tabla de referencia y la tabla de entrada, o entre dos ventanas de tiempo consecutivas. CUSTOM_METRIC_TYPE_AGGREGATE: solo depende de las columnas existentes en tu tabla. CUSTOM_METRIC_TYPE_DERIVED: depende de las métricas agregadas calculadas anteriormente. CUSTOM_METRIC_TYPE_DRIFT: depende de las métricas agregadas o derivadas que se hayan calculado previamente.

monitor_de_calidad.configuración_de_clasificación_de_datos

Type: Map

Configuración para la clasificación de datos.

Key	Type	Description
`enabled`	Boolean	Si la clasificación de datos está habilitada.

monitoreo_de_calidad.registro_de_inferencia

Type: Map

Configuración para supervisar los registros de inferencia.

Key	Type	Description
`granularities`	Sequence	Granularidades temporales para agregar registros de inferencia (por ejemplo, `["1 day"]`).
`model_id_col`	String	Nombre de la columna que contiene el identificador del modelo.
`prediction_col`	String	Nombre de la columna que contiene la predicción.
`timestamp_col`	String	Nombre de la columna que contiene la marca de tiempo.
`problem_type`	String	Tipo de problema de ML. Los valores válidos incluyen `PROBLEM_TYPE_CLASSIFICATION`, `PROBLEM_TYPE_REGRESSION`.
`label_col`	String	Nombre de la columna que contiene la etiqueta (verdad verdadera).

monitor_de_calidad.notificaciones

Type: Map

Configuración de notificación para el monitor.

Key	Type	Description
`on_failure`	Map	Configuración de notificación cuando se produce un error en el monitor. Consulte on_failure.
`on_new_classification_tag_detected`	Map	Configuración de notificación cuando se detectan nuevas etiquetas de clasificación. Consulte on_new_classification_tag_detected.

quality_monitor.notifications.on_failure

Type: Map

Configuración de notificación cuando se produce un error en el monitor.

Key	Type	Description
`email_addresses`	Sequence	Lista de direcciones de correo electrónico para notificar en caso de fallo del monitor.

quality_monitor.notificaciones.on_new_classification_tag_detected

Type: Map

Configuración de notificación cuando se detectan nuevas etiquetas de clasificación.

Key	Type	Description
`email_addresses`	Sequence	Lista de direcciones de correo electrónico que se deben notificar cuando se detectan nuevas etiquetas de clasificación.

monitor_de_calidad.programar

Type: Map

Programación para actualizar y refrescar automáticamente las tablas de métricas.

Key	Type	Description
`quartz_cron_expression`	String	Expresión Cron con la sintaxis de Quartz. Por ejemplo, `0 0 8 * * ?` se ejecuta todos los días a las 8:00 a. m.
`timezone_id`	String	Zona horaria de la programación (por ejemplo, `UTC`, `America/Los_Angeles`).
`pause_status`	String	Indica si la programación está en pausa. Valores válidos: `PAUSED`, `UNPAUSED`.

monitor_de_calidad.captura

Type: Map

Configuración para supervisar tablas de instantáneas.

quality_monitor.time_series

Configuración para supervisar tablas de series temporales.

Key	Type	Description
`granularities`	Sequence	Los niveles de granularidad temporal para agregar datos de series temporales (por ejemplo, `["30 minutes"]`).
`timestamp_col`	String	Nombre de la columna que contiene la marca de tiempo.

Examples

Para obtener un paquete de ejemplo completo que define un quality_monitor, consulte el paquete mlops_demo.

En los ejemplos siguientes se definen monitores de calidad para los tipos de perfil InferenceLog, TimeSeries y Snapshot .

# InferenceLog profile type
resources:
  quality_monitors:
    my_quality_monitor:
      table_name: dev.mlops_schema.predictions
      output_schema_name: ${bundle.target}.mlops_schema
      assets_dir: /Workspace/Users/${workspace.current_user.userName}/databricks_lakehouse_monitoring
      inference_log:
        granularities: [1 day]
        model_id_col: model_id
        prediction_col: prediction
        label_col: price
        problem_type: PROBLEM_TYPE_REGRESSION
        timestamp_col: timestamp
      schedule:
        quartz_cron_expression: 0 0 8 * * ? # Run Every day at 8am
        timezone_id: UTC

# TimeSeries profile type
resources:
  quality_monitors:
    my_quality_monitor:
      table_name: dev.mlops_schema.predictions
      output_schema_name: ${bundle.target}.mlops_schema
      assets_dir: /Workspace/Users/${workspace.current_user.userName}/databricks_lakehouse_monitoring
      time_series:
        granularities: [30 minutes]
        timestamp_col: timestamp
      schedule:
        quartz_cron_expression: 0 0 8 * * ? # Run Every day at 8am
        timezone_id: UTC

# Snapshot profile type
resources:
  quality_monitors:
    my_quality_monitor:
      table_name: dev.mlops_schema.predictions
      output_schema_name: ${bundle.target}.mlops_schema
      assets_dir: /Workspace/Users/${workspace.current_user.userName}/databricks_lakehouse_monitoring
      snapshot: {}
      schedule:
        quartz_cron_expression: 0 0 8 * * ? # Run Every day at 8am
        timezone_id: UTC

modelo_registrado (Catálogo de Unity)

Type: Map

El recurso de modelo registrado permite definir modelos en el catálogo de Unity. Para obtener información sobre modelos registrados de Unity Catalog, consulte Administración del ciclo de vida del modelo en Unity Catalog.

registered_models:
  <registered_model-name>:
    <registered_model-field-name>: <registered_model-field-value>

Key	Type	Description
`aliases`	Sequence	Lista de alias asociados al modelo registrado. Consulte registered_model.aliases.
`browse_only`	Boolean	Indica si el principal está limitado a recuperar metadatos para el objeto asociado a través del privilegio BROWSE cuando include_browse está activado en la solicitud.
`catalog_name`	String	Nombre del catálogo donde reside el esquema y el modelo registrado.
`comment`	String	Comentario adjunto al modelo registrado.
`full_name`	String	Nombre de tres niveles (completamente cualificado) del modelo registrado
`grants`	Sequence	Las concesiones asociadas al modelo registrado. Consulte concesión.
`lifecycle`	Map	Contiene la configuración del ciclo de vida de un recurso. Controla el comportamiento del recurso cuando se implementa o se destruye. Consulte ciclo de vida.
`name`	String	Nombre del modelo registrado.
`schema_name`	String	Nombre del esquema donde reside el modelo registrado.
`storage_location`	String	Ubicación de almacenamiento en la nube en la que se almacenan los archivos de datos de versión del modelo.

registered_model.aliases

Type: Sequence

Lista de alias asociados al modelo registrado.

Cada elemento de la lista es un Alias:

Key	Type	Description
`alias_name`	String	Nombre del alias, por ejemplo, "campeón" o "latest_stable"
`catalog_name`	String	Nombre del catálogo que contiene la versión del modelo
`id`	String	Identificador único del alias
`model_name`	String	Nombre del modelo registrado primario de la versión del modelo, en relación con el esquema primario.
`schema_name`	String	Nombre del esquema que contiene la versión del modelo, en relación con el catálogo primario.
`version_num`	Integer	Número de versión entero de la versión del modelo a la que apunta este alias.

Example

En el ejemplo siguiente se define un modelo registrado en el catálogo de Unity:

resources:
  registered_models:
    model:
      name: my_model
      catalog_name: ${bundle.target}
      schema_name: mlops_schema
      comment: Registered model in Unity Catalog for ${bundle.target} deployment target
      grants:
        - privileges:
            - EXECUTE
          principal: account users

esquema (Catálogo de Unity)

Type: Map

Los esquemas se admiten en Python para conjuntos de recursos de Databricks. Consulte databricks.bundles.schemas.

El tipo de recurso de esquema permite definir esquemas de Unity Catalog para tablas y otros recursos de los flujos de trabajo y canalizaciones creados como parte de un conjunto. Un esquema, diferente de otros tipos de recursos, tiene las siguientes limitaciones:

El propietario de un recurso de esquema siempre es el usuario de implementación y no se puede cambiar. Si se especifica run_as en la agrupación, se omitirán las operaciones en el esquema.
Solo los campos admitidos por la API de creación de objetos de esquema correspondiente están disponibles para el recurso schema. Por ejemplo, enable_predictive_optimization no se admite, ya que solo está disponible en la API de actualización.

schemas:
  <schema-name>:
    <schema-field-name>: <schema-field-value>

Key	Type	Description
`catalog_name`	String	Nombre del catálogo primario.
`comment`	String	Descripción de texto de forma libre proporcionada por el usuario.
`grants`	Sequence	Las concesiones asociadas al esquema. Consulte concesión.
`lifecycle`	Map	Contiene la configuración del ciclo de vida de un recurso. Controla el comportamiento del recurso cuando se implementa o se destruye. Consulte ciclo de vida.
`name`	String	Nombre del esquema, en relación con el catálogo primario.
`properties`	Map	Mapa de las propiedades clave-valor adjuntas al esquema.
`storage_root`	String	Dirección URL raíz de almacenamiento para las tablas administradas dentro del esquema.

Examples

En el ejemplo siguiente se define una canalización con la clave de recurso my_pipeline que crea un esquema de Catálogo de Unity con la clave my_schema como destino:

resources:
  pipelines:
    my_pipeline:
      name: test-pipeline-{{.unique_id}}
      libraries:
        - notebook:
            path: ../src/nb.ipynb
        - file:
            path: ../src/range.sql
      development: true
      catalog: ${resources.schemas.my_schema.catalog_name}
      target: ${resources.schemas.my_schema.id}

  schemas:
    my_schema:
      name: test-schema-{{.unique_id}}
      catalog_name: main
      comment: This schema was created by Databricks Asset Bundles.

Databricks Asset Bundles no admite un mapeo de permisos de nivel superior, por lo que si desea establecer permisos para un esquema, defina los permisos para el esquema dentro del mapeo de schemas. Para obtener más información sobre las concesiones, vea Mostrar, conceder y revocar privilegios.

En el ejemplo siguiente se define un esquema de catálogo de Unity con concesiones:

resources:
  schemas:
    my_schema:
      name: test-schema
      grants:
        - principal: users
          privileges:
            - SELECT
        - principal: my_team
          privileges:
            - CAN_MANAGE
      catalog_name: main

ámbito_secreto

Type: Map

El recurso secret_scope permite definir ámbitos secretos en una agrupación. Para obtener información sobre los ámbitos de secreto, consulte Administración de secretos.

secret_scopes:
  <secret_scope-name>:
    <secret_scope-field-name>: <secret_scope-field-value>

Key	Type	Description
`backend_type`	String	Tipo de back-end con el que se creará el ámbito. Si no se especifica, este valor predeterminado es `DATABRICKS`.
`keyvault_metadata`	Map	Los metadatos para el ámbito secreto si `backend_type` es `AZURE_KEYVAULT`. Consulte keyvault_metadata.
`lifecycle`	Map	Contiene la configuración del ciclo de vida de un recurso. Controla el comportamiento del recurso cuando se implementa o se destruye. Consulte ciclo de vida.
`name`	String	Nombre de ámbito solicitado por el usuario. Los nombres de los ámbitos son únicos.
`permissions`	Sequence	Permisos para aplicar al ámbito secreto. Los permisos se administran a través de ACL de ámbito secreto. Consulte los permisos.

secret_scope.keyvault_metadata

Type: Map

Metadatos de los ámbitos secretos con respaldo de Azure Key Vault.

Key	Type	Description
`resource_id`	String	Identificador de recurso de Azure del almacén de claves.
`dns_name`	String	Nombre DNS de Azure Key Vault.

Examples

En el ejemplo siguiente se define un ámbito secreto que utiliza un backend de bóveda de claves.

resources:
  secret_scopes:
    secret_scope_azure:
      name: test-secrets-azure-backend
      backend_type: 'AZURE_KEYVAULT'
      keyvault_metadata:
        resource_id: my_azure_keyvault_id
        dns_name: my_azure_keyvault_dns_name

En el ejemplo siguiente se establece una ACL personalizada mediante ámbitos y permisos secretos:

resources:
  secret_scopes:
    my_secret_scope:
      name: my_secret_scope
      permissions:
        - user_name: admins
          level: WRITE
        - user_name: users
          level: READ

Para obtener un conjunto de ejemplos que muestra cómo definir un ámbito de secreto y un trabajo con una tarea que accede a él en un conjunto, consulte el repositorio de GitHub bundle-examples.

sql_warehouse

Type: Map

El recurso de SQL Warehouse permite definir un almacenamiento de SQL en un lote. Para más información sobre los almacenes de SQL, consulte Almacenamiento de datos en Azure Databricks.

sql_warehouses:
  <sql-warehouse-name>:
    <sql-warehouse-field-name>: <sql-warehouse-field-value>

Key	Type	Description
`auto_stop_mins`	Integer	Cantidad de tiempo en minutos que debe estar inactiva una instancia de SQL Warehouse (por ejemplo, sin consultas EN EJECUCIÓN), antes de que se detenga automáticamente. Los valores válidos son 0, que indica sin autostop, o igual o mayor que 10. El valor predeterminado es 120.
`channel`	Map	Detalles del canal. Ver canal
`cluster_size`	String	Tamaño de los clústeres asignados para este almacenamiento. Aumentar el tamaño de un clúster de Spark permite ejecutar consultas más grandes en él. Si desea aumentar el número de consultas simultáneas, ajuste max_num_clusters. Para conocer los valores admitidos, consulte cluster_size.
`creator_name`	String	Nombre del usuario que creó el almacén.
`enable_photon`	Boolean	Si el almacén debe usar clústeres optimizados para Photon. El valor predeterminado es False.
`enable_serverless_compute`	Boolean	Si el almacén debe usar computación sin servidor.
`instance_profile_arn`	String	Deprecated. Perfil de instancia usado para pasar el rol de IAM al clúster,
`lifecycle`	Map	Contiene la configuración del ciclo de vida de un recurso. Controla el comportamiento del recurso cuando se implementa o se destruye. Consulte ciclo de vida.
`max_num_clusters`	Integer	El número máximo de clústeres que creará el escalador automático para controlar las consultas simultáneas. Los valores deben ser menores o iguales que 30 y mayores o iguales que `min_num_clusters`. Se utiliza el valor predeterminado min_clusters si no se ha establecido otro.
`min_num_clusters`	Integer	El número mínimo de clústeres disponibles que se mantendrán para este almacenamiento de SQL. Aumentar esto garantizará que un mayor número de clústeres siempre esté funcionando y, por tanto, puede reducir el tiempo de inicio en frío de las nuevas consultas. Esto es similar a los núcleos reservados frente a revocables dentro de un gestor de recursos. Los valores deben ser mayores que 0 y menores o iguales que min(max_num_clusters, 30). De manera predeterminada, su valor es 1.
`name`	String	Nombre lógico del clúster. El nombre debe ser único dentro de una organización y menos de 100 caracteres.
`permissions`	Sequence	Permisos que se aplicarán al almacén. Consulte los permisos.
`spot_instance_policy`	String	Si se deben usar instancias de spot. Los valores válidos son `POLICY_UNSPECIFIED`, `COST_OPTIMIZED`, `RELIABILITY_OPTIMIZED`. El valor predeterminado es `COST_OPTIMIZED`.
`tags`	Map	Un conjunto de pares de clave y valor que se asignarán a todos los recursos (por ejemplo, instancias de AWS y volúmenes EBS) asociados a este almacén de datos SQL. El número de etiquetas debe ser menor que 45.
`warehouse_type`	String	El tipo de almacenamiento, `PRO` o `CLASSIC`. Si desea usar cómputo sin servidor, establezca este campo en `PRO` y también, simultáneamente, establezca el campo `enable_serverless_compute` en `true`.

sql_warehouse.channel

Type: Map

Configuración del canal para SQL Warehouse.

Key	Type	Description
`name`	String	Nombre del canal. Los valores válidos incluyen `CHANNEL_NAME_CURRENT`, `CHANNEL_NAME_PREVIEW`, `CHANNEL_NAME_CUSTOM`.
`dbsql_version`	String	Versión de DBSQL para canales personalizados.

Example

En el ejemplo siguiente se define una instancia de SQL Warehouse:

resources:
  sql_warehouses:
    my_sql_warehouse:
      name: my_sql_warehouse
      cluster_size: X-Large
      enable_serverless_compute: true
      max_num_clusters: 3
      min_num_clusters: 1
      auto_stop_mins: 60
      warehouse_type: PRO

tabla_de_base_de_datos_sincronizada

Type: Map

El recurso de tabla de base de datos sincronizada permite definir tablas de base de datos de Lakebase en un lote.

Para obtener información sobre las tablas de base de datos sincronizadas, consulte ¿Qué es una instancia de base de datos?.

synced_database_tables:
  <synced_database_table-name>:
    <synced_database_table-field-name>: <synced_database_table-field-value>

Key	Type	Description
`database_instance_name`	String	Nombre de la instancia de base de datos de destino. Esto es necesario al crear tablas de base de datos sincronizadas en catálogos estándar. Esto es opcional al crear tablas de base de datos sincronizadas en catálogos registrados.
`lifecycle`	Map	Contiene la configuración del ciclo de vida de un recurso. Controla el comportamiento del recurso cuando se implementa o se destruye. Consulte ciclo de vida.
`logical_database_name`	String	Nombre del objeto de base de datos postgres de destino (base de datos lógica) para esta tabla.
`name`	String	Nombre completo de la tabla, con el formato `catalog.schema.table`.
`spec`	Map	Especificación de la tabla de base de datos. Consulte la especificación de la tabla de base de datos sincronizada.

synced_database_table.spec

Type: Map

Especificación de la tabla de base de datos.

Key	Type	Description
`create_database_objects_if_missing`	Boolean	Si desea crear la base de datos lógica y los recursos de esquema de la tabla sincronizada si aún no existen.
`existing_pipeline_id`	String	Identificador de una canalización existente. Si se establece, la tabla sincronizada se empaquetará en la canalización existente a la que se hace referencia. Esto evita la creación de una nueva pipeline y permite compartir los recursos de cálculo existentes. En este caso, el `scheduling_policy` de esta tabla sincronizada debe coincidir con la directiva de programación de la canalización existente. Como máximo, se debe definir uno de `existing_pipeline_id` y `new_pipeline_spec`.
`new_pipeline_spec`	Map	Especificación de una nueva canalización. Consulte new_pipeline_spec. Como máximo, se debe definir uno de `existing_pipeline_id` y `new_pipeline_spec`.
`primary_key_columns`	Sequence	Lista de nombres de columna que forman la clave principal.
`scheduling_policy`	String	Directiva de programación para la sincronización. Los valores válidos incluyen `SNAPSHOT`, `CONTINUOUS`.
`source_table_full_name`	String	Nombre completo de la tabla de origen con el formato `catalog.schema.table`.
`timeseries_key`	String	Clave de serie temporal para desduplicar filas con la misma clave principal.

synced_database_table.spec.new_pipeline_spec

Type: Map

Especificación de una nueva canalización usada por la tabla de base de datos sincronizada.

Key	Type	Description
`budget_policy_id`	String	El ID de la política de presupuesto que se va a establecer en la tubería recién creada.
`storage_catalog`	String	Catálogo de la canalización para almacenar archivos intermedios, como puntos de comprobación y registros de eventos. Debe ser un catálogo estándar en el que el usuario tenga permisos para crear tablas Delta.
`storage_schema`	String	Esquema de la canalización para almacenar archivos intermedios, como puntos de control y registros de eventos. Esto debe estar en el catálogo estándar donde el usuario tiene permisos para crear tablas Delta.

Examples

En el ejemplo siguiente se define una tabla de base de datos sincronizada dentro de un catálogo de bases de datos correspondiente:

resources:
  database_instances:
    my_instance:
      name: my-instance
      capacity: CU_1
  database_catalogs:
    my_catalog:
      database_instance_name: my-instance
      database_name: 'my_database'
      name: my_catalog
      create_database_if_not_exists: true
  synced_database_tables:
    my_synced_table:
      name: ${resources.database_catalogs.my_catalog.name}.${resources.database_catalogs.my_catalog.database_name}.my_destination_table
      database_instance_name: ${resources.database_catalogs.my_catalog.database_instance_name}
      logical_database_name: ${resources.database_catalogs.my_catalog.database_name}
      spec:
        source_table_full_name: 'my_source_table'
        scheduling_policy: SNAPSHOT
        primary_key_columns:
          - my_pk_column
        new_pipeline_spec:
          storage_catalog: 'my_delta_catalog'
          storage_schema: 'my_delta_schema'

En el ejemplo siguiente se define una tabla de base de datos sincronizada dentro de un catálogo estándar:

resources:
  synced_database_tables:
    my_synced_table:
      name: 'my_standard_catalog.public.synced_table'
      # database_instance_name is required for synced tables created in standard catalogs.
      database_instance_name: 'my-database-instance'
      # logical_database_name is required for synced tables created in standard catalogs:
      logical_database_name: ${resources.database_catalogs.my_catalog.database_name}
      spec:
        source_table_full_name: 'source_catalog.schema.table'
        scheduling_policy: SNAPSHOT
        primary_key_columns:
          - my_pk_column
        create_database_objects_if_missing: true
        new_pipeline_spec:
          storage_catalog: 'my_delta_catalog'
          storage_schema: 'my_delta_schema'

En este ejemplo se crea una tabla de base de datos sincronizada y se personaliza la programación de canalización para ella. Se asume que ya dispone de:

Una instancia de base de datos denominada my-database-instance
Un catálogo estándar denominado my_standard_catalog
Esquema en el catálogo estándar denominado default
Una tabla delta de origen denominada source_delta.schema.customer con la clave principal c_custkey

resources:
  synced_database_tables:
    my_synced_table:
      name: 'my_standard_catalog.default.my_synced_table'
      database_instance_name: 'my-database-instance'
      logical_database_name: 'test_db'
      spec:
        source_table_full_name: 'source_delta.schema.customer'
        scheduling_policy: SNAPSHOT
        primary_key_columns:
          - c_custkey
        create_database_objects_if_missing: true
        new_pipeline_spec:
          storage_catalog: 'source_delta'
          storage_schema: 'schema'

  jobs:
    sync_pipeline_schedule_job:
      name: sync_pipeline_schedule_job
      description: 'Job to schedule synced database table pipeline.'
      tasks:
        - task_key: synced-table-pipeline
          pipeline_task:
            pipeline_id: ${resources.synced_database_tables.my_synced_table.data_synchronization_status.pipeline_id}
      schedule:
        quartz_cron_expression: '0 0 0 * * ?'

volumen (catálogo de Unity)

Type: Map

Los volúmenes se admiten en Python para conjuntos de recursos de Databricks. Consulte databricks.bundles.volumes.

El tipo de recurso de volumen permite definir y crear volúmenes de Unity Catalog como parte de un conjunto. Al implementar un paquete con un volumen definido, tómese en cuenta que:

No se puede hacer referencia a un volumen en artifact_path del conjunto hasta que exista en el área de trabajo. Por lo tanto, si desea usar Conjuntos de recursos de Databricks para crear el volumen, primero debe definir el volumen en el paquete, implementarlo para crear el volumen, y a continuación, hacer referencia a él en artifact_path en las implementaciones posteriores.
Los volúmenes del paquete no llevan el prefijo dev_${workspace.current_user.short_name} cuando el destino de implementación tiene configurado mode: development. Sin embargo, puede configurar manualmente este prefijo. Consulte Valores preestablecidos personalizados.

volumes:
  <volume-name>:
    <volume-field-name>: <volume-field-value>

Key	Type	Description
`catalog_name`	String	Nombre del catálogo del esquema y del volumen.
`comment`	String	Comentario adjunto al volumen.
`grants`	Sequence	Las concesiones asociadas al volumen. Consulte concesión.
`lifecycle`	Map	Contiene la configuración del ciclo de vida de un recurso. Controla el comportamiento del recurso cuando se implementa o se destruye. Consulte ciclo de vida.
`name`	String	Nombre del volumen.
`schema_name`	String	El nombre del esquema en el que se encuentra el volumen.
`storage_location`	String	Ubicación de almacenamiento en la nube.
`volume_type`	String	Tipo de volumen, `EXTERNAL` o `MANAGED`. Un volumen externo se encuentra en la ubicación externa especificada. Un volumen administrado se encuentra en la ubicación predeterminada que especifica el esquema primario, el catálogo primario o el metastore. Consulte Volúmenes administrados frente a externos.

Example

En el ejemplo siguiente se crea un volumen de catálogo de Unity con la clave my_volume_id:

resources:
  volumes:
    my_volume_id:
      catalog_name: main
      name: my_volume
      schema_name: my_schema

Para obtener un paquete de ejemplo que ejecuta un trabajo que escribe en un archivo en el volumen del catálogo de Unity, consulte el repositorio de GitHub bundle-examples.

Objetos comunes

subvención

Type: Map

Defina el principal y los privilegios que se van a conceder a este. Para obtener más información sobre las concesiones, vea Mostrar, conceder y revocar privilegios.

Key	Type	Description
`principal`	String	El nombre del principal al que se le concederán privilegios. Puede ser un usuario, grupo o entidad de servicio.
`privileges`	Sequence	Privilegios que se van a conceder a la entidad especificada. Los valores válidos dependen del tipo de recurso (por ejemplo, `SELECT`, `MODIFY`, `CREATEUSAGE`, `READ_FILES`, `WRITE_FILES`, , , `EXECUTE`). `ALL_PRIVILEGES`

Example

En el ejemplo siguiente se define un esquema de catálogo de Unity con concesiones:

resources:
  schemas:
    my_schema:
      name: test-schema
      grants:
        - principal: users
          privileges:
            - SELECT
        - principal: my_team
          privileges:
            - CAN_MANAGE
      catalog_name: main

ciclo de vida

Type: Map

Contiene la configuración del ciclo de vida de un recurso. Controla el comportamiento del recurso cuando se implementa o se destruye.

Key	Type	Description
`prevent_destroy`	Boolean	Configuración del ciclo de vida para evitar que el recurso se destruya.

Comentarios

¿Le resultó útil esta página?

Last updated on 2025-12-09

Compartir vía

Recursos de Conjuntos de recursos de Databricks

Recursos compatibles

alerta

evaluación de alertas

alert.evaluation.notification

alert.evaluation.notification.subscriptions

alert.evaluation.source

umbral.evaluación.alerta

alert.evaluación.umbral.valor

alert.schedule

Examples

aplicación

app.recursos

app.recursos.base_de_datos

app.resources.genie_space

app.resources.job

app.recursos.secreto

app.resources.punto_de_servicio

app.resources.sql_warehouse

app.resources.uc_securable

Example

clúster

cluster.autoscale

clúster.aws_attributes

cluster.azure_attributes

cluster.gcp_attributes

cluster.cluster_log_conf

cluster.cluster_log_conf.dbfs

cluster.cluster_log_conf.s3

cluster.cluster_log_conf.volúmenes

cluster.docker_image

cluster.docker_image.basic_auth

archivo_de_inicialización_del_clúster

cluster.init_scripts.dbfs

cluster.init_scripts.espacio_de_trabajo

cluster.init_scripts.s3

cluster.init_scripts.abfss

cluster.init_scripts.gcs

cluster.init_scripts.volumes

cluster.tipo_de_carga_de_trabajo

cluster.tipo_de_carga.clientes

Examples

panel

Example

catálogo_de_base_de_datos

Example

instancia_de_base_de_datos

instancia_de_base_de_datos.enlace_de_instancia_padre

Example

experimento

Example

trabajo

trabajo.continuo

job.implementación

trabajo.notificaciones_por_correo_electrónico

trabajo.entornos

job.environments.spec

job.git_source

job.git_source.git_snapshot

estado.salud

trabajo.salud.reglas

trabajo.clusters_de_tareas

trabajo.configuración_de_notificaciones

job.queue

programación.trabajos

job.trigger

trabajo.disparador.llegada_archivo

job.trigger.table

trabajo.activar.actualización_tabla

trabajo.activación.periódica

trabajo.notificaciones_de_webhook

Examples

modelo (heredado)

punto_de_servicio_del_modelo

punto_de_servicio_de_modelo.puerta_de_enlace_ia

model_serving_endpoint.ai_gateway.guardrails

punto_de_servicio_de_modelo.puerta_de_enlace_ia.configuración_de_tabla_de_inferencia

model_serving_endpoint.ai_gateway.configuración_de_seguimiento_de_uso

model_serving_endpoint.config