Compartir vía


Recursos de Conjuntos de recursos de Databricks

Databricks Asset Bundles permite especificar información sobre los recursos de Azure Databricks utilizados por el paquete en el mapeo de resources en la configuración del paquete. Consulte asignación de recursos y referencia de clave de recursos.

En esta página se proporciona una referencia de configuración para todos los tipos de recursos admitidos para agrupaciones y se proporcionan detalles y un ejemplo para cada tipo admitido. Para obtener ejemplos adicionales, consulte Ejemplos de configuración de agrupación.

El esquema JSON para agrupaciones que se usa para validar la configuración de YAML está en el repositorio de GitHub de la CLI de Databricks.

Tip

Para generar YAML para cualquier recurso existente, use el comando databricks bundle generate. Consulte generación de conjuntos de databricks.

Recursos compatibles

En la tabla siguiente se enumeran los tipos de recursos admitidos para agrupaciones (YAML y Python, si procede). Algunos recursos se pueden crear definiendo en una agrupación e implementando la agrupación, y algunos recursos solo se pueden crear haciendo referencia a un recurso existente para incluirlo en la agrupación.

La configuración de recursos define un objeto de Databricks que corresponde a un objeto de API REST de Databricks . Los campos de solicitud de creación admitidos del objeto de LA API REST, expresados como YAML, son las claves admitidas del recurso. Los vínculos a la documentación del objeto correspondiente de cada recurso se encuentran en la tabla siguiente.

Tip

El comando databricks bundle validate devuelve advertencias si se encuentran propiedades de recursos desconocidas en los archivos de configuración de agrupación.

Resource Compatibilidad con Python Objeto de API REST correspondiente
alert Objeto de alerta
app Objeto de aplicación
cluster Objeto de conglomerado
dashboard Objeto de panel
database_catalog Objeto de catálogo de base de datos
database_instance Objeto de instancia de base de datos
experiment objeto del experimento
job Trabajos Job (objeto)
el modelo (heredado) Objeto del Modelo (heredado)
model_serving_endpoint modelo de servicio del objeto de punto de conexión
pipeline Pipelines Pipeline (objeto)
quality_monitor Objeto monitor de calidad
registered_model (Catálogo de Unity) Objeto de modelo registrado
esquema (Unity Catalog) Schemas Schema (objeto)
secret_scope Objeto de ámbito secreto
sql_warehouse Objeto de almacenamiento de SQL
tabla_de_base_de_datos_sincronizada Objeto de tabla de base de datos sincronizada
volumen (catálogo de Unity) Volúmenes Volume (objeto)

alerta

Type: Map

El recurso de alerta define una alerta de SQL (v2).

alerts:
  <alert-name>:
    <alert-field-name>: <alert-field-value>
Key Type Description
custom_description String Optional. Descripción personalizada de la alerta. Se admite la plantilla de mustache.
custom_summary String Optional. Resumen personalizado de la alerta. Admite la plantilla Mustache.
display_name String Obligatorio. Nombre visible de la alerta, por ejemplo, Example alert.
evaluation Map Obligatorio. Configuración de evaluación de la alerta. Consulte alert.evaluation.
parent_path String Optional. Ruta del área de trabajo de la carpeta que contiene la alerta. Solo se puede establecer en la creación y no se puede actualizar. Ejemplo: /Users/someone@example.com.
permissions Sequence Permisos de alerta. Consulte los permisos.
query_text String Obligatorio. Texto de la consulta que se va a ejecutar, por ejemplo, SELECT 1.
run_as Map Optional. Especifica la identidad que se usará para ejecutar la alerta. Este campo permite configurar alertas para que se ejecuten como un usuario o una entidad de servicio específicos. Consulte run_as.
  • Para la identidad de usuario: establezca user_name en el correo electrónico de un usuario de área de trabajo activa. Los usuarios solo pueden establecerlo en su propio correo electrónico.
  • Para la entidad de servicio: establezca service_principal_name en el identificador de aplicación. Requiere el rol "servicePrincipal" o "user". Si no se especifica, la alerta se ejecutará como el usuario de solicitud.
schedule Map Obligatorio. Configuración de programación de la alerta. Consulte alert.schedule.
warehouse_id String Obligatorio. Identificador del SQL Warehouse asociado a la alerta, por ejemplo, a7066a8ef796be84.

evaluación de alertas

Type: Map

Configuración de evaluación de la alerta.

Key Type Description
comparison_operator String Operador utilizado para la comparación en la evaluación de alertas.
empty_result_state String Estado de alerta si el resultado está vacío. Evite establecer este campo en UNKNOWN porque se planea que el estado UNKNOWN esté en desuso.
notification Map El usuario o cualquier otro destino al que se notificará cuando se active la alerta. Consulte alert.evaluation.notification.
source Map Columna de origen del resultado que se va a usar para evaluar la alerta. Consulte alert.evaluation.source.
threshold Map Umbral que se va a usar para la evaluación de alertas. Puede ser una columna o un valor. Consulte alert.evaluation.threshold.

alert.evaluation.notification

Type: Map

El usuario u otro destino que se notificará cuando se active la alerta.

Key Type Description
notify_on_ok Boolean Optional. Si se debe notificar a los suscriptores de alerta cuando la alerta vuelve a la normalidad.
retrigger_seconds Integer Optional. Número de segundos que una alerta espera después de desencadenarse antes de poder enviar otra notificación. Si se configura en 0 o si se omite, la alerta no enviará más notificaciones después del primer detonante. Establecer este valor en 1 permite que la alerta envíe una notificación en cada evaluación en la que se cumpla la condición, haciendo que siempre se reactive para fines de notificación.
subscriptions Sequence Optional. Lista desordenada de suscripciones de notificación. Consulte alert.evaluation.notification.subscriptions.
alert.evaluation.notification.subscriptions

Type: Sequence

Una lista desordenada de suscripciones de notificación.

Cada elemento de la lista es un AlertSubscription:

Key Type Description
destination_id String Identificador del destino de la notificación.
user_email String Dirección de correo electrónico del usuario para notificar.

alert.evaluation.source

Type: Map

Columna de origen del resultado que se va a usar para evaluar la alerta.

Key Type Description
aggregation String Método de agregación que se va a aplicar a la columna de origen. Los valores válidos son SUM, COUNT, COUNT_DISTINCT, AVGMEDIAN, , MIN, , , MAXSTDDEV
display String Nombre visible de la columna de origen.
name String Nombre de la columna de origen del resultado de la consulta.

umbral.evaluación.alerta

Type: Map

Umbral que se va a usar para la evaluación de alertas, puede ser una columna o un valor.

Key Type Description
column Map Referencia de columna que se va a usar como umbral. Consulte alert.evaluation.source.
value Map Valor literal que se va a usar como umbral. Consulte alert.evaluation.threshold.value.
alert.evaluación.umbral.valor

Type: Map

Valor literal que se va a usar como umbral. Especifique uno de los siguientes tipos de valor.

Key Type Description
bool_value Boolean Optional. Valor booleano para el umbral, por ejemplo, true.
double_value Double Optional. Valor numérico para el umbral, por ejemplo, 1.25.
string_value String Optional. Valor de cadena para el umbral, por ejemplo, test.

alert.schedule

Type: Map

Configuración de programación de la alerta.

Key Type Description
pause_status String Optional. Indica si esta programación está en pausa o no. Valores válidos: UNPAUSED, PAUSED. Predeterminado: UNPAUSED.
quartz_cron_schedule String Obligatorio. Expresión cron usando la sintaxis de Quartz que especifica el calendario para esta tubería. El formato de cuarzo se describe en formato de programador de cuarzo.
timezone_id String Obligatorio. Identificador de zona horaria de Java. La programación se resolverá con esta zona horaria. Esto se combinará con el quartz_cron_schedule para determinar el horario. Consulte SET TIME ZONE para obtener más información.

Examples

La siguiente configuración de ejemplo define una alerta con una evaluación sencilla:

resources:
  alerts:
    my_alert:
      display_name: my_alert
      evaluation:
        comparison_operator: EQUAL
        source:
          name: '1'
        threshold:
          value:
            double_value: 2
      query_text: select 2
      schedule:
        quartz_cron_schedule: '44 19 */1 * * ?'
        timezone_id: Europe/Amsterdam
      warehouse_id: 799f096837fzzzz4

La siguiente configuración de ejemplo define una alerta con permisos que evalúa el uso de la agregación y envía notificaciones:

resources:
  alerts:
    my_alert:
      permissions:
        - level: CAN_MANAGE
          user_name: someone@example.com
      custom_summary: 'My alert'
      display_name: 'My alert'
      evaluation:
        comparison_operator: 'EQUAL'
        notification:
          notify_on_ok: false
          retrigger_seconds: 1
        source:
          aggregation: 'MAX'
          display: '1'
          name: '1'
        threshold:
          value:
            double_value: 2
      query_text: 'select 2'
      schedule:
        pause_status: 'UNPAUSED'
        quartz_cron_schedule: '44 19 */1 * * ?'
        timezone_id: 'Europe/Amsterdam'
      warehouse_id: 799f096837fzzzz4

aplicación

Type: Map

El recurso de aplicación define una Aplicación de Databricks. Para obtener información sobre Las aplicaciones de Databricks, consulte Aplicaciones de Databricks.

Para agregar una aplicación, especifique la configuración para definir la aplicación, incluida la source_code_path necesaria.

Tip

Puede inicializar una agrupación con una aplicación Streamlit Databricks mediante el siguiente comando:

databricks bundle init https://github.com/databricks/bundle-examples --template-dir contrib/templates/streamlit-app
apps:
  <app-name>:
    <app-field-name>: <app-field-value>
Key Type Description
budget_policy_id String Identificador de la política de presupuesto de la aplicación.
compute_size String Tamaño de cómputo de la aplicación. Los valores válidos son MEDIUM o LARGE pero dependen de la configuración del área de trabajo.
config Map Deprecated. En su lugar, defina los comandos de configuración de la aplicación y las variables de entorno en el app.yaml archivo. Consulte Configuración de una aplicación de Databricks.
description String Descripción de la aplicación.
lifecycle Map Comportamiento del recurso cuando se implementa o se destruye. Consulte ciclo de vida.
name String Nombre de la aplicación. El nombre debe contener únicamente caracteres alfanuméricos en minúsculas y guiones. Debe ser único dentro del área de trabajo.
permissions Sequence Permisos de la aplicación. Consulte los permisos.
resources Sequence Recursos de proceso clásico de la aplicación. Consulte app.resources.
source_code_path String Ruta local ./app del código fuente de la aplicación Databricks.
user_api_scopes Sequence Ámbitos de la API de usuario.

app.recursos

Type: Sequence

Lista de recursos de proceso para la aplicación.

Cada elemento de la lista es un AppResource:

Key Type Description
description String Descripción del recurso de la aplicación.
database Map Configuración que identifica la base de datos de Lakebase que se va a usar. Consulte app.resources.database.
genie_space Map Configuración que identifica el espacio de Genie que se va a usar. Consulte app.resources.genie_space.
job Map Configuración que identifica el recurso de trabajo que se va a usar. Consulte app.resources.job.
name String Nombre del recurso de la aplicación.
secret Map Configuración que identifica el recurso secreto de Azure Databricks que se va a usar. Consulte app.resources.secret.
serving_endpoint Map Configuración que identifica el modelo que sirve el recurso de punto de conexión que se va a usar. Consulte app.resources.serving_endpoint.
sql_warehouse Map Configuración que identifica el recurso de SQL Warehouse que se va a usar. Consulte app.resources.sql_warehouse.
uc_securable Map Configuración que identifica el volumen del catálogo de Unity que se va a usar. Consulte app.resources.uc_securable.

app.recursos.base_de_datos

Type: Map

Configuración que identifica la base de datos de Lakebase que se va a usar.

Key Type Description
database_name String El nombre de la base de datos.
instance_name String Nombre de la instancia de base de datos.
permission String Nivel de permiso de la base de datos. Los valores válidos son CAN_CONNECT_AND_CREATE.

app.resources.genie_space

Type: Map

Configuración que identifica el espacio de Genie que se va a usar.

Key Type Description
name String Nombre del espacio de Genie.
permission String Nivel de permiso para el espacio. Los valores válidos incluyen CAN_VIEW, CAN_EDIT, CAN_MANAGE, CAN_RUN.
space_id String Identificador del espacio de Genie, por ejemplo 550e8400-e29b-41d4-a716-999955440000.

app.resources.job

Type: Map

Configuración que identifica el recurso de trabajo que se va a usar.

Key Type Description
id String Id. del trabajo.
permission String Nivel de autorización para el puesto. Los valores válidos incluyen CAN_VIEW, CAN_MANAGE_RUN, CAN_MANAGE, IS_OWNER.

app.recursos.secreto

Type: Map

Configuración que identifica el recurso secreto de Azure Databricks que se va a usar.

Key Type Description
key String La clave del secreto para otorgar permiso.
permission String Nivel de permiso para un secreto. Los valores válidos incluyen READ, WRITE, MANAGE.
scope String Nombre del objetivo secreto.

app.resources.punto_de_servicio

Type: Map

Configuración que identifica el modelo que sirve el recurso de punto de conexión que se va a usar.

Key Type Description
name String Nombre del punto de conexión de servicio.
permission String Nivel de permiso del endpoint de servicio. Los valores válidos incluyen CAN_QUERY, CAN_MANAGE, CAN_VIEW.

app.resources.sql_warehouse

Type: Map

Configuración que identifica el almacenamiento de SQL que se va a usar.

Key Type Description
id String El identificador del SQL Warehouse.
permission String Nivel de permiso para SQL Warehouse. Los valores válidos incluyen CAN_USE, CAN_MANAGE, IS_OWNER.

app.resources.uc_securable

Type: Map

Configuración que identifica el volumen del catálogo de Unity que se va a usar.

Key Type Description
permission String Nivel de permiso para el catálogo de Unity protegible. Los valores válidos son READ_VOLUME y WRITE_VOLUME.
securable_full_name String Nombre completo del catálogo de Unity protegible en el formato catalog.schema.volume.
securable_type String El tipo de elemento securizable del catálogo de Unity. Los valores válidos son VOLUME.

Example

En el ejemplo siguiente se crea una aplicación denominada my_app que administra un trabajo creado por la agrupación:

resources:
  jobs:
    # Define a job in the bundle
    hello_world:
      name: hello_world
      tasks:
        - task_key: task
          spark_python_task:
            python_file: ../src/main.py
          environment_key: default

      environments:
        - environment_key: default
          spec:
            environment_version: '2'

  # Define an app that manages the job in the bundle
  apps:
    job_manager:
      name: 'job_manager_app'
      description: 'An app which manages a job created by this bundle'

      # The location of the source code for the app
      source_code_path: ../src/app

      # The resources in the bundle which this app has access to. This binds the resource in the app with the bundle resource.
      resources:
        - name: 'app-job'
          job:
            id: ${resources.jobs.hello_world.id}
            permission: 'CAN_MANAGE_RUN'

La correspondiente app.yaml define la configuración para ejecutar la aplicación:

command:
  - flask
  - --app
  - app
  - run
  - --debug
env:
  - name: JOB_ID
    valueFrom: 'app-job'

Para obtener la agrupación de ejemplo de aplicación de Databricks completa, consulte el Repositorio de GitHub de bundle-examples.

clúster

Type: Map

El recurso de clúster define un clúster.

clusters:
  <cluster-name>:
    <cluster-field-name>: <cluster-field-value>
Key Type Description
apply_policy_default_values Boolean Cuando se establece en true, los valores fijos y predeterminados de la directiva se usarán para los campos que se omiten. Cuando se establece en false, solo se aplicarán los valores fijos de la directiva.
autoscale Map Parámetros necesarios para escalar y reducir verticalmente automáticamente los clústeres en función de la carga. Consulte escalado automático.
autotermination_minutes Integer Finaliza automáticamente el clúster tras estar inactivo durante el tiempo especificado en minutos. Si no se establece, este clúster no se terminará automáticamente. Si se especifica, el umbral debe estar comprendido entre 10 y 10000 minutos. Los usuarios también pueden establecer este valor en 0 para deshabilitar explícitamente la terminación automática.
aws_attributes Map Atributos relacionados con clústeres que se ejecutan en Amazon Web Services. Si no se especifica en la creación del clúster, se usará un conjunto de valores predeterminados. Consulte aws_attributes.
azure_attributes Map Atributos relacionados con clústeres que se ejecutan en Microsoft Azure. Si no se especifica en la creación del clúster, se usará un conjunto de valores predeterminados. Consulte azure_attributes.
cluster_log_conf Map Configuración para entregar registros de Spark a un destino de almacenamiento a largo plazo. Consulte cluster_log_conf.
cluster_name String Nombre del clúster solicitado por el usuario. Esto no tiene que ser único. Si no se especifica en la creación, el nombre del clúster será una cadena vacía.
custom_tags Map Etiquetas adicionales para los recursos del clúster. Databricks etiquetará todos los recursos del clúster (por ejemplo, instancias de AWS y volúmenes EBS) con estas etiquetas además de default_tags.
data_security_mode String Modelo de gobernanza de datos que se va a usar al acceder a datos desde un clúster. Los valores válidos incluyen NONE, SINGLE_USER, USER_ISOLATIONLEGACY_SINGLE_USER, , LEGACY_TABLE_ACL, . LEGACY_PASSTHROUGH
docker_image Map Imagen personalizada de Docker. Consulte docker_image.
driver_instance_pool_id String Identificador opcional del grupo de instancias para el controlador al que pertenece el clúster. El clúster de grupo utiliza el grupo de instancias con el identificador (instance_pool_id) si el grupo de controladores no está asignado.
driver_node_type_id String Tipo de nodo del controlador de Spark. Tenga en cuenta que este campo es opcional; si no se establece, el tipo de nodo de controlador se establecerá como el mismo valor node_type_id que se definió anteriormente. Este campo, junto con node_type_id, no debe establecerse si se establece virtual_cluster_size. Si se especifican driver_node_type_id, node_type_id y virtual_cluster_size, driver_node_type_id y node_type_id tienen prioridad.
enable_elastic_disk Boolean Escalado automático de almacenamiento local: cuando está habilitado, este clúster adquirirá dinámicamente espacio en disco adicional cuando sus trabajos de Spark se estén ejecutando con poco espacio en disco. Esta característica requiere permisos específicos de AWS para funcionar correctamente; consulte la Guía del usuario para obtener más detalles.
enable_local_disk_encryption Boolean Si se habilita LUKS en los discos locales de las máquinas virtuales del clúster
gcp_attributes Map Atributos relacionados con clústeres que se ejecutan en Google Cloud Platform. Si no se especifica en la creación del clúster, se usará un conjunto de valores predeterminados. Consulte gcp_attributes.
init_scripts Sequence Configuración para almacenar scripts de inicialización. Se puede especificar cualquier número de destinos. Los scripts se ejecutan de manera secuencial en el orden proporcionado. Consulte init_scripts.
instance_pool_id String Identificador opcional del grupo de instancias al que pertenece el clúster.
is_single_node Boolean Este campo solo se puede usar cuando kind = CLASSIC_PREVIEW. Cuando se establece en true, Databricks establecerá automáticamente un solo nodo relacionado con custom_tags, spark_confy num_workers
kind String El tipo de proceso descrito por esta especificación de proceso.
node_type_id String Este campo codifica, mediante un solo valor, los recursos disponibles para cada uno de los nodos de Spark de este clúster. Por ejemplo, los nodos de Spark se pueden aprovisionar y optimizar para cargas de trabajo intensivas de memoria o proceso. Se puede recuperar una lista de los tipos de nodo disponibles mediante la llamada API :method:clusters/listNodeTypes.
num_workers Integer Número de nodos de trabajo que debería tener este clúster. Un clúster tiene un Spark Driver y num_workers ejecutores para un total de num_workers + 1 nodos de Spark.
permissions Sequence Permisos del clúster. Consulte los permisos.
policy_id String Identificador de la directiva de clúster que se usa para crear el clúster si es aplicable.
runtime_engine String Determina el motor de ejecución del clúster, ya sea STANDARD o PHOTON.
single_user_name String Nombre de usuario único si data_security_mode es SINGLE_USER
spark_conf Map Objeto que contiene un conjunto de pares de clave-valor de configuración de Spark opcionales especificado por el usuario. Los usuarios también pueden pasar una cadena de opciones adicionales de JVM al controlador y a los ejecutores mediante spark.driver.extraJavaOptions y spark.executor.extraJavaOptions respectivamente.
spark_env_vars Map Objeto que contiene un conjunto de pares de clave-valor de variables de entorno opcionales especificadas por el usuario.
spark_version String La versión de Spark del clúster, por ejemplo 3.3.x-scala2.11. Se puede recuperar una lista de las versiones de Spark disponibles mediante la llamada a la API :method:clusters/sparkVersions.
ssh_public_keys Sequence Contenido de clave pública SSH que se agregará a cada nodo de Spark de este clúster. Las claves privadas correspondientes se pueden usar para iniciar sesión con el nombre ubuntu de usuario en el puerto 2200. Se pueden especificar hasta 10 claves.
use_ml_runtime Boolean Este campo solo se puede usar cuando kind = CLASSIC_PREVIEW. effective_spark_version viene determinado por spark_version (versión de DBR), este campo use_ml_runtime, y si node_type_id es un nodo de GPU o no.
workload_type Map Atributos de clúster que se muestran para los tipos de carga de trabajo de clústeres. Consulte workload_type.

cluster.autoscale

Type: Map

Parámetros para escalar y reducir verticalmente automáticamente los clústeres en función de la carga.

Key Type Description
min_workers Integer Número mínimo de trabajos a los que el clúster se puede reducir verticalmente cuando se infrautiliza. También es el número inicial de trabajos que tendrá el clúster después de la creación.
max_workers Integer Número máximo de trabajos a los que el clúster se puede escalar verticalmente cuando se sobrecarga. max_workers debe ser estrictamente mayor que min_workers.

clúster.aws_attributes

Type: Map

Atributos relacionados con clústeres que se ejecutan en Amazon Web Services.

Key Type Description
zone_id String Identificador de la zona de disponibilidad o el centro de datos en el que reside el clúster. Esta cadena tendrá una forma como us-west-2a.
availability String Tipo de disponibilidad usado para todos los nodos posteriores más allá de los first_on_demand. Los valores válidos son SPOT, ON_DEMAND, SPOT_WITH_FALLBACK.
spot_bid_price_percent Integer El precio máximo de las instancias puntuales de AWS, como porcentaje del precio a petición del tipo de instancia correspondiente.
instance_profile_arn String Los nodos de este clúster solo se colocarán en instancias de AWS con este perfil de instancia.
first_on_demand Integer Los primeros first_on_demand nodos del clúster se colocarán en instancias a petición. Este valor debe ser mayor que 0, para asegurarse de que el nodo del controlador de clúster se coloca en una instancia a petición.
ebs_volume_type String Tipo de volúmenes EBS que se lanzarán con este clúster. Los valores válidos son GENERAL_PURPOSE_SSD y THROUGHPUT_OPTIMIZED_HDD.
ebs_volume_count Integer Número de volúmenes lanzados para cada instancia.
ebs_volume_size Integer Tamaño de cada volumen EBS (en GiB) asignado a cada instancia.
ebs_volume_iops Integer Número de IOPS por volumen de EBS gp3.
ebs_volume_throughput Integer Rendimiento por volumen de EBS gp3, en MiB por segundo.

cluster.azure_attributes

Type: Map

Atributos relacionados con clústeres que se ejecutan en Microsoft Azure.

Key Type Description
first_on_demand Integer Los primeros first_on_demand nodos del clúster se colocarán en instancias a petición.
availability String Tipo de disponibilidad usado para todos los nodos posteriores más allá de los first_on_demand. Los valores válidos son SPOT_AZURE, ON_DEMAND_AZURE, SPOT_WITH_FALLBACK_AZURE.
spot_bid_max_price Number El precio máximo de las instancias de acceso puntual de Azure. Use -1 para especificar el precio más bajo.

cluster.gcp_attributes

Type: Map

Atributos relacionados con clústeres que se ejecutan en Google Cloud Platform.

Key Type Description
use_preemptible_executors Boolean Si se van a usar ejecutores preemptibles. Los ejecutores preemptibles son instancias de GCE preemptibles que GCE puede reclamar en cualquier momento.
google_service_account String La cuenta de servicio de Google que usarán las instancias de máquina virtual del clúster de Databricks.
local_ssd_count Integer Número de SSD locales que se van a adjuntar a cada nodo del clúster. El valor predeterminado es 0.
zone_id String Identificador de la zona de disponibilidad o el centro de datos en el que reside el clúster.
availability String Tipo de disponibilidad usado para todos los nodos. Los valores válidos son PREEMPTIBLE_GCP, ON_DEMAND_GCP, PREEMPTIBLE_WITH_FALLBACK_GCP.
boot_disk_size Integer Tamaño del disco de arranque en GB. Los valores suelen oscilar entre 100 y 1000.

cluster.cluster_log_conf

Configuración para entregar registros de Spark a un destino de almacenamiento a largo plazo.

Key Type Description
dbfs Map Ubicación de DBFS para la entrega de logs del clúster. Consulte dbfs.
s3 Map Ubicación de S3 para el envío de registros del clúster. Consulte s3.
volumes Map Ubicación de volúmenes para la entrega de registros del clúster. Consulte volúmenes.

cluster.cluster_log_conf.dbfs

Type: Map

Ubicación de DBFS para la entrega de logs del clúster.

Key Type Description
destination String Ruta de DBFS para la entrega de logs del clúster (por ejemplo, dbfs:/cluster-logs).

cluster.cluster_log_conf.s3

Type: Map

Ubicación de S3 para el envío de registros del clúster.

Key Type Description
destination String URI de S3 para la entrega de logs del clúster (por ejemplo, s3://my-bucket/cluster-logs).
region String La región de AWS del bucket S3.
endpoint String Dirección URL del punto de conexión S3 (opcional).
enable_encryption Boolean Si se habilita el cifrado para los registros de clúster.
encryption_type String Tipo de cifrado. Los valores válidos incluyen SSE_S3, SSE_KMS.
kms_key String ARN de clave KMS para el cifrado (cuando se usa SSE_KMS).
canned_acl String La ACL enlatada que se va a aplicar a los logs de clúster.

cluster.cluster_log_conf.volúmenes

Type: Map

Ubicación de volúmenes para la entrega de registros del clúster.

Key Type Description
destination String Ruta de volumen para la entrega del registro del clúster (por ejemplo, /Volumes/catalog/schema/volume/cluster_log).

cluster.docker_image

Type: Map

Configuración personalizada de la imagen de Docker.

Key Type Description
url String Dirección URL de la imagen de Docker.
basic_auth Map Autenticación básica para el repositorio de Docker. Consulte basic_auth.

cluster.docker_image.basic_auth

Type: Map

Autenticación básica para el repositorio de Docker.

Key Type Description
username String Nombre de usuario para la autenticación del registro de Docker.
password String Contraseña para la autenticación del registro de Docker.

archivo_de_inicialización_del_clúster

Type: Map

Configuración para almacenar scripts de inicialización. Debe especificarse al menos un tipo de ubicación.

Key Type Description
dbfs Map Ubicación de DBFS del script de inicialización. Consulte dbfs.
workspace Map Ubicación del área de trabajo del script de inicialización. Consulte el área de trabajo.
s3 Map Ubicación S3 del script de inicialización. Consulte s3.
abfss Map Ubicación de ABFSS del script de inicialización. Vea abfss.
gcs Map Ubicación GCS del script de inicialización. Consulte gcs.
volumes Map Ubicación de los volúmenes UC del script de inicio. Consulte volúmenes.

cluster.init_scripts.dbfs

Type: Map

Ubicación de DBFS del script de inicialización.

Key Type Description
destination String La ruta de acceso de DBFS del script de inicialización.

cluster.init_scripts.espacio_de_trabajo

Type: Map

Ubicación del área de trabajo del script de inicialización.

Key Type Description
destination String Ruta de acceso del área de trabajo del script de inicialización.

cluster.init_scripts.s3

Type: Map

Ubicación S3 del script de inicialización.

Key Type Description
destination String URI S3 del script de inicialización.
region String La región de AWS del bucket S3.
endpoint String Dirección URL del punto de conexión S3 (opcional).

cluster.init_scripts.abfss

Type: Map

Ubicación de ABFSS del script de inicialización.

Key Type Description
destination String Ruta del ABFSS del script de inicialización.

cluster.init_scripts.gcs

Type: Map

Ubicación GCS del script de inicialización.

Key Type Description
destination String Ruta GCS del script de inicialización.

cluster.init_scripts.volumes

Type: Map

Ubicación de volúmenes del script de inicialización.

Key Type Description
destination String Ruta de acceso de UC Volumes del script de inicialización.

cluster.tipo_de_carga_de_trabajo

Type: Map

Atributos de clúster que muestran los tipos de carga de trabajo del clúster.

Key Type Description
clients Map Define qué tipo de clientes pueden usar el clúster. Consulte clientes.

cluster.tipo_de_carga.clientes

Type: Map

Tipo de clientes para este trabajo de carga de computación.

Key Type Description
jobs Boolean Si el clúster puede ejecutar trabajos.
notebooks Boolean Si el clúster puede ejecutar cuadernos.

Examples

En el ejemplo siguiente se crea un clúster dedicado (de usuario único) para el usuario actual con Databricks Runtime 15.4 LTS y una directiva de clúster:

resources:
  clusters:
    my_cluster:
      num_workers: 0
      node_type_id: 'i3.xlarge'
      driver_node_type_id: 'i3.xlarge'
      spark_version: '15.4.x-scala2.12'
      spark_conf:
        'spark.executor.memory': '2g'
      autotermination_minutes: 60
      enable_elastic_disk: true
      single_user_name: ${workspace.current_user.userName}
      policy_id: '000128DB309672CA'
      enable_local_disk_encryption: false
      data_security_mode: SINGLE_USER
      runtime_engine": STANDARD

En este ejemplo se crea un clúster my_cluster sencillo y se establece que como clúster que se va a usar para ejecutar el cuaderno en my_job:

bundle:
  name: clusters

resources:
  clusters:
    my_cluster:
      num_workers: 2
      node_type_id: 'i3.xlarge'
      autoscale:
        min_workers: 2
        max_workers: 7
      spark_version: '13.3.x-scala2.12'
      spark_conf:
        'spark.executor.memory': '2g'

  jobs:
    my_job:
      tasks:
        - task_key: test_task
          notebook_task:
            notebook_path: './src/my_notebook.py'
          existing_cluster_id: ${resources.clusters.my_cluster.id}

panel

Type: Map

El recurso de panel permite administrar paneles de AI/BI como un conjunto. Para obtener información sobre los paneles de AI/BI, consulte Paneles.

Si ha implementado un paquete que contiene un panel del entorno local y, a continuación, usa la interfaz de usuario para modificar ese panel, las modificaciones realizadas a través de la interfaz de usuario no se aplican al archivo JSON del panel en el conjunto local a menos que lo actualice explícitamente mediante bundle generate. Puede usar la opción --watch para sondear y recuperar continuamente los cambios en el panel. Consulte generación de conjuntos de databricks.

Además, si intenta implementar una agrupación desde el entorno local que contiene un archivo JSON de panel diferente al del área de trabajo remota, se producirá un error. Para forzar la implementación y sobrescribir el panel en el área de trabajo remota por el local, utilice la opción --force. Consulte implementación de conjuntos de databricks.

Note

Al usar paquetes de activos de Databricks con compatibilidad con Git para paneles, evite que se generen paneles duplicados agregando la asignación de sincronización para excluir los paneles de sincronizarse como archivos:

sync:
  exclude:
    - src/*.lvdash.json
dashboards:
  <dashboard-name>:
    <dashboard-field-name>: <dashboard-field-value>
Key Type Description
display_name String El nombre para mostrar del panel.
embed_credentials Boolean Si las credenciales de identidad de implementación de paquete se usan para ejecutar consultas para todos los usuarios del panel de control. Si se establece en false, se usan las credenciales de un visor. El valor predeterminado es false.
etag String Etag del panel. Se puede proporcionar opcionalmente en las actualizaciones para garantizar que el panel no se ha modificado desde la última lectura.
file_path String Ruta de acceso local del recurso del panel, incluido el nombre de archivo. Los paneles exportados siempre tienen la extensión de archivo .lvdash.json.
permissions Sequence Permisos del panel de control Consulte los permisos.
serialized_dashboard Any Contenido del panel en forma de cadena serializada.
warehouse_id String Identificador de almacén que se usa para ejecutar el panel.

Example

En el ejemplo siguiente se incluye e implementa el ejemplo panel de Análisis de carreras de taxis de Nueva York en el área de trabajo de Databricks.

resources:
  dashboards:
    nyc_taxi_trip_analysis:
      display_name: 'NYC Taxi Trip Analysis'
      file_path: ../src/nyc_taxi_trip_analysis.lvdash.json
      warehouse_id: ${var.warehouse_id}

catálogo_de_base_de_datos

Type: Map

El recurso de catálogo de bases de datos permite definir catálogos de bases de datos que corresponden a instancias de base de datos de un lote. Un catálogo de bases de datos es una base de datos de Lakebase que se registra como un catálogo de Unity Catalog.

Para obtener información sobre los catálogos de bases de datos, consulte Creación de un catálogo.

database_catalogs:
  <database_catalog-name>:
    <database_catalog-field-name>: <database_catalog-field-value>
Key Type Description
create_database_if_not_exists Boolean Si desea crear la base de datos si no existe.
database_instance_name String Nombre de la instancia que contiene la base de datos.
database_name String Nombre de la base de datos (en una instancia) asociada al catálogo.
lifecycle Map Contiene la configuración del ciclo de vida de un recurso, incluido el comportamiento del recurso cuando se implementa o se destruye. Consulte ciclo de vida.
name String Nombre del catálogo en Unity Catalog.

Example

En el ejemplo siguiente se define una instancia de base de datos con un catálogo de bases de datos correspondiente:

resources:
  database_instances:
    my_instance:
      name: my-instance
      capacity: CU_1
  database_catalogs:
    my_catalog:
      database_instance_name: ${resources.database_instances.my_instance.name}
      name: example_catalog
      database_name: my_database
      create_database_if_not_exists: true

instancia_de_base_de_datos

Type: Map

El recurso de instancia de base de datos permite definir instancias de base de datos en un lote. Una instancia de base de datos de Lakebase administra los recursos de almacenamiento y proceso y proporciona los puntos de conexión a los que se conectan los usuarios.

Importante

Al implementar un paquete con una instancia de base de datos, la instancia comienza a ejecutarse inmediatamente y está sujeta a tarifas. Consulte Precios de Lakebase.

Para obtener información sobre las instancias de base de datos, consulte ¿Qué es una instancia de base de datos?.

database_instances:
  <database_instance-name>:
    <database_instance-field-name>: <database_instance-field-value>
Key Type Description
capacity String SKU de la instancia. Los valores válidos son CU_1, CU_2, CU_4, CU_8.
custom_tags Sequence Lista de pares clave-valor que especifican etiquetas personalizadas asociadas a la instancia.
enable_pg_native_login Boolean Indica si la instancia tiene habilitado el inicio de sesión de contraseña nativa de PG. Tiene como valor predeterminado true.
enable_readable_secondaries Boolean Si se habilitan secundarias para atender el tráfico de solo lectura. Tiene como valor predeterminado false.
lifecycle Map Contiene la configuración del ciclo de vida de un recurso. Controla el comportamiento del recurso cuando se implementa o se destruye. Consulte ciclo de vida.
name String Nombre de la instancia. Este es el identificador único de la instancia.
node_count Integer Número de nodos de la instancia, compuesto por 1 principal y 0 o más secundarias. El valor predeterminado es 1 principal y 0 secundarias.
parent_instance_ref Map Referencia de la instancia primaria. Esto solo está disponible si la instancia es una instancia hijo. Consulte la instancia primaria.
permissions Sequence Permisos de la instancia de base de datos. Consulte los permisos.
retention_window_in_days Integer Ventana de retención de la instancia. Este es el período de tiempo en días durante el que se conservan los datos históricos. El valor predeterminado es 7 días. Los valores válidos son de 2 a 35 días.
stopped Boolean Indica si la instancia está detenida.
usage_policy_id String Directiva de uso deseada que se va a asociar a la instancia.

instancia_de_base_de_datos.enlace_de_instancia_padre

Type: Map

Referencia de la instancia primaria. Esto solo está disponible si la instancia es una instancia hijo.

Key Type Description
branch_time String Tiempo de bifurcación de la instancia de base de datos ref. Para una instancia de referencia de padre, este es el punto en el tiempo de la instancia de padre desde la cual se creó la instancia. Para una instancia de referencia secundaria, este es el punto en el tiempo en la instancia desde el cual se creó la instancia secundaria.
lsn String LSN WAL especificado por el usuario de la instancia de base de datos de referencia.
name String Nombre de la instancia de la base de datos de referencia.

Example

En el ejemplo siguiente se define una instancia de base de datos con un catálogo de bases de datos correspondiente:

resources:
  database_instances:
    my_instance:
      name: my-instance
      capacity: CU_1
  database_catalogs:
    my_catalog:
      database_instance_name: ${resources.database_instances.my_instance.name}
      name: example_catalog
      database_name: my_database
      create_database_if_not_exists: true

Para obtener un paquete de ejemplo que muestra cómo definir una instancia de base de datos y el catálogo de bases de datos correspondiente, consulte el repositorio de GitHub bundle-examples.

experimento

Type: Map

El recurso de experimento permite definir Experimentos de MLflow en un conjunto. Para obtener información sobre los experimentos de MLflow, consulte Organizar ejecuciones de entrenamiento con experimentos de MLflow.

experiments:
  <experiment-name>:
    <experiment-field-name>: <experiment-field-value>
Key Type Description
artifact_location String Ubicación donde se almacenan los artefactos del experimento.
lifecycle Map Contiene la configuración del ciclo de vida de un recurso. Controla el comportamiento del recurso cuando se implementa o se destruye. Consulte ciclo de vida.
name String Nombre amigable que identifica el experimento. Un nombre de experimento debe ser una ruta de acceso absoluta en el área de trabajo de Databricks, por ejemplo /Workspace/Users/someone@example.com/my_experiment.
permissions Sequence Permisos del experimento. Consulte los permisos.
tags Sequence Pares clave-valor de metadatos adicionales. Consulte etiquetas.

Example

En el ejemplo siguiente se define un experimento que todos los usuarios pueden ver:

resources:
  experiments:
    experiment:
      name: /Workspace/Users/someone@example.com/my_experiment
      permissions:
        - level: CAN_READ
          group_name: users
      description: MLflow experiment used to track runs

trabajo

Type: Map

Los trabajos se admiten en Python para conjuntos de recursos de Databricks. Consulte databricks.bundles.jobs.

El recurso de trabajo permite definir trabajos y sus tareas correspondientes en la agrupación.

Para obtener información sobre los trabajos, consulte Trabajos de Lakeflow. Para ver un tutorial que usa una plantilla de Conjuntos de recursos de Databricks para crear un trabajo, consulte Desarrollo de un trabajo con Conjuntos de recursos de Databricks.

jobs:
  <job-name>:
    <job-field-name>: <job-field-value>
Key Type Description
budget_policy_id String El id de la directiva de presupuesto especificada por el usuario que se utilizará para este trabajo. Si no se especifica, se puede aplicar una directiva de presupuesto predeterminada al crear o modificar el trabajo. Consulte effective_budget_policy_id para la directiva de presupuesto utilizada por esta carga de trabajo.
continuous Map Propiedad continua opcional para este trabajo. La propiedad continua garantizará que siempre haya un proceso en ejecución. Solo se puede usar uno de schedule y continuous. Consulte continuo.
deployment Map Información de despliegue para trabajos gestionados por fuentes externas. Consulte Implementación.
description String Descripción opcional del trabajo. La longitud máxima es de 27700 caracteres en codificación UTF-8.
edit_mode String Modo de edición del trabajo, ya sea UI_LOCKED o EDITABLE.
email_notifications Map Conjunto opcional de direcciones de correo electrónico que se notifican cuando se inician o completan las ejecuciones de este trabajo, así como cuando se elimina este trabajo. Consulte email_notifications.
environments Sequence Lista de especificaciones del entorno de ejecución de tareas a las que pueden hacer referencia las tareas sin servidor de este trabajo. Es necesario que un entorno esté presente para las tareas sin servidor. Para las tareas de cuaderno sin servidor, el entorno es accesible en el panel del entorno del cuaderno. Para otras tareas sin servidor, es necesario especificar el entorno de tareas mediante environment_key en la configuración de la tarea. Consulte entornos.
format String Deprecated. Formato del trabajo.
git_source Map Especificación opcional para un repositorio de Git remoto que contiene el código fuente que usan las tareas. Consulte job.git_source.
Importante: Los campos git_source y source configurados como GIT no se recomiendan para conjuntos, ya que es posible que las rutas de acceso relativas locales no apunten al mismo contenido en el repositorio de Git, y los conjuntos esperan que un trabajo implementado tenga el mismo contenido que la copia local desde donde se implementó.
En su lugar, clone el repositorio localmente y configure el proyecto de agrupación dentro de este repositorio, de modo que el origen de las tareas sea el área de trabajo.
health Map Conjunto opcional de reglas de mantenimiento que se pueden definir para este trabajo. Consulte la salud.
job_clusters Sequence Lista de especificaciones de clúster de trabajos que las tareas de este trabajo pueden compartir y reutilizar. Consulte job_clusters.
max_concurrent_runs Integer Número máximo permitido opcional de ejecuciones simultáneas del trabajo. Establezca este valor si desea poder ejecutar varias ejecuciones del mismo trabajo de manera simultánea.
name String Nombre opcional del trabajo. La longitud máxima es de 4096 bytes en codificación UTF-8.
notification_settings Map Configuración de notificación opcional que se usa al enviar notificaciones a email_notifications y webhook_notifications para este trabajo. Consulte notification_settings.
parameters Sequence Definiciones de parámetros de nivel de trabajo.
performance_target String Define cómo debe ser el rendimiento o la eficiencia del costo en la ejecución sobre serverless.
permissions Sequence Permisos del trabajo. Consulte los permisos.
queue Map Configuración de cola del trabajo. Consulte cola.
run_as Map Configuración de solo escritura. Especifica el usuario o la entidad de servicio en la que se ejecuta el trabajo. Si no se especifica, el trabajo se ejecuta como el usuario que creó el trabajo. Se debe especificar user_name o service_principal_name. Si no se establece, se produce un error. Consulte run_as.
schedule Map Programación periódica opcional para este trabajo. El comportamiento predeterminado es que el trabajo solo se ejecuta cuando se desencadena haciendo clic en "Ejecutar ahora" en la interfaz de usuario de trabajos o enviando una solicitud de API a runNow. Consulte programación.
tags Map Mapa de etiquetas asociadas al trabajo. Estos se reenvían al clúster como etiquetas de clúster para clústeres de trabajo y están sujetos a las mismas limitaciones que las etiquetas de clúster. Se puede agregar un máximo de 25 etiquetas al trabajo.
tasks Sequence Lista de especificaciones de tareas que se ejecutarán por este trabajo. Consulte Agregar tareas a trabajos en conjuntos de recursos de Databricks.
timeout_seconds Integer Límite de tiempo opcional que se aplica a cada ejecución de esta tarea. Un valor de 0 significa sin límite de tiempo.
trigger Map Configuración para desencadenar una ejecución cuando se cumplen determinadas condiciones. Consulte desencadenador.
webhook_notifications Map Colección de identificadores de notificación del sistema que se van a notificar cuando las ejecuciones de este trabajo comienzan o se completan. Consulte webhook_notifications.

trabajo.continuo

Type: Map

Configuración para la ejecución continua del trabajo.

Key Type Description
pause_status String Indica si el trabajo continuo está en pausa o no. Valores válidos: PAUSED, UNPAUSED.
task_retry_mode String Indique cómo el trabajo en curso está aplicando reintentos a nivel de tarea. Los valores válidos son NEVER y ON_FAILURE. Tiene como valor predeterminado NEVER.

job.implementación

Type: Map

Información de despliegue para trabajos gestionados por fuentes externas.

Key Type Description
kind String Tipo de implementación. Por ejemplo: BUNDLE.
metadata_file_path String Ruta de acceso al archivo de metadatos de la implementación.

trabajo.notificaciones_por_correo_electrónico

Type: Map

Configuración de notificaciones por correo electrónico para ejecuciones de trabajos.

Key Type Description
on_start Sequence Lista de direcciones de correo electrónico que se van a notificar cuando se inicia una ejecución.
on_success Sequence Lista de direcciones de correo electrónico que se deben notificar cuando una ejecución se realiza correctamente.
on_failure Sequence Lista de direcciones de correo electrónico que se deben notificar cuando se produce un error en una ejecución.
on_duration_warning_threshold_exceeded Sequence Lista de direcciones de correo electrónico que se deben notificar cuando una duración de ejecución supera el umbral de advertencia.
no_alert_for_skipped_runs Boolean Si se debe omitir el envío de alertas para ejecuciones saltadas.

trabajo.entornos

Type: Sequence

Lista de especificaciones del entorno de ejecución de tareas a las que pueden hacer referencia las tareas sin servidor de un trabajo.

Cada elemento de la lista es: JobEnvironment

Key Type Description
environment_key String Clave de un entorno. Debe ser único dentro de un trabajo.
spec Map Entidad que representa un entorno sin servidor. Consulte job.environments.spec.

job.environments.spec

Type: Map

Entidad que representa un entorno sin servidor.

Key Type Description
client String Deprecated. La versión del cliente.
dependencies Sequence Lista de dependencias de pip, como admite la versión de pip en este entorno.
environment_version String Obligatorio. Versión del entorno usada por el entorno. Cada versión incluye una versión específica de Python y un conjunto de paquetes de Python. La versión es una cadena que consta de un entero.

job.git_source

Type: Map

Configuración del repositorio de Git para el código fuente del trabajo.

Key Type Description
git_branch String Nombre de la rama que se extraerá y usará en esta tarea. Este campo no se puede especificar junto con git_tag o git_commit.
git_commit String Confirme que se va a desprotegir y usar este trabajo. Este campo no se puede especificar junto con git_branch o git_tag.
git_provider String Identificador único del servicio usado para hospedar el repositorio de Git. El valor no distingue mayúsculas de minúsculas. Los valores válidos son gitHub, bitbucketCloud, gitLab, azureDevOpsServicesgitHubEnterprise, , bitbucketServer, . gitLabEnterpriseEdition
git_snapshot Map Estado de solo lectura del repositorio remoto en el momento en que se ejecutó el trabajo. Este campo solo se incluye en ejecuciones de trabajo. Consulte git_snapshot.
git_tag String Nombre de la etiqueta que se va a desprotegir y usar en este trabajo. Este campo no se puede especificar junto con git_branch o git_commit.
git_url String Dirección URL del repositorio que va a clonar este trabajo.

job.git_source.git_snapshot

Type: Map

Instantánea de información de confirmación de solo lectura.

Key Type Description
used_commit String Confirmación que se usó para ejecutar la ejecución. Si git_branch se especificó, apunta a la HEAD de la rama en el momento de la ejecución; si git_tag se especificó, apunta al commit al que apunta la etiqueta.

estado.salud

Type: Map

Configuración de supervisión de la salud del trabajo.

Key Type Description
rules Sequence Lista de reglas de salud laboral. Cada regla contiene un metric y un op (operador) y un value. Consulte job.health.rules.

trabajo.salud.reglas

Type: Sequence

Lista de reglas de salud laboral.

Cada elemento de la lista es: JobHealthRule

Key Type Description
metric String Especifica la métrica de salud que se está evaluando para una regla de salud determinada.
  • RUN_DURATION_SECONDS: tiempo total esperado para una ejecución en segundos.
  • STREAMING_BACKLOG_BYTES: una estimación del máximo de bytes de datos pendientes de consumir en todos los flujos. Esta métrica está en versión preliminar pública.
  • STREAMING_BACKLOG_RECORDS: una estimación del retraso de desplazamiento máximo en todas las secuencias. Esta métrica está en versión preliminar pública.
  • STREAMING_BACKLOG_SECONDS: una estimación del retraso máximo de consumo en todos los flujos. Esta métrica está en versión preliminar pública.
  • STREAMING_BACKLOG_FILES: una estimación del número máximo de archivos pendientes en todas las secuencias. Esta métrica está en versión preliminar pública.
op String Especifica el operador utilizado para comparar el valor de la métrica de salud con el umbral especificado.
value Integer Especifica el valor de umbral que debe cumplir la métrica de mantenimiento para satisfacer la regla de mantenimiento.

trabajo.clusters_de_tareas

Type: Sequence

Lista de especificaciones de clúster de trabajos que las tareas de este trabajo pueden compartir y reutilizar. Las bibliotecas no se pueden declarar en un clúster de trabajos compartidos. Debe declarar bibliotecas dependientes en la configuración de tareas.

Cada elemento de la lista es: JobCluster

Key Type Description
job_cluster_key String Un nombre único para el clúster de trabajos. Este campo es obligatorio y debe ser único dentro del trabajo. JobTaskSettings puede hacer referencia a este campo para determinar qué clúster se va a iniciar para la ejecución de la tarea.
new_cluster Map Si new_cluster, una descripción de un clúster que se crea para cada tarea. Consulte el clúster.

trabajo.configuración_de_notificaciones

Type: Map

Configuración de notificación que se aplica a todas las notificaciones del trabajo.

Key Type Description
no_alert_for_skipped_runs Boolean Si se debe omitir el envío de alertas para ejecuciones saltadas.
no_alert_for_canceled_runs Boolean Si se debe omitir el envío de alertas por ejecuciones canceladas.

job.queue

Type: Map

Configuración de cola para la tarea.

Key Type Description
enabled Boolean Si se va a habilitar la puesta en cola para el trabajo.

programación.trabajos

Type: Map

Programar la configuración para la ejecución periódica del trabajo.

Key Type Description
quartz_cron_expression String Expresión Cron con sintaxis de Quartz que especifica cuándo se ejecuta la tarea. Por ejemplo, 0 0 9 * * ? ejecuta el trabajo todos los días a las 9:00 UTC.
timezone_id String Zona horaria de la programación. Por ejemplo, America/Los_Angeles o UTC.
pause_status String Indica si la programación está en pausa o no. Valores válidos: PAUSED, UNPAUSED.

job.trigger

Type: Map

Configuración del trigger para la ejecución de trabajos impulsados por eventos.

Key Type Description
file_arrival Map Desencadenador basado en la llegada de archivos. Consulte file_arrival.
table Map Desencadenador basado en una tabla. Consulte la tabla.
table_update Map Desencadenador basado en las actualizaciones de la tabla. Consulte table_update.
periodic Map Activador periódico. Consulte periódicamente.

trabajo.disparador.llegada_archivo

Type: Map

Configuración de desencadenadores basada en la llegada de archivos.

Key Type Description
url String Ruta de acceso que se va a supervisar en busca de nuevos archivos.
min_time_between_triggers_seconds Integer Tiempo mínimo en segundos entre eventos de activación.
wait_after_last_change_seconds Integer Tiempo de espera en segundos después del último cambio de archivo antes de desencadenarse.

job.trigger.table

Type: Map

Configuración de activación basada en una tabla.

Key Type Description
table_names Sequence Lista de nombres de tabla para supervisar.
condition String Condición SQL que se debe cumplir para desencadenar el trabajo.

trabajo.activar.actualización_tabla

Type: Map

Configuración de desencadenador basada en actualizaciones de tabla.

Key Type Description
table_names Sequence Lista de nombres de tabla para supervisar las actualizaciones.
condition String Condición SQL que se debe cumplir para desencadenar el trabajo.
wait_after_last_change_seconds Integer Tiempo de espera en segundos después de la última actualización de la tabla antes de desencadenarse.

trabajo.activación.periódica

Type: Map

Configuración periódica del desencadenador.

Key Type Description
interval Integer Valor de intervalo del desencadenador periódico.
unit String Unidad de tiempo para el intervalo. Valores válidos: SECONDS, MINUTES, HOURS, DAYS, WEEKS.

trabajo.notificaciones_de_webhook

Type: Map

Configuración de notificación de webhook para la ejecución de trabajos.

Key Type Description
on_start Sequence Lista de identificadores de notificación de webhook que se deben notificar cuando se inicia una ejecución.
on_success Sequence Lista de identificadores de notificación de webhook que se deben notificar cuando una ejecución tiene éxito.
on_failure Sequence Lista de identificadores de notificación de webhook que se deben notificar cuando se produce un error en una ejecución.
on_duration_warning_threshold_exceeded Sequence Lista de identificadores de notificación de webhook para avisar cuando la duración de ejecución supera el umbral de advertencia.

Examples

En el ejemplo siguiente se define un trabajo con la clave de recurso hello-job con una tarea de cuaderno:

resources:
  jobs:
    hello-job:
      name: hello-job
      tasks:
        - task_key: hello-task
          notebook_task:
            notebook_path: ./hello.py

En el ejemplo siguiente se define un trabajo con un cuaderno de SQL:

resources:
  jobs:
    job_with_sql_notebook:
      name: 'Job to demonstrate using a SQL notebook with a SQL warehouse'
      tasks:
        - task_key: notebook
          notebook_task:
            notebook_path: ./select.sql
            warehouse_id: 799f096837fzzzz4

Para obtener ejemplos de configuración de trabajos adicionales, consulte Configuración del trabajo.

Para obtener información sobre cómo definir tareas de trabajo e invalidar la configuración del trabajo, consulte:

modelo (heredado)

Type: Map

El recurso de modelo permite definir modelos heredados en agrupaciones. Databricks recomienda que use modelos registrados de Unity Catalog en su lugar.

punto_de_servicio_del_modelo

Type: Map

El recurso model_serving_endpoint permite definir puntos de conexión de modelo de servicio. Consulte Administración de puntos de conexión de modelo de servicio.

model_serving_endpoints:
  <model_serving_endpoint-name>:
    <model_serving_endpoint-field-name>: <model_serving_endpoint-field-value>
Key Type Description
ai_gateway Map Configuración de puerta de enlace de IA para el punto de conexión de servicio. NOTA: Actualmente solo se admiten los puntos de conexión de rendimiento aprovisionados y el modelo externo. Consulte ai_gateway.
config Map Configuración principal del punto de conexión de servicio. Consulte config.
name String Nombre del punto de conexión de servicio. Este campo es obligatorio y debe ser único en un área de trabajo de Databricks. Un nombre de punto de conexión puede constar de caracteres alfanuméricos, guiones y caracteres de subrayado.
permissions Sequence Los permisos del Modelo de puntos de conexión de servicio. Consulte los permisos.
rate_limits Sequence Deprecated. Límites de velocidad que se aplicarán al punto de servicio. Use AI Gateway para administrar los límites de velocidad.
route_optimized Boolean Active la optimización de rutas para el endpoint de servicio.
tags Sequence Etiquetas que se adjuntarán al punto final de servicio y se propagarán automáticamente a los registros de facturación.

punto_de_servicio_de_modelo.puerta_de_enlace_ia

Type: Map

Configuración del Gateway de IA para el punto de servicio.

Key Type Description
guardrails Map Configuración de guardarraíl. Consulte barreras de protección.
inference_table_config Map Configuración del registro de inferencia en tablas del catálogo de Unity. Consulte inference_table_config.
rate_limits Sequence Configuraciones de límite de velocidad.
usage_tracking_config Map Configuración para el seguimiento del uso. Consulte usage_tracking_config.

model_serving_endpoint.ai_gateway.guardrails

Type: Map

Configuración de barreras de puerta de enlace de AI.

Key Type Description
input Map Configuración de límites de protección de entrada con campos como safety, pii.
output Map Configuración de límites de protección de salida con campos como safety, pii.
invalid_keywords Sequence Lista de palabras clave que se van a bloquear.

punto_de_servicio_de_modelo.puerta_de_enlace_ia.configuración_de_tabla_de_inferencia

Type: Map

Configuración del registro de inferencia en tablas del catálogo de Unity.

Key Type Description
catalog_name String Nombre del catálogo en Unity Catalog.
schema_name String Nombre del esquema en el catálogo de Unity.
table_name_prefix String Prefijo para nombres de tabla de inferencia.
enabled Boolean Indica si el registro de tablas de inferencia está habilitado.

model_serving_endpoint.ai_gateway.configuración_de_seguimiento_de_uso

Type: Map

Configuración del portal de IA para el seguimiento del uso.

Key Type Description
enabled Boolean Indica si el seguimiento de uso está habilitado.

model_serving_endpoint.config

Type: Map

Configuración principal del punto de conexión de servicio.

Key Type Description
served_entities Sequence Lista de entidades a las que el punto de conexión proporcionará servicios. Cada entidad atendida contiene campos como entity_name, , entity_versionworkload_size, scale_to_zero_enabled, workload_type, . environment_vars
served_models Sequence (En desuso: use served_entities en su lugar) Una lista de modelos que el punto de conexión debe procesar.
traffic_config Map La configuración del tráfico que define cómo se deben enrutar las invocaciones al punto de conexión de servicio. Consulte traffic_config.
auto_capture_config Map Configuración de tablas de inferencia que registra automáticamente las solicitudes y respuestas al catálogo de Unity. Consulte auto_capture_config.

punto_de_servicio_de_modelo.config.configuración_de_tráfico

Type: Map

La configuración del tráfico que define cómo se deben enrutar las invocaciones al punto de conexión de servicio.

Key Type Description
routes Sequence Lista de rutas para la distribución del tráfico. Cada ruta contiene served_model_name y traffic_percentage.

model_serving_endpoint.config.auto_capture_config

Type: Map

Configuración de tablas de inferencia que registra automáticamente las solicitudes y respuestas al catálogo de Unity.

Key Type Description
catalog_name String Nombre del catálogo en Unity Catalog.
schema_name String Nombre del esquema en el catálogo de Unity.
table_name_prefix String Prefijo para nombres de tabla de inferencia.
enabled Boolean Indica si el registro de tablas de inferencia está habilitado.

Example

En el ejemplo siguiente se define un modelo de Catálogo de Unity que sirve el punto de conexión:

resources:
  model_serving_endpoints:
    uc_model_serving_endpoint:
      name: 'uc-model-endpoint'
      config:
        served_entities:
          - entity_name: 'myCatalog.mySchema.my-ads-model'
            entity_version: '10'
            workload_size: 'Small'
            scale_to_zero_enabled: 'true'
        traffic_config:
          routes:
            - served_model_name: 'my-ads-model-10'
              traffic_percentage: '100'
      tags:
        - key: 'team'
          value: 'data science'

canalización

Type: Map

Los pipelines son compatibles con Python para los paquetes de recursos de Databricks. Consulte databricks.bundles.pipelines.

El recurso de canalización permite crear canalizaciones. Para obtener información sobre las canalizaciones, consulte Canalizaciones declarativas de Spark de Lakeflow. Para consultar un tutorial que utiliza la plantilla Databricks Asset Bundles para crear una canalización, vea Desarrollar canalizaciones declarativas de Spark Lakeflow con Databricks Asset Bundles.

pipelines:
  <pipeline-name>:
    <pipeline-field-name>: <pipeline-field-value>
Key Type Description
allow_duplicate_names Boolean Si es falso, la implementación fallará si el nombre entra en conflicto con el de otra canalización.
budget_policy_id String Directiva de presupuesto de esta canalización.
catalog String Un catálogo en Unity Catalog donde publicar datos de esta canalización. Si se especifica target, las tablas de esta canalización se publican en un esquema target dentro de catalog (por ejemplo, catalog.target.table). Si target no se especifica, no se publica ningún dato en el catálogo de Unity.
channel String Canal de lanzamiento de las canalizaciones declarativas de Spark de Lakeflow que especifica qué versión de estas canalizaciones debe utilizarse.
clusters Sequence La configuración del clúster para esta implementación de canalización. Consulte el clúster.
configuration Map Configuración de esta ejecución de canalización.
continuous Boolean Indica si la canalización es continua o se desencadena. Esto reemplaza a trigger.
deployment Map Tipo de implementación de esta canalización. Consulte Implementación.
development Boolean Si la canalización está o no en modo de desarrollo. El valor predeterminado es False.
dry_run Boolean Si la canalización es una canalización de simulación.
edition String Edición del producto de canalización.
environment Map Especificación de entorno para esta canalización que se usa para instalar dependencias en el proceso sin servidor. Consulte entorno. Esta clave solo se admite en la VERSIÓN 0.258 de la CLI de Databricks y versiones posteriores.
event_log Map Configuración del registro de eventos para esta canalización. Consulte event_log.
filters Map Filtros que determinan qué paquetes de canalización se van a incluir en el gráfico implementado. Consulte filtros.
id String Identificador único de esta canalización.
ingestion_definition Map Configuración de una canalización de ingesta administrada. Estas configuraciones no se pueden usar con los ajustes libraries, schema, target o catalog. Consulte ingestion_definition.
libraries Sequence Lista de bibliotecas o código que necesita esta implementación. Consulte pipeline.libraries.
lifecycle Map Contiene la configuración del ciclo de vida de un recurso. Controla el comportamiento del recurso cuando se implementa o se destruye. Consulte ciclo de vida.
name String Nombre amigable para esta tubería.
notifications Sequence Configuración de notificación para esta canalización.
permissions Sequence Permisos de la canalización. Consulte los permisos.
photon Boolean Si Photon está habilitado para esta canalización.
root_path String Ruta de acceso raíz de esta canalización. Esto se usa como directorio raíz al editar la canalización en la interfaz de usuario de Databricks y se agrega a sys.path al ejecutar orígenes de Python durante la ejecución de la canalización.
run_as Map La identidad con la que se ejecuta la canalización. Si no se especifica, la canalización se ejecuta como el usuario que creó la canalización. Solo user_name o service_principal_name se puede especificar. Si se especifican ambos, se produce un error. Consulte run_as.
schema String Esquema predeterminado (base de datos) donde se leen o publican tablas.
serverless Boolean Si se habilita la computación sin servidor para esta canalización.
storage String Directorio raíz de DBFS para almacenar puntos de control y tablas.
tags Map Mapa de etiquetas asociadas a la canalización. Estos se reenvieron al clúster como etiquetas de clúster y, por tanto, están sujetos a las mismas limitaciones. Se pueden agregar un máximo de 25 etiquetas a la canalización.
target String Esquema de destino (base de datos) para agregar tablas a esta canalización. Se debe especificar exactamente uno de schema o target. Para publicar en el Catálogo de Unity, también especifique catalog. Este campo heredado está en desuso para la creación de canalizaciones en favor del campo schema.

pipeline.deployment

Type: Map

Configuración del tipo de implementación para el pipeline.

Key Type Description
kind String Tipo de implementación. Por ejemplo: BUNDLE.
metadata_file_path String Ruta de acceso al archivo de metadatos de la implementación.

pipeline.entorno

Type: Map

Especificación del entorno para instalar dependencias en cómputo sin servidor.

Key Type Description
dependencies Sequence Lista de dependencias de pip compatibles con la versión de pip en este entorno. Cada dependencia es una línea de un archivo de requerimientos pip.

pipeline.registro_de_eventos

Type: Map

Configuración del registro de eventos para la tubería.

Key Type Description
catalog String El catálogo de Unity Catalog bajo el cual se publica el registro de eventos.
name String El nombre en el que se publica el registro de eventos en el catálogo de Unity.
schema String El esquema del catálogo de Unity en el que se publica el registro de eventos.

pipeline.filtros

Type: Map

Filtra qué paquetes de canalización se van a incluir en el gráfico implementado.

Key Type Description
include Sequence Lista de nombres de paquete que se van a incluir.
exclude Sequence Lista de nombres de paquete que se van a excluir.

pipeline.ingestion_definition

Type: Map

Configuración de una canalización de ingesta administrada. Estas configuraciones no se pueden usar con los ajustes libraries, schema, target o catalog.

Key Type Description
connection_name String Nombre de la conexión que se va a usar para la ingesta.
ingestion_gateway_id String Identificador de la puerta de enlace de ingestión.
objects Sequence Obligatorio. Configuración que especifica tablas que se van a replicar y el destino de las tablas replicadas. Cada objeto puede ser schemaSpec, TableSpec o ReportSpec.
source_configuration Map Parámetros de configuración de origen de nivel de catálogo. Consulte source_configuration.
table_configuration Map Configuración de las tablas de ingesta. Consulte table_configuration.

SchemaSpec

Type: Map

Especificación de objeto de esquema para ingerir todas las tablas de un esquema.

Key Type Description
source_schema String Nombre del esquema de origen que se debe ingerir.
destination_catalog String Nombre del catálogo de destino en el catálogo de Unity.
destination_schema String Nombre del esquema de destino en el catálogo de Unity.
table_configuration Map Configuración que se va a aplicar a todas las tablas de este esquema. Consulte pipeline.ingestion_definition.table_configuration.

TableSpec

Type: Map

Especificación del objeto de tabla para la ingesta de una tabla específica.

Key Type Description
source_schema String Nombre del esquema de origen que contiene la tabla.
source_table String Nombre de la tabla de origen que se va a ingerir.
destination_catalog String Nombre del catálogo de destino en el catálogo de Unity.
destination_schema String Nombre del esquema de destino en el catálogo de Unity.
destination_table String Nombre de la tabla de destino en el catálogo de Unity.
table_configuration Map Configuración de esta tabla específica. Consulte pipeline.ingestion_definition.table_configuration.

EspecificaciónDeReporte

Type: Map

Especificación del objeto de informe para la ingesta de informes de análisis.

Key Type Description
source_url String Dirección URL del informe de origen.
source_report String Nombre o identificador del informe de origen.
destination_catalog String Nombre del catálogo de destino en el catálogo de Unity.
destination_schema String Nombre del esquema de destino en el catálogo de Unity.
destination_table String Nombre de la tabla de destino de los datos del informe.
table_configuration Map Configuración de la tabla de informes. Consulte pipeline.ingestion_definition.table_configuration.

tubería.definición_ingesta.configuración_fuente

Type: Map

Configuración de la fuente.

Key Type Description
catalog Map Parámetros de configuración de origen de nivel de catálogo. Consulte el catálogo.
pipeline.definición_de_ingestión.configuración_de_fuente.catálogo

Type: Map

Parámetros de configuración de nivel de catálogo para fuentes

Key Type Description
postgres Map Parámetros de configuración de nivel de catálogo específicos de Postgres. Contiene una slot_config clave que representa Map la configuración de ranura de Postgres que se va a usar para la replicación lógica.
source_catalog String Nombre del catálogo de origen.

tubería.definición_ingestión.configuración_tabla

Type: Map

Opciones de configuración para tablas de ingesta.

Key Type Description
exclude_columns Sequence Lista de nombres de columna que se excluirán para el procesamiento. Cuando no se especifica, include_columns gestiona completamente qué columnas serán ingeridas. Cuando se especifica, todas las demás columnas, incluidas las futuras, se incluirán automáticamente para la ingestión. Este campo se excluye mutuamente con include_columns.
include_columns Sequence Lista de nombres de columna que se van a incluir para la ingesta. Cuando no se especifica, se incluirán todas las columnas excepto las de exclude_columns . Las columnas futuras se incluirán automáticamente. Cuando se especifique, todas las columnas futuras restantes serán excluidas automáticamente de la ingesta. Este campo se excluye mutuamente con exclude_columns.
primary_keys Sequence Lista de nombres de columna que se van a usar como claves principales para la tabla.
sequence_by Sequence Nombres de columna que especifican el orden lógico de los eventos en los datos de origen. Spark Declarative Pipelines usa esta secuenciación para controlar los eventos de cambio que llegan fuera del orden.

pipeline.libraries

Type: Sequence

Define la lista de bibliotecas o código que necesita esta canalización.

Cada elemento de la lista es una definición:

Key Type Description
file Map La ruta de acceso a un archivo que define una canalización y se almacena en Databricks Repos. Consulte pipeline.libraries.file.
glob Map Campo unificado para incluir el código fuente. Cada entrada puede ser una ruta de acceso de cuaderno, una ruta de acceso de archivo o una ruta de acceso de carpeta que finaliza /**. Este campo no se puede usar junto con notebook o file. Consulte pipeline.libraries.glob.
notebook Map Ruta de acceso a un cuaderno que define una canalización y se almacena en el área de trabajo de Databricks. Consulte pipeline.libraries.notebook.
whl String Este campo está en desuso

pipeline.libraries.file

Type: Map

Ruta de acceso a un archivo que define una canalización y se almacena en los repositorios de Databricks.

Key Type Description
path String Ruta de acceso absoluta del código fuente.

pipeline.libraries.glob

Type: Map

Campo unificado para incluir el código fuente. Cada entrada puede ser una ruta de acceso de cuaderno, una ruta de acceso de archivo o una ruta de acceso de carpeta que finaliza /**. Este campo no se puede usar junto con notebook o file.

Key Type Description
include String Código fuente para incluir en canalizaciones

pipeline.libraries.notebook

Type: Map

Ruta de acceso a un cuaderno que define una canalización y se almacena en el área de trabajo de Databricks.

Key Type Description
path String Ruta de acceso absoluta del código fuente.

Example

En el ejemplo siguiente se define una canalización con la clave de recurso hello-pipeline:

resources:
  pipelines:
    hello-pipeline:
      name: hello-pipeline
      clusters:
        - label: default
          num_workers: 1
      development: true
      continuous: false
      channel: CURRENT
      edition: CORE
      photon: false
      libraries:
        - notebook:
            path: ./pipeline.py

Para obtener ejemplos de configuración de canalización adicionales, consulte Configuración de canalización.

quality_monitor (Catálogo de Unity)

Type: Map

El recurso quality_monitor permite definir un monitor de tabla de catálogo de Unity. Para obtener información sobre los monitores, consulte Generación de perfiles de datos.

quality_monitors:
  <quality_monitor-name>:
    <quality_monitor-field-name>: <quality_monitor-field-value>
Key Type Description
assets_dir String Directorio para almacenar recursos de supervisión (por ejemplo, panel, tablas de métricas).
baseline_table_name String Nombre de la tabla de línea base desde la que se calculan las métricas de desfase. Las columnas de la tabla supervisada también deben estar presentes en la tabla de línea base.
custom_metrics Sequence Métricas personalizadas para calcular en la tabla supervisada. Pueden ser métricas agregadas, métricas derivadas (de métricas agregadas ya calculadas) o métricas de desfase (comparando métricas entre ventanas de tiempo). Consulte custom_metrics.
inference_log Map Configuración para supervisar los registros de inferencia. Consulte inference_log.
lifecycle Map Contiene la configuración del ciclo de vida de un recurso. Controla el comportamiento del recurso cuando se implementa o se destruye. Consulte ciclo de vida.
notifications Map Configuración de notificación del monitor. Consulte las notificaciones.
output_schema_name String Esquema en el que se crean tablas de métricas de salida.
schedule Map Programación para actualizar y refrescar automáticamente las tablas de métricas. Consulte programación.
skip_builtin_dashboard Boolean Si se omite la creación de un panel predeterminado que resume las métricas de calidad de los datos.
slicing_exprs Sequence Lista de expresiones de columna con las que segmentar los datos para el análisis específico. Los datos se agrupan por cada expresión de forma independiente, lo que da como resultado un segmento independiente para cada predicado y sus complementos. En el caso de las columnas de cardinalidad alta, solo los 100 valores únicos principales por frecuencia generarán segmentos.
snapshot Map Configuración para supervisar tablas de instantáneas. Consulte instantánea.
table_name String Nombre completo de la tabla.
time_series Map Configuración para supervisar tablas de series temporales. Consulte time_series.
warehouse_id String Argumento opcional para especificar el almacenamiento para la creación del panel. Si no se especifica, se usará el primer almacén operativo.

monitor_de_calidad.métricas_personalizadas

Type: Sequence

Lista de definiciones de métricas personalizadas.

Cada elemento de la lista es: CustomMetric

Key Type Description
definition String Plantilla de Jinja para una expresión SQL que especifica cómo calcular la métrica. Consulte Creación de la definición de métricas.
input_columns Sequence Lista de nombres de columna de la tabla de entrada para la que se debe calcular la métrica. Puede usar :table para indicar que la métrica necesita información de varias columnas.
name String Nombre de la métrica en las tablas de salida.
output_data_type String Tipo de salida de la métrica personalizada.
type String Solo puede ser uno de CUSTOM_METRIC_TYPE_AGGREGATE, CUSTOM_METRIC_TYPE_DERIVEDo CUSTOM_METRIC_TYPE_DRIFT. Las métricas CUSTOM_METRIC_TYPE_AGGREGATE y CUSTOM_METRIC_TYPE_DERIVED se calculan en una sola tabla, mientras que las métricas CUSTOM_METRIC_TYPE_DRIFT se comparan entre la tabla de referencia y la tabla de entrada, o entre dos ventanas de tiempo consecutivas.
  • CUSTOM_METRIC_TYPE_AGGREGATE: solo depende de las columnas existentes en tu tabla.
  • CUSTOM_METRIC_TYPE_DERIVED: depende de las métricas agregadas calculadas anteriormente.
  • CUSTOM_METRIC_TYPE_DRIFT: depende de las métricas agregadas o derivadas que se hayan calculado previamente.

monitor_de_calidad.configuración_de_clasificación_de_datos

Type: Map

Configuración para la clasificación de datos.

Key Type Description
enabled Boolean Si la clasificación de datos está habilitada.

monitoreo_de_calidad.registro_de_inferencia

Type: Map

Configuración para supervisar los registros de inferencia.

Key Type Description
granularities Sequence Granularidades temporales para agregar registros de inferencia (por ejemplo, ["1 day"]).
model_id_col String Nombre de la columna que contiene el identificador del modelo.
prediction_col String Nombre de la columna que contiene la predicción.
timestamp_col String Nombre de la columna que contiene la marca de tiempo.
problem_type String Tipo de problema de ML. Los valores válidos incluyen PROBLEM_TYPE_CLASSIFICATION, PROBLEM_TYPE_REGRESSION.
label_col String Nombre de la columna que contiene la etiqueta (verdad verdadera).

monitor_de_calidad.notificaciones

Type: Map

Configuración de notificación para el monitor.

Key Type Description
on_failure Map Configuración de notificación cuando se produce un error en el monitor. Consulte on_failure.
on_new_classification_tag_detected Map Configuración de notificación cuando se detectan nuevas etiquetas de clasificación. Consulte on_new_classification_tag_detected.

quality_monitor.notifications.on_failure

Type: Map

Configuración de notificación cuando se produce un error en el monitor.

Key Type Description
email_addresses Sequence Lista de direcciones de correo electrónico para notificar en caso de fallo del monitor.

quality_monitor.notificaciones.on_new_classification_tag_detected

Type: Map

Configuración de notificación cuando se detectan nuevas etiquetas de clasificación.

Key Type Description
email_addresses Sequence Lista de direcciones de correo electrónico que se deben notificar cuando se detectan nuevas etiquetas de clasificación.

monitor_de_calidad.programar

Type: Map

Programación para actualizar y refrescar automáticamente las tablas de métricas.

Key Type Description
quartz_cron_expression String Expresión Cron con la sintaxis de Quartz. Por ejemplo, 0 0 8 * * ? se ejecuta todos los días a las 8:00 a. m.
timezone_id String Zona horaria de la programación (por ejemplo, UTC, America/Los_Angeles).
pause_status String Indica si la programación está en pausa. Valores válidos: PAUSED, UNPAUSED.

monitor_de_calidad.captura

Type: Map

Configuración para supervisar tablas de instantáneas.

quality_monitor.time_series

Configuración para supervisar tablas de series temporales.

Key Type Description
granularities Sequence Los niveles de granularidad temporal para agregar datos de series temporales (por ejemplo, ["30 minutes"]).
timestamp_col String Nombre de la columna que contiene la marca de tiempo.

Examples

Para obtener un paquete de ejemplo completo que define un quality_monitor, consulte el paquete mlops_demo.

En los ejemplos siguientes se definen monitores de calidad para los tipos de perfil InferenceLog, TimeSeries y Snapshot .

# InferenceLog profile type
resources:
  quality_monitors:
    my_quality_monitor:
      table_name: dev.mlops_schema.predictions
      output_schema_name: ${bundle.target}.mlops_schema
      assets_dir: /Workspace/Users/${workspace.current_user.userName}/databricks_lakehouse_monitoring
      inference_log:
        granularities: [1 day]
        model_id_col: model_id
        prediction_col: prediction
        label_col: price
        problem_type: PROBLEM_TYPE_REGRESSION
        timestamp_col: timestamp
      schedule:
        quartz_cron_expression: 0 0 8 * * ? # Run Every day at 8am
        timezone_id: UTC
# TimeSeries profile type
resources:
  quality_monitors:
    my_quality_monitor:
      table_name: dev.mlops_schema.predictions
      output_schema_name: ${bundle.target}.mlops_schema
      assets_dir: /Workspace/Users/${workspace.current_user.userName}/databricks_lakehouse_monitoring
      time_series:
        granularities: [30 minutes]
        timestamp_col: timestamp
      schedule:
        quartz_cron_expression: 0 0 8 * * ? # Run Every day at 8am
        timezone_id: UTC
# Snapshot profile type
resources:
  quality_monitors:
    my_quality_monitor:
      table_name: dev.mlops_schema.predictions
      output_schema_name: ${bundle.target}.mlops_schema
      assets_dir: /Workspace/Users/${workspace.current_user.userName}/databricks_lakehouse_monitoring
      snapshot: {}
      schedule:
        quartz_cron_expression: 0 0 8 * * ? # Run Every day at 8am
        timezone_id: UTC

modelo_registrado (Catálogo de Unity)

Type: Map

El recurso de modelo registrado permite definir modelos en el catálogo de Unity. Para obtener información sobre modelos registrados de Unity Catalog, consulte Administración del ciclo de vida del modelo en Unity Catalog.

registered_models:
  <registered_model-name>:
    <registered_model-field-name>: <registered_model-field-value>
Key Type Description
aliases Sequence Lista de alias asociados al modelo registrado. Consulte registered_model.aliases.
browse_only Boolean Indica si el principal está limitado a recuperar metadatos para el objeto asociado a través del privilegio BROWSE cuando include_browse está activado en la solicitud.
catalog_name String Nombre del catálogo donde reside el esquema y el modelo registrado.
comment String Comentario adjunto al modelo registrado.
full_name String Nombre de tres niveles (completamente cualificado) del modelo registrado
grants Sequence Las concesiones asociadas al modelo registrado. Consulte concesión.
lifecycle Map Contiene la configuración del ciclo de vida de un recurso. Controla el comportamiento del recurso cuando se implementa o se destruye. Consulte ciclo de vida.
name String Nombre del modelo registrado.
schema_name String Nombre del esquema donde reside el modelo registrado.
storage_location String Ubicación de almacenamiento en la nube en la que se almacenan los archivos de datos de versión del modelo.

registered_model.aliases

Type: Sequence

Lista de alias asociados al modelo registrado.

Cada elemento de la lista es un Alias:

Key Type Description
alias_name String Nombre del alias, por ejemplo, "campeón" o "latest_stable"
catalog_name String Nombre del catálogo que contiene la versión del modelo
id String Identificador único del alias
model_name String Nombre del modelo registrado primario de la versión del modelo, en relación con el esquema primario.
schema_name String Nombre del esquema que contiene la versión del modelo, en relación con el catálogo primario.
version_num Integer Número de versión entero de la versión del modelo a la que apunta este alias.

Example

En el ejemplo siguiente se define un modelo registrado en el catálogo de Unity:

resources:
  registered_models:
    model:
      name: my_model
      catalog_name: ${bundle.target}
      schema_name: mlops_schema
      comment: Registered model in Unity Catalog for ${bundle.target} deployment target
      grants:
        - privileges:
            - EXECUTE
          principal: account users

esquema (Catálogo de Unity)

Type: Map

Los esquemas se admiten en Python para conjuntos de recursos de Databricks. Consulte databricks.bundles.schemas.

El tipo de recurso de esquema permite definir esquemas de Unity Catalog para tablas y otros recursos de los flujos de trabajo y canalizaciones creados como parte de un conjunto. Un esquema, diferente de otros tipos de recursos, tiene las siguientes limitaciones:

  • El propietario de un recurso de esquema siempre es el usuario de implementación y no se puede cambiar. Si se especifica run_as en la agrupación, se omitirán las operaciones en el esquema.
  • Solo los campos admitidos por la API de creación de objetos de esquema correspondiente están disponibles para el recurso schema. Por ejemplo, enable_predictive_optimization no se admite, ya que solo está disponible en la API de actualización.
schemas:
  <schema-name>:
    <schema-field-name>: <schema-field-value>
Key Type Description
catalog_name String Nombre del catálogo primario.
comment String Descripción de texto de forma libre proporcionada por el usuario.
grants Sequence Las concesiones asociadas al esquema. Consulte concesión.
lifecycle Map Contiene la configuración del ciclo de vida de un recurso. Controla el comportamiento del recurso cuando se implementa o se destruye. Consulte ciclo de vida.
name String Nombre del esquema, en relación con el catálogo primario.
properties Map Mapa de las propiedades clave-valor adjuntas al esquema.
storage_root String Dirección URL raíz de almacenamiento para las tablas administradas dentro del esquema.

Examples

En el ejemplo siguiente se define una canalización con la clave de recurso my_pipeline que crea un esquema de Catálogo de Unity con la clave my_schema como destino:

resources:
  pipelines:
    my_pipeline:
      name: test-pipeline-{{.unique_id}}
      libraries:
        - notebook:
            path: ../src/nb.ipynb
        - file:
            path: ../src/range.sql
      development: true
      catalog: ${resources.schemas.my_schema.catalog_name}
      target: ${resources.schemas.my_schema.id}

  schemas:
    my_schema:
      name: test-schema-{{.unique_id}}
      catalog_name: main
      comment: This schema was created by Databricks Asset Bundles.

Databricks Asset Bundles no admite un mapeo de permisos de nivel superior, por lo que si desea establecer permisos para un esquema, defina los permisos para el esquema dentro del mapeo de schemas. Para obtener más información sobre las concesiones, vea Mostrar, conceder y revocar privilegios.

En el ejemplo siguiente se define un esquema de catálogo de Unity con concesiones:

resources:
  schemas:
    my_schema:
      name: test-schema
      grants:
        - principal: users
          privileges:
            - SELECT
        - principal: my_team
          privileges:
            - CAN_MANAGE
      catalog_name: main

ámbito_secreto

Type: Map

El recurso secret_scope permite definir ámbitos secretos en una agrupación. Para obtener información sobre los ámbitos de secreto, consulte Administración de secretos.

secret_scopes:
  <secret_scope-name>:
    <secret_scope-field-name>: <secret_scope-field-value>
Key Type Description
backend_type String Tipo de back-end con el que se creará el ámbito. Si no se especifica, este valor predeterminado es DATABRICKS.
keyvault_metadata Map Los metadatos para el ámbito secreto si backend_type es AZURE_KEYVAULT. Consulte keyvault_metadata.
lifecycle Map Contiene la configuración del ciclo de vida de un recurso. Controla el comportamiento del recurso cuando se implementa o se destruye. Consulte ciclo de vida.
name String Nombre de ámbito solicitado por el usuario. Los nombres de los ámbitos son únicos.
permissions Sequence Permisos para aplicar al ámbito secreto. Los permisos se administran a través de ACL de ámbito secreto. Consulte los permisos.

secret_scope.keyvault_metadata

Type: Map

Metadatos de los ámbitos secretos con respaldo de Azure Key Vault.

Key Type Description
resource_id String Identificador de recurso de Azure del almacén de claves.
dns_name String Nombre DNS de Azure Key Vault.

Examples

En el ejemplo siguiente se define un ámbito secreto que utiliza un backend de bóveda de claves.

resources:
  secret_scopes:
    secret_scope_azure:
      name: test-secrets-azure-backend
      backend_type: 'AZURE_KEYVAULT'
      keyvault_metadata:
        resource_id: my_azure_keyvault_id
        dns_name: my_azure_keyvault_dns_name

En el ejemplo siguiente se establece una ACL personalizada mediante ámbitos y permisos secretos:

resources:
  secret_scopes:
    my_secret_scope:
      name: my_secret_scope
      permissions:
        - user_name: admins
          level: WRITE
        - user_name: users
          level: READ

Para obtener un conjunto de ejemplos que muestra cómo definir un ámbito de secreto y un trabajo con una tarea que accede a él en un conjunto, consulte el repositorio de GitHub bundle-examples.

sql_warehouse

Type: Map

El recurso de SQL Warehouse permite definir un almacenamiento de SQL en un lote. Para más información sobre los almacenes de SQL, consulte Almacenamiento de datos en Azure Databricks.

sql_warehouses:
  <sql-warehouse-name>:
    <sql-warehouse-field-name>: <sql-warehouse-field-value>
Key Type Description
auto_stop_mins Integer Cantidad de tiempo en minutos que debe estar inactiva una instancia de SQL Warehouse (por ejemplo, sin consultas EN EJECUCIÓN), antes de que se detenga automáticamente. Los valores válidos son 0, que indica sin autostop, o igual o mayor que 10. El valor predeterminado es 120.
channel Map Detalles del canal. Ver canal
cluster_size String Tamaño de los clústeres asignados para este almacenamiento. Aumentar el tamaño de un clúster de Spark permite ejecutar consultas más grandes en él. Si desea aumentar el número de consultas simultáneas, ajuste max_num_clusters. Para conocer los valores admitidos, consulte cluster_size.
creator_name String Nombre del usuario que creó el almacén.
enable_photon Boolean Si el almacén debe usar clústeres optimizados para Photon. El valor predeterminado es False.
enable_serverless_compute Boolean Si el almacén debe usar computación sin servidor.
instance_profile_arn String Deprecated. Perfil de instancia usado para pasar el rol de IAM al clúster,
lifecycle Map Contiene la configuración del ciclo de vida de un recurso. Controla el comportamiento del recurso cuando se implementa o se destruye. Consulte ciclo de vida.
max_num_clusters Integer El número máximo de clústeres que creará el escalador automático para controlar las consultas simultáneas. Los valores deben ser menores o iguales que 30 y mayores o iguales que min_num_clusters. Se utiliza el valor predeterminado min_clusters si no se ha establecido otro.
min_num_clusters Integer El número mínimo de clústeres disponibles que se mantendrán para este almacenamiento de SQL. Aumentar esto garantizará que un mayor número de clústeres siempre esté funcionando y, por tanto, puede reducir el tiempo de inicio en frío de las nuevas consultas. Esto es similar a los núcleos reservados frente a revocables dentro de un gestor de recursos. Los valores deben ser mayores que 0 y menores o iguales que min(max_num_clusters, 30). De manera predeterminada, su valor es 1.
name String Nombre lógico del clúster. El nombre debe ser único dentro de una organización y menos de 100 caracteres.
permissions Sequence Permisos que se aplicarán al almacén. Consulte los permisos.
spot_instance_policy String Si se deben usar instancias de spot. Los valores válidos son POLICY_UNSPECIFIED, COST_OPTIMIZED, RELIABILITY_OPTIMIZED. El valor predeterminado es COST_OPTIMIZED.
tags Map Un conjunto de pares de clave y valor que se asignarán a todos los recursos (por ejemplo, instancias de AWS y volúmenes EBS) asociados a este almacén de datos SQL. El número de etiquetas debe ser menor que 45.
warehouse_type String El tipo de almacenamiento, PRO o CLASSIC. Si desea usar cómputo sin servidor, establezca este campo en PRO y también, simultáneamente, establezca el campo enable_serverless_compute en true.

sql_warehouse.channel

Type: Map

Configuración del canal para SQL Warehouse.

Key Type Description
name String Nombre del canal. Los valores válidos incluyen CHANNEL_NAME_CURRENT, CHANNEL_NAME_PREVIEW, CHANNEL_NAME_CUSTOM.
dbsql_version String Versión de DBSQL para canales personalizados.

Example

En el ejemplo siguiente se define una instancia de SQL Warehouse:

resources:
  sql_warehouses:
    my_sql_warehouse:
      name: my_sql_warehouse
      cluster_size: X-Large
      enable_serverless_compute: true
      max_num_clusters: 3
      min_num_clusters: 1
      auto_stop_mins: 60
      warehouse_type: PRO

tabla_de_base_de_datos_sincronizada

Type: Map

El recurso de tabla de base de datos sincronizada permite definir tablas de base de datos de Lakebase en un lote.

Para obtener información sobre las tablas de base de datos sincronizadas, consulte ¿Qué es una instancia de base de datos?.

synced_database_tables:
  <synced_database_table-name>:
    <synced_database_table-field-name>: <synced_database_table-field-value>
Key Type Description
database_instance_name String Nombre de la instancia de base de datos de destino. Esto es necesario al crear tablas de base de datos sincronizadas en catálogos estándar. Esto es opcional al crear tablas de base de datos sincronizadas en catálogos registrados.
lifecycle Map Contiene la configuración del ciclo de vida de un recurso. Controla el comportamiento del recurso cuando se implementa o se destruye. Consulte ciclo de vida.
logical_database_name String Nombre del objeto de base de datos postgres de destino (base de datos lógica) para esta tabla.
name String Nombre completo de la tabla, con el formato catalog.schema.table.
spec Map Especificación de la tabla de base de datos. Consulte la especificación de la tabla de base de datos sincronizada.

synced_database_table.spec

Type: Map

Especificación de la tabla de base de datos.

Key Type Description
create_database_objects_if_missing Boolean Si desea crear la base de datos lógica y los recursos de esquema de la tabla sincronizada si aún no existen.
existing_pipeline_id String Identificador de una canalización existente. Si se establece, la tabla sincronizada se empaquetará en la canalización existente a la que se hace referencia. Esto evita la creación de una nueva pipeline y permite compartir los recursos de cálculo existentes. En este caso, el scheduling_policy de esta tabla sincronizada debe coincidir con la directiva de programación de la canalización existente. Como máximo, se debe definir uno de existing_pipeline_id y new_pipeline_spec.
new_pipeline_spec Map Especificación de una nueva canalización. Consulte new_pipeline_spec. Como máximo, se debe definir uno de existing_pipeline_id y new_pipeline_spec.
primary_key_columns Sequence Lista de nombres de columna que forman la clave principal.
scheduling_policy String Directiva de programación para la sincronización. Los valores válidos incluyen SNAPSHOT, CONTINUOUS.
source_table_full_name String Nombre completo de la tabla de origen con el formato catalog.schema.table.
timeseries_key String Clave de serie temporal para desduplicar filas con la misma clave principal.

synced_database_table.spec.new_pipeline_spec

Type: Map

Especificación de una nueva canalización usada por la tabla de base de datos sincronizada.

Key Type Description
budget_policy_id String El ID de la política de presupuesto que se va a establecer en la tubería recién creada.
storage_catalog String Catálogo de la canalización para almacenar archivos intermedios, como puntos de comprobación y registros de eventos. Debe ser un catálogo estándar en el que el usuario tenga permisos para crear tablas Delta.
storage_schema String Esquema de la canalización para almacenar archivos intermedios, como puntos de control y registros de eventos. Esto debe estar en el catálogo estándar donde el usuario tiene permisos para crear tablas Delta.

Examples

En el ejemplo siguiente se define una tabla de base de datos sincronizada dentro de un catálogo de bases de datos correspondiente:

resources:
  database_instances:
    my_instance:
      name: my-instance
      capacity: CU_1
  database_catalogs:
    my_catalog:
      database_instance_name: my-instance
      database_name: 'my_database'
      name: my_catalog
      create_database_if_not_exists: true
  synced_database_tables:
    my_synced_table:
      name: ${resources.database_catalogs.my_catalog.name}.${resources.database_catalogs.my_catalog.database_name}.my_destination_table
      database_instance_name: ${resources.database_catalogs.my_catalog.database_instance_name}
      logical_database_name: ${resources.database_catalogs.my_catalog.database_name}
      spec:
        source_table_full_name: 'my_source_table'
        scheduling_policy: SNAPSHOT
        primary_key_columns:
          - my_pk_column
        new_pipeline_spec:
          storage_catalog: 'my_delta_catalog'
          storage_schema: 'my_delta_schema'

En el ejemplo siguiente se define una tabla de base de datos sincronizada dentro de un catálogo estándar:

resources:
  synced_database_tables:
    my_synced_table:
      name: 'my_standard_catalog.public.synced_table'
      # database_instance_name is required for synced tables created in standard catalogs.
      database_instance_name: 'my-database-instance'
      # logical_database_name is required for synced tables created in standard catalogs:
      logical_database_name: ${resources.database_catalogs.my_catalog.database_name}
      spec:
        source_table_full_name: 'source_catalog.schema.table'
        scheduling_policy: SNAPSHOT
        primary_key_columns:
          - my_pk_column
        create_database_objects_if_missing: true
        new_pipeline_spec:
          storage_catalog: 'my_delta_catalog'
          storage_schema: 'my_delta_schema'

En este ejemplo se crea una tabla de base de datos sincronizada y se personaliza la programación de canalización para ella. Se asume que ya dispone de:

  • Una instancia de base de datos denominada my-database-instance
  • Un catálogo estándar denominado my_standard_catalog
  • Esquema en el catálogo estándar denominado default
  • Una tabla delta de origen denominada source_delta.schema.customer con la clave principal c_custkey
resources:
  synced_database_tables:
    my_synced_table:
      name: 'my_standard_catalog.default.my_synced_table'
      database_instance_name: 'my-database-instance'
      logical_database_name: 'test_db'
      spec:
        source_table_full_name: 'source_delta.schema.customer'
        scheduling_policy: SNAPSHOT
        primary_key_columns:
          - c_custkey
        create_database_objects_if_missing: true
        new_pipeline_spec:
          storage_catalog: 'source_delta'
          storage_schema: 'schema'

  jobs:
    sync_pipeline_schedule_job:
      name: sync_pipeline_schedule_job
      description: 'Job to schedule synced database table pipeline.'
      tasks:
        - task_key: synced-table-pipeline
          pipeline_task:
            pipeline_id: ${resources.synced_database_tables.my_synced_table.data_synchronization_status.pipeline_id}
      schedule:
        quartz_cron_expression: '0 0 0 * * ?'

volumen (catálogo de Unity)

Type: Map

Los volúmenes se admiten en Python para conjuntos de recursos de Databricks. Consulte databricks.bundles.volumes.

El tipo de recurso de volumen permite definir y crear volúmenes de Unity Catalog como parte de un conjunto. Al implementar un paquete con un volumen definido, tómese en cuenta que:

  • No se puede hacer referencia a un volumen en artifact_path del conjunto hasta que exista en el área de trabajo. Por lo tanto, si desea usar Conjuntos de recursos de Databricks para crear el volumen, primero debe definir el volumen en el paquete, implementarlo para crear el volumen, y a continuación, hacer referencia a él en artifact_path en las implementaciones posteriores.
  • Los volúmenes del paquete no llevan el prefijo dev_${workspace.current_user.short_name} cuando el destino de implementación tiene configurado mode: development. Sin embargo, puede configurar manualmente este prefijo. Consulte Valores preestablecidos personalizados.
volumes:
  <volume-name>:
    <volume-field-name>: <volume-field-value>
Key Type Description
catalog_name String Nombre del catálogo del esquema y del volumen.
comment String Comentario adjunto al volumen.
grants Sequence Las concesiones asociadas al volumen. Consulte concesión.
lifecycle Map Contiene la configuración del ciclo de vida de un recurso. Controla el comportamiento del recurso cuando se implementa o se destruye. Consulte ciclo de vida.
name String Nombre del volumen.
schema_name String El nombre del esquema en el que se encuentra el volumen.
storage_location String Ubicación de almacenamiento en la nube.
volume_type String Tipo de volumen, EXTERNAL o MANAGED. Un volumen externo se encuentra en la ubicación externa especificada. Un volumen administrado se encuentra en la ubicación predeterminada que especifica el esquema primario, el catálogo primario o el metastore. Consulte Volúmenes administrados frente a externos.

Example

En el ejemplo siguiente se crea un volumen de catálogo de Unity con la clave my_volume_id:

resources:
  volumes:
    my_volume_id:
      catalog_name: main
      name: my_volume
      schema_name: my_schema

Para obtener un paquete de ejemplo que ejecuta un trabajo que escribe en un archivo en el volumen del catálogo de Unity, consulte el repositorio de GitHub bundle-examples.

Objetos comunes

subvención

Type: Map

Defina el principal y los privilegios que se van a conceder a este. Para obtener más información sobre las concesiones, vea Mostrar, conceder y revocar privilegios.

Key Type Description
principal String El nombre del principal al que se le concederán privilegios. Puede ser un usuario, grupo o entidad de servicio.
privileges Sequence Privilegios que se van a conceder a la entidad especificada. Los valores válidos dependen del tipo de recurso (por ejemplo, SELECT, MODIFY, CREATEUSAGE, READ_FILES, WRITE_FILES, , , EXECUTE). ALL_PRIVILEGES

Example

En el ejemplo siguiente se define un esquema de catálogo de Unity con concesiones:

resources:
  schemas:
    my_schema:
      name: test-schema
      grants:
        - principal: users
          privileges:
            - SELECT
        - principal: my_team
          privileges:
            - CAN_MANAGE
      catalog_name: main

ciclo de vida

Type: Map

Contiene la configuración del ciclo de vida de un recurso. Controla el comportamiento del recurso cuando se implementa o se destruye.

Key Type Description
prevent_destroy Boolean Configuración del ciclo de vida para evitar que el recurso se destruya.