Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Databricks Asset Bundles permite especificar información sobre los recursos de Azure Databricks utilizados por el paquete en el mapeo de resources en la configuración del paquete. Consulte asignación de recursos y referencia de clave de recursos.
En esta página se proporciona una referencia de configuración para todos los tipos de recursos admitidos para agrupaciones y se proporcionan detalles y un ejemplo para cada tipo admitido. Para obtener ejemplos adicionales, consulte Ejemplos de configuración de agrupación.
El esquema JSON para agrupaciones que se usa para validar la configuración de YAML está en el repositorio de GitHub de la CLI de Databricks.
Tip
Para generar YAML para cualquier recurso existente, use el comando databricks bundle generate. Consulte generación de conjuntos de databricks.
Recursos compatibles
En la tabla siguiente se enumeran los tipos de recursos admitidos para agrupaciones (YAML y Python, si procede). Algunos recursos se pueden crear definiendo en una agrupación e implementando la agrupación, y algunos recursos solo se pueden crear haciendo referencia a un recurso existente para incluirlo en la agrupación.
La configuración de recursos define un objeto de Databricks que corresponde a un objeto de API REST de Databricks . Los campos de solicitud de creación admitidos del objeto de LA API REST, expresados como YAML, son las claves admitidas del recurso. Los vínculos a la documentación del objeto correspondiente de cada recurso se encuentran en la tabla siguiente.
Tip
El comando databricks bundle validate devuelve advertencias si se encuentran propiedades de recursos desconocidas en los archivos de configuración de agrupación.
alerta
Type: Map
El recurso de alerta define una alerta de SQL (v2).
alerts:
<alert-name>:
<alert-field-name>: <alert-field-value>
| Key | Type | Description |
|---|---|---|
custom_description |
String | Optional. Descripción personalizada de la alerta. Se admite la plantilla de mustache. |
custom_summary |
String | Optional. Resumen personalizado de la alerta. Admite la plantilla Mustache. |
display_name |
String | Obligatorio. Nombre visible de la alerta, por ejemplo, Example alert. |
evaluation |
Map | Obligatorio. Configuración de evaluación de la alerta. Consulte alert.evaluation. |
parent_path |
String | Optional. Ruta del área de trabajo de la carpeta que contiene la alerta. Solo se puede establecer en la creación y no se puede actualizar. Ejemplo: /Users/someone@example.com. |
permissions |
Sequence | Permisos de alerta. Consulte los permisos. |
query_text |
String | Obligatorio. Texto de la consulta que se va a ejecutar, por ejemplo, SELECT 1. |
run_as |
Map | Optional. Especifica la identidad que se usará para ejecutar la alerta. Este campo permite configurar alertas para que se ejecuten como un usuario o una entidad de servicio específicos. Consulte run_as.
|
schedule |
Map | Obligatorio. Configuración de programación de la alerta. Consulte alert.schedule. |
warehouse_id |
String | Obligatorio. Identificador del SQL Warehouse asociado a la alerta, por ejemplo, a7066a8ef796be84. |
evaluación de alertas
Type: Map
Configuración de evaluación de la alerta.
| Key | Type | Description |
|---|---|---|
comparison_operator |
String | Operador utilizado para la comparación en la evaluación de alertas. |
empty_result_state |
String | Estado de alerta si el resultado está vacío. Evite establecer este campo en UNKNOWN porque se planea que el estado UNKNOWN esté en desuso. |
notification |
Map | El usuario o cualquier otro destino al que se notificará cuando se active la alerta. Consulte alert.evaluation.notification. |
source |
Map | Columna de origen del resultado que se va a usar para evaluar la alerta. Consulte alert.evaluation.source. |
threshold |
Map | Umbral que se va a usar para la evaluación de alertas. Puede ser una columna o un valor. Consulte alert.evaluation.threshold. |
alert.evaluation.notification
Type: Map
El usuario u otro destino que se notificará cuando se active la alerta.
| Key | Type | Description |
|---|---|---|
notify_on_ok |
Boolean | Optional. Si se debe notificar a los suscriptores de alerta cuando la alerta vuelve a la normalidad. |
retrigger_seconds |
Integer | Optional. Número de segundos que una alerta espera después de desencadenarse antes de poder enviar otra notificación. Si se configura en 0 o si se omite, la alerta no enviará más notificaciones después del primer detonante. Establecer este valor en 1 permite que la alerta envíe una notificación en cada evaluación en la que se cumpla la condición, haciendo que siempre se reactive para fines de notificación. |
subscriptions |
Sequence | Optional. Lista desordenada de suscripciones de notificación. Consulte alert.evaluation.notification.subscriptions. |
alert.evaluation.notification.subscriptions
Type: Sequence
Una lista desordenada de suscripciones de notificación.
Cada elemento de la lista es un AlertSubscription:
| Key | Type | Description |
|---|---|---|
destination_id |
String | Identificador del destino de la notificación. |
user_email |
String | Dirección de correo electrónico del usuario para notificar. |
alert.evaluation.source
Type: Map
Columna de origen del resultado que se va a usar para evaluar la alerta.
| Key | Type | Description |
|---|---|---|
aggregation |
String | Método de agregación que se va a aplicar a la columna de origen. Los valores válidos son SUM, COUNT, COUNT_DISTINCT, AVGMEDIAN, , MIN, , , MAXSTDDEV |
display |
String | Nombre visible de la columna de origen. |
name |
String | Nombre de la columna de origen del resultado de la consulta. |
umbral.evaluación.alerta
Type: Map
Umbral que se va a usar para la evaluación de alertas, puede ser una columna o un valor.
| Key | Type | Description |
|---|---|---|
column |
Map | Referencia de columna que se va a usar como umbral. Consulte alert.evaluation.source. |
value |
Map | Valor literal que se va a usar como umbral. Consulte alert.evaluation.threshold.value. |
alert.evaluación.umbral.valor
Type: Map
Valor literal que se va a usar como umbral. Especifique uno de los siguientes tipos de valor.
| Key | Type | Description |
|---|---|---|
bool_value |
Boolean | Optional. Valor booleano para el umbral, por ejemplo, true. |
double_value |
Double | Optional. Valor numérico para el umbral, por ejemplo, 1.25. |
string_value |
String | Optional. Valor de cadena para el umbral, por ejemplo, test. |
alert.schedule
Type: Map
Configuración de programación de la alerta.
| Key | Type | Description |
|---|---|---|
pause_status |
String | Optional. Indica si esta programación está en pausa o no. Valores válidos: UNPAUSED, PAUSED. Predeterminado: UNPAUSED. |
quartz_cron_schedule |
String | Obligatorio. Expresión cron usando la sintaxis de Quartz que especifica el calendario para esta tubería. El formato de cuarzo se describe en formato de programador de cuarzo. |
timezone_id |
String | Obligatorio. Identificador de zona horaria de Java. La programación se resolverá con esta zona horaria. Esto se combinará con el quartz_cron_schedule para determinar el horario. Consulte SET TIME ZONE para obtener más información. |
Examples
La siguiente configuración de ejemplo define una alerta con una evaluación sencilla:
resources:
alerts:
my_alert:
display_name: my_alert
evaluation:
comparison_operator: EQUAL
source:
name: '1'
threshold:
value:
double_value: 2
query_text: select 2
schedule:
quartz_cron_schedule: '44 19 */1 * * ?'
timezone_id: Europe/Amsterdam
warehouse_id: 799f096837fzzzz4
La siguiente configuración de ejemplo define una alerta con permisos que evalúa el uso de la agregación y envía notificaciones:
resources:
alerts:
my_alert:
permissions:
- level: CAN_MANAGE
user_name: someone@example.com
custom_summary: 'My alert'
display_name: 'My alert'
evaluation:
comparison_operator: 'EQUAL'
notification:
notify_on_ok: false
retrigger_seconds: 1
source:
aggregation: 'MAX'
display: '1'
name: '1'
threshold:
value:
double_value: 2
query_text: 'select 2'
schedule:
pause_status: 'UNPAUSED'
quartz_cron_schedule: '44 19 */1 * * ?'
timezone_id: 'Europe/Amsterdam'
warehouse_id: 799f096837fzzzz4
aplicación
Type: Map
El recurso de aplicación define una Aplicación de Databricks. Para obtener información sobre Las aplicaciones de Databricks, consulte Aplicaciones de Databricks.
Para agregar una aplicación, especifique la configuración para definir la aplicación, incluida la source_code_path necesaria.
Tip
Puede inicializar una agrupación con una aplicación Streamlit Databricks mediante el siguiente comando:
databricks bundle init https://github.com/databricks/bundle-examples --template-dir contrib/templates/streamlit-app
apps:
<app-name>:
<app-field-name>: <app-field-value>
| Key | Type | Description |
|---|---|---|
budget_policy_id |
String | Identificador de la política de presupuesto de la aplicación. |
compute_size |
String | Tamaño de cómputo de la aplicación. Los valores válidos son MEDIUM o LARGE pero dependen de la configuración del área de trabajo. |
config |
Map | Deprecated. En su lugar, defina los comandos de configuración de la aplicación y las variables de entorno en el app.yaml archivo. Consulte Configuración de una aplicación de Databricks. |
description |
String | Descripción de la aplicación. |
lifecycle |
Map | Comportamiento del recurso cuando se implementa o se destruye. Consulte ciclo de vida. |
name |
String | Nombre de la aplicación. El nombre debe contener únicamente caracteres alfanuméricos en minúsculas y guiones. Debe ser único dentro del área de trabajo. |
permissions |
Sequence | Permisos de la aplicación. Consulte los permisos. |
resources |
Sequence | Recursos de proceso clásico de la aplicación. Consulte app.resources. |
source_code_path |
String | Ruta local ./app del código fuente de la aplicación Databricks. |
user_api_scopes |
Sequence | Ámbitos de la API de usuario. |
app.recursos
Type: Sequence
Lista de recursos de proceso para la aplicación.
Cada elemento de la lista es un AppResource:
| Key | Type | Description |
|---|---|---|
description |
String | Descripción del recurso de la aplicación. |
database |
Map | Configuración que identifica la base de datos de Lakebase que se va a usar. Consulte app.resources.database. |
genie_space |
Map | Configuración que identifica el espacio de Genie que se va a usar. Consulte app.resources.genie_space. |
job |
Map | Configuración que identifica el recurso de trabajo que se va a usar. Consulte app.resources.job. |
name |
String | Nombre del recurso de la aplicación. |
secret |
Map | Configuración que identifica el recurso secreto de Azure Databricks que se va a usar. Consulte app.resources.secret. |
serving_endpoint |
Map | Configuración que identifica el modelo que sirve el recurso de punto de conexión que se va a usar. Consulte app.resources.serving_endpoint. |
sql_warehouse |
Map | Configuración que identifica el recurso de SQL Warehouse que se va a usar. Consulte app.resources.sql_warehouse. |
uc_securable |
Map | Configuración que identifica el volumen del catálogo de Unity que se va a usar. Consulte app.resources.uc_securable. |
app.recursos.base_de_datos
Type: Map
Configuración que identifica la base de datos de Lakebase que se va a usar.
| Key | Type | Description |
|---|---|---|
database_name |
String | El nombre de la base de datos. |
instance_name |
String | Nombre de la instancia de base de datos. |
permission |
String | Nivel de permiso de la base de datos. Los valores válidos son CAN_CONNECT_AND_CREATE. |
app.resources.genie_space
Type: Map
Configuración que identifica el espacio de Genie que se va a usar.
| Key | Type | Description |
|---|---|---|
name |
String | Nombre del espacio de Genie. |
permission |
String | Nivel de permiso para el espacio. Los valores válidos incluyen CAN_VIEW, CAN_EDIT, CAN_MANAGE, CAN_RUN. |
space_id |
String | Identificador del espacio de Genie, por ejemplo 550e8400-e29b-41d4-a716-999955440000. |
app.resources.job
Type: Map
Configuración que identifica el recurso de trabajo que se va a usar.
| Key | Type | Description |
|---|---|---|
id |
String | Id. del trabajo. |
permission |
String | Nivel de autorización para el puesto. Los valores válidos incluyen CAN_VIEW, CAN_MANAGE_RUN, CAN_MANAGE, IS_OWNER. |
app.recursos.secreto
Type: Map
Configuración que identifica el recurso secreto de Azure Databricks que se va a usar.
| Key | Type | Description |
|---|---|---|
key |
String | La clave del secreto para otorgar permiso. |
permission |
String | Nivel de permiso para un secreto. Los valores válidos incluyen READ, WRITE, MANAGE. |
scope |
String | Nombre del objetivo secreto. |
app.resources.punto_de_servicio
Type: Map
Configuración que identifica el modelo que sirve el recurso de punto de conexión que se va a usar.
| Key | Type | Description |
|---|---|---|
name |
String | Nombre del punto de conexión de servicio. |
permission |
String | Nivel de permiso del endpoint de servicio. Los valores válidos incluyen CAN_QUERY, CAN_MANAGE, CAN_VIEW. |
app.resources.sql_warehouse
Type: Map
Configuración que identifica el almacenamiento de SQL que se va a usar.
| Key | Type | Description |
|---|---|---|
id |
String | El identificador del SQL Warehouse. |
permission |
String | Nivel de permiso para SQL Warehouse. Los valores válidos incluyen CAN_USE, CAN_MANAGE, IS_OWNER. |
app.resources.uc_securable
Type: Map
Configuración que identifica el volumen del catálogo de Unity que se va a usar.
| Key | Type | Description |
|---|---|---|
permission |
String | Nivel de permiso para el catálogo de Unity protegible. Los valores válidos son READ_VOLUME y WRITE_VOLUME. |
securable_full_name |
String | Nombre completo del catálogo de Unity protegible en el formato catalog.schema.volume. |
securable_type |
String | El tipo de elemento securizable del catálogo de Unity. Los valores válidos son VOLUME. |
Example
En el ejemplo siguiente se crea una aplicación denominada my_app que administra un trabajo creado por la agrupación:
resources:
jobs:
# Define a job in the bundle
hello_world:
name: hello_world
tasks:
- task_key: task
spark_python_task:
python_file: ../src/main.py
environment_key: default
environments:
- environment_key: default
spec:
environment_version: '2'
# Define an app that manages the job in the bundle
apps:
job_manager:
name: 'job_manager_app'
description: 'An app which manages a job created by this bundle'
# The location of the source code for the app
source_code_path: ../src/app
# The resources in the bundle which this app has access to. This binds the resource in the app with the bundle resource.
resources:
- name: 'app-job'
job:
id: ${resources.jobs.hello_world.id}
permission: 'CAN_MANAGE_RUN'
La correspondiente app.yaml define la configuración para ejecutar la aplicación:
command:
- flask
- --app
- app
- run
- --debug
env:
- name: JOB_ID
valueFrom: 'app-job'
Para obtener la agrupación de ejemplo de aplicación de Databricks completa, consulte el Repositorio de GitHub de bundle-examples.
clúster
Type: Map
El recurso de clúster define un clúster.
clusters:
<cluster-name>:
<cluster-field-name>: <cluster-field-value>
| Key | Type | Description |
|---|---|---|
apply_policy_default_values |
Boolean | Cuando se establece en true, los valores fijos y predeterminados de la directiva se usarán para los campos que se omiten. Cuando se establece en false, solo se aplicarán los valores fijos de la directiva. |
autoscale |
Map | Parámetros necesarios para escalar y reducir verticalmente automáticamente los clústeres en función de la carga. Consulte escalado automático. |
autotermination_minutes |
Integer | Finaliza automáticamente el clúster tras estar inactivo durante el tiempo especificado en minutos. Si no se establece, este clúster no se terminará automáticamente. Si se especifica, el umbral debe estar comprendido entre 10 y 10000 minutos. Los usuarios también pueden establecer este valor en 0 para deshabilitar explícitamente la terminación automática. |
aws_attributes |
Map | Atributos relacionados con clústeres que se ejecutan en Amazon Web Services. Si no se especifica en la creación del clúster, se usará un conjunto de valores predeterminados. Consulte aws_attributes. |
azure_attributes |
Map | Atributos relacionados con clústeres que se ejecutan en Microsoft Azure. Si no se especifica en la creación del clúster, se usará un conjunto de valores predeterminados. Consulte azure_attributes. |
cluster_log_conf |
Map | Configuración para entregar registros de Spark a un destino de almacenamiento a largo plazo. Consulte cluster_log_conf. |
cluster_name |
String | Nombre del clúster solicitado por el usuario. Esto no tiene que ser único. Si no se especifica en la creación, el nombre del clúster será una cadena vacía. |
custom_tags |
Map | Etiquetas adicionales para los recursos del clúster. Databricks etiquetará todos los recursos del clúster (por ejemplo, instancias de AWS y volúmenes EBS) con estas etiquetas además de default_tags. |
data_security_mode |
String | Modelo de gobernanza de datos que se va a usar al acceder a datos desde un clúster. Los valores válidos incluyen NONE, SINGLE_USER, USER_ISOLATIONLEGACY_SINGLE_USER, , LEGACY_TABLE_ACL, . LEGACY_PASSTHROUGH |
docker_image |
Map | Imagen personalizada de Docker. Consulte docker_image. |
driver_instance_pool_id |
String | Identificador opcional del grupo de instancias para el controlador al que pertenece el clúster. El clúster de grupo utiliza el grupo de instancias con el identificador (instance_pool_id) si el grupo de controladores no está asignado. |
driver_node_type_id |
String | Tipo de nodo del controlador de Spark. Tenga en cuenta que este campo es opcional; si no se establece, el tipo de nodo de controlador se establecerá como el mismo valor node_type_id que se definió anteriormente. Este campo, junto con node_type_id, no debe establecerse si se establece virtual_cluster_size. Si se especifican driver_node_type_id, node_type_id y virtual_cluster_size, driver_node_type_id y node_type_id tienen prioridad. |
enable_elastic_disk |
Boolean | Escalado automático de almacenamiento local: cuando está habilitado, este clúster adquirirá dinámicamente espacio en disco adicional cuando sus trabajos de Spark se estén ejecutando con poco espacio en disco. Esta característica requiere permisos específicos de AWS para funcionar correctamente; consulte la Guía del usuario para obtener más detalles. |
enable_local_disk_encryption |
Boolean | Si se habilita LUKS en los discos locales de las máquinas virtuales del clúster |
gcp_attributes |
Map | Atributos relacionados con clústeres que se ejecutan en Google Cloud Platform. Si no se especifica en la creación del clúster, se usará un conjunto de valores predeterminados. Consulte gcp_attributes. |
init_scripts |
Sequence | Configuración para almacenar scripts de inicialización. Se puede especificar cualquier número de destinos. Los scripts se ejecutan de manera secuencial en el orden proporcionado. Consulte init_scripts. |
instance_pool_id |
String | Identificador opcional del grupo de instancias al que pertenece el clúster. |
is_single_node |
Boolean | Este campo solo se puede usar cuando kind = CLASSIC_PREVIEW. Cuando se establece en true, Databricks establecerá automáticamente un solo nodo relacionado con custom_tags, spark_confy num_workers |
kind |
String | El tipo de proceso descrito por esta especificación de proceso. |
node_type_id |
String | Este campo codifica, mediante un solo valor, los recursos disponibles para cada uno de los nodos de Spark de este clúster. Por ejemplo, los nodos de Spark se pueden aprovisionar y optimizar para cargas de trabajo intensivas de memoria o proceso. Se puede recuperar una lista de los tipos de nodo disponibles mediante la llamada API :method:clusters/listNodeTypes. |
num_workers |
Integer | Número de nodos de trabajo que debería tener este clúster. Un clúster tiene un Spark Driver y num_workers ejecutores para un total de num_workers + 1 nodos de Spark. |
permissions |
Sequence | Permisos del clúster. Consulte los permisos. |
policy_id |
String | Identificador de la directiva de clúster que se usa para crear el clúster si es aplicable. |
runtime_engine |
String | Determina el motor de ejecución del clúster, ya sea STANDARD o PHOTON. |
single_user_name |
String | Nombre de usuario único si data_security_mode es SINGLE_USER |
spark_conf |
Map | Objeto que contiene un conjunto de pares de clave-valor de configuración de Spark opcionales especificado por el usuario. Los usuarios también pueden pasar una cadena de opciones adicionales de JVM al controlador y a los ejecutores mediante spark.driver.extraJavaOptions y spark.executor.extraJavaOptions respectivamente. |
spark_env_vars |
Map | Objeto que contiene un conjunto de pares de clave-valor de variables de entorno opcionales especificadas por el usuario. |
spark_version |
String | La versión de Spark del clúster, por ejemplo 3.3.x-scala2.11. Se puede recuperar una lista de las versiones de Spark disponibles mediante la llamada a la API :method:clusters/sparkVersions. |
ssh_public_keys |
Sequence | Contenido de clave pública SSH que se agregará a cada nodo de Spark de este clúster. Las claves privadas correspondientes se pueden usar para iniciar sesión con el nombre ubuntu de usuario en el puerto 2200. Se pueden especificar hasta 10 claves. |
use_ml_runtime |
Boolean | Este campo solo se puede usar cuando kind = CLASSIC_PREVIEW.
effective_spark_version viene determinado por spark_version (versión de DBR), este campo use_ml_runtime, y si node_type_id es un nodo de GPU o no. |
workload_type |
Map | Atributos de clúster que se muestran para los tipos de carga de trabajo de clústeres. Consulte workload_type. |
cluster.autoscale
Type: Map
Parámetros para escalar y reducir verticalmente automáticamente los clústeres en función de la carga.
| Key | Type | Description |
|---|---|---|
min_workers |
Integer | Número mínimo de trabajos a los que el clúster se puede reducir verticalmente cuando se infrautiliza. También es el número inicial de trabajos que tendrá el clúster después de la creación. |
max_workers |
Integer | Número máximo de trabajos a los que el clúster se puede escalar verticalmente cuando se sobrecarga.
max_workers debe ser estrictamente mayor que min_workers. |
clúster.aws_attributes
Type: Map
Atributos relacionados con clústeres que se ejecutan en Amazon Web Services.
| Key | Type | Description |
|---|---|---|
zone_id |
String | Identificador de la zona de disponibilidad o el centro de datos en el que reside el clúster. Esta cadena tendrá una forma como us-west-2a. |
availability |
String | Tipo de disponibilidad usado para todos los nodos posteriores más allá de los first_on_demand. Los valores válidos son SPOT, ON_DEMAND, SPOT_WITH_FALLBACK. |
spot_bid_price_percent |
Integer | El precio máximo de las instancias puntuales de AWS, como porcentaje del precio a petición del tipo de instancia correspondiente. |
instance_profile_arn |
String | Los nodos de este clúster solo se colocarán en instancias de AWS con este perfil de instancia. |
first_on_demand |
Integer | Los primeros first_on_demand nodos del clúster se colocarán en instancias a petición. Este valor debe ser mayor que 0, para asegurarse de que el nodo del controlador de clúster se coloca en una instancia a petición. |
ebs_volume_type |
String | Tipo de volúmenes EBS que se lanzarán con este clúster. Los valores válidos son GENERAL_PURPOSE_SSD y THROUGHPUT_OPTIMIZED_HDD. |
ebs_volume_count |
Integer | Número de volúmenes lanzados para cada instancia. |
ebs_volume_size |
Integer | Tamaño de cada volumen EBS (en GiB) asignado a cada instancia. |
ebs_volume_iops |
Integer | Número de IOPS por volumen de EBS gp3. |
ebs_volume_throughput |
Integer | Rendimiento por volumen de EBS gp3, en MiB por segundo. |
cluster.azure_attributes
Type: Map
Atributos relacionados con clústeres que se ejecutan en Microsoft Azure.
| Key | Type | Description |
|---|---|---|
first_on_demand |
Integer | Los primeros first_on_demand nodos del clúster se colocarán en instancias a petición. |
availability |
String | Tipo de disponibilidad usado para todos los nodos posteriores más allá de los first_on_demand. Los valores válidos son SPOT_AZURE, ON_DEMAND_AZURE, SPOT_WITH_FALLBACK_AZURE. |
spot_bid_max_price |
Number | El precio máximo de las instancias de acceso puntual de Azure. Use -1 para especificar el precio más bajo. |
cluster.gcp_attributes
Type: Map
Atributos relacionados con clústeres que se ejecutan en Google Cloud Platform.
| Key | Type | Description |
|---|---|---|
use_preemptible_executors |
Boolean | Si se van a usar ejecutores preemptibles. Los ejecutores preemptibles son instancias de GCE preemptibles que GCE puede reclamar en cualquier momento. |
google_service_account |
String | La cuenta de servicio de Google que usarán las instancias de máquina virtual del clúster de Databricks. |
local_ssd_count |
Integer | Número de SSD locales que se van a adjuntar a cada nodo del clúster. El valor predeterminado es 0. |
zone_id |
String | Identificador de la zona de disponibilidad o el centro de datos en el que reside el clúster. |
availability |
String | Tipo de disponibilidad usado para todos los nodos. Los valores válidos son PREEMPTIBLE_GCP, ON_DEMAND_GCP, PREEMPTIBLE_WITH_FALLBACK_GCP. |
boot_disk_size |
Integer | Tamaño del disco de arranque en GB. Los valores suelen oscilar entre 100 y 1000. |
cluster.cluster_log_conf
Configuración para entregar registros de Spark a un destino de almacenamiento a largo plazo.
| Key | Type | Description |
|---|---|---|
dbfs |
Map | Ubicación de DBFS para la entrega de logs del clúster. Consulte dbfs. |
s3 |
Map | Ubicación de S3 para el envío de registros del clúster. Consulte s3. |
volumes |
Map | Ubicación de volúmenes para la entrega de registros del clúster. Consulte volúmenes. |
cluster.cluster_log_conf.dbfs
Type: Map
Ubicación de DBFS para la entrega de logs del clúster.
| Key | Type | Description |
|---|---|---|
destination |
String | Ruta de DBFS para la entrega de logs del clúster (por ejemplo, dbfs:/cluster-logs). |
cluster.cluster_log_conf.s3
Type: Map
Ubicación de S3 para el envío de registros del clúster.
| Key | Type | Description |
|---|---|---|
destination |
String | URI de S3 para la entrega de logs del clúster (por ejemplo, s3://my-bucket/cluster-logs). |
region |
String | La región de AWS del bucket S3. |
endpoint |
String | Dirección URL del punto de conexión S3 (opcional). |
enable_encryption |
Boolean | Si se habilita el cifrado para los registros de clúster. |
encryption_type |
String | Tipo de cifrado. Los valores válidos incluyen SSE_S3, SSE_KMS. |
kms_key |
String | ARN de clave KMS para el cifrado (cuando se usa SSE_KMS). |
canned_acl |
String | La ACL enlatada que se va a aplicar a los logs de clúster. |
cluster.cluster_log_conf.volúmenes
Type: Map
Ubicación de volúmenes para la entrega de registros del clúster.
| Key | Type | Description |
|---|---|---|
destination |
String | Ruta de volumen para la entrega del registro del clúster (por ejemplo, /Volumes/catalog/schema/volume/cluster_log). |
cluster.docker_image
Type: Map
Configuración personalizada de la imagen de Docker.
| Key | Type | Description |
|---|---|---|
url |
String | Dirección URL de la imagen de Docker. |
basic_auth |
Map | Autenticación básica para el repositorio de Docker. Consulte basic_auth. |
cluster.docker_image.basic_auth
Type: Map
Autenticación básica para el repositorio de Docker.
| Key | Type | Description |
|---|---|---|
username |
String | Nombre de usuario para la autenticación del registro de Docker. |
password |
String | Contraseña para la autenticación del registro de Docker. |
archivo_de_inicialización_del_clúster
Type: Map
Configuración para almacenar scripts de inicialización. Debe especificarse al menos un tipo de ubicación.
| Key | Type | Description |
|---|---|---|
dbfs |
Map | Ubicación de DBFS del script de inicialización. Consulte dbfs. |
workspace |
Map | Ubicación del área de trabajo del script de inicialización. Consulte el área de trabajo. |
s3 |
Map | Ubicación S3 del script de inicialización. Consulte s3. |
abfss |
Map | Ubicación de ABFSS del script de inicialización. Vea abfss. |
gcs |
Map | Ubicación GCS del script de inicialización. Consulte gcs. |
volumes |
Map | Ubicación de los volúmenes UC del script de inicio. Consulte volúmenes. |
cluster.init_scripts.dbfs
Type: Map
Ubicación de DBFS del script de inicialización.
| Key | Type | Description |
|---|---|---|
destination |
String | La ruta de acceso de DBFS del script de inicialización. |
cluster.init_scripts.espacio_de_trabajo
Type: Map
Ubicación del área de trabajo del script de inicialización.
| Key | Type | Description |
|---|---|---|
destination |
String | Ruta de acceso del área de trabajo del script de inicialización. |
cluster.init_scripts.s3
Type: Map
Ubicación S3 del script de inicialización.
| Key | Type | Description |
|---|---|---|
destination |
String | URI S3 del script de inicialización. |
region |
String | La región de AWS del bucket S3. |
endpoint |
String | Dirección URL del punto de conexión S3 (opcional). |
cluster.init_scripts.abfss
Type: Map
Ubicación de ABFSS del script de inicialización.
| Key | Type | Description |
|---|---|---|
destination |
String | Ruta del ABFSS del script de inicialización. |
cluster.init_scripts.gcs
Type: Map
Ubicación GCS del script de inicialización.
| Key | Type | Description |
|---|---|---|
destination |
String | Ruta GCS del script de inicialización. |
cluster.init_scripts.volumes
Type: Map
Ubicación de volúmenes del script de inicialización.
| Key | Type | Description |
|---|---|---|
destination |
String | Ruta de acceso de UC Volumes del script de inicialización. |
cluster.tipo_de_carga_de_trabajo
Type: Map
Atributos de clúster que muestran los tipos de carga de trabajo del clúster.
| Key | Type | Description |
|---|---|---|
clients |
Map | Define qué tipo de clientes pueden usar el clúster. Consulte clientes. |
cluster.tipo_de_carga.clientes
Type: Map
Tipo de clientes para este trabajo de carga de computación.
| Key | Type | Description |
|---|---|---|
jobs |
Boolean | Si el clúster puede ejecutar trabajos. |
notebooks |
Boolean | Si el clúster puede ejecutar cuadernos. |
Examples
En el ejemplo siguiente se crea un clúster dedicado (de usuario único) para el usuario actual con Databricks Runtime 15.4 LTS y una directiva de clúster:
resources:
clusters:
my_cluster:
num_workers: 0
node_type_id: 'i3.xlarge'
driver_node_type_id: 'i3.xlarge'
spark_version: '15.4.x-scala2.12'
spark_conf:
'spark.executor.memory': '2g'
autotermination_minutes: 60
enable_elastic_disk: true
single_user_name: ${workspace.current_user.userName}
policy_id: '000128DB309672CA'
enable_local_disk_encryption: false
data_security_mode: SINGLE_USER
runtime_engine": STANDARD
En este ejemplo se crea un clúster my_cluster sencillo y se establece que como clúster que se va a usar para ejecutar el cuaderno en my_job:
bundle:
name: clusters
resources:
clusters:
my_cluster:
num_workers: 2
node_type_id: 'i3.xlarge'
autoscale:
min_workers: 2
max_workers: 7
spark_version: '13.3.x-scala2.12'
spark_conf:
'spark.executor.memory': '2g'
jobs:
my_job:
tasks:
- task_key: test_task
notebook_task:
notebook_path: './src/my_notebook.py'
existing_cluster_id: ${resources.clusters.my_cluster.id}
panel
Type: Map
El recurso de panel permite administrar paneles de AI/BI como un conjunto. Para obtener información sobre los paneles de AI/BI, consulte Paneles.
Si ha implementado un paquete que contiene un panel del entorno local y, a continuación, usa la interfaz de usuario para modificar ese panel, las modificaciones realizadas a través de la interfaz de usuario no se aplican al archivo JSON del panel en el conjunto local a menos que lo actualice explícitamente mediante bundle generate. Puede usar la opción --watch para sondear y recuperar continuamente los cambios en el panel. Consulte generación de conjuntos de databricks.
Además, si intenta implementar una agrupación desde el entorno local que contiene un archivo JSON de panel diferente al del área de trabajo remota, se producirá un error. Para forzar la implementación y sobrescribir el panel en el área de trabajo remota por el local, utilice la opción --force. Consulte implementación de conjuntos de databricks.
Note
Al usar paquetes de activos de Databricks con compatibilidad con Git para paneles, evite que se generen paneles duplicados agregando la asignación de sincronización para excluir los paneles de sincronizarse como archivos:
sync:
exclude:
- src/*.lvdash.json
dashboards:
<dashboard-name>:
<dashboard-field-name>: <dashboard-field-value>
| Key | Type | Description |
|---|---|---|
display_name |
String | El nombre para mostrar del panel. |
embed_credentials |
Boolean | Si las credenciales de identidad de implementación de paquete se usan para ejecutar consultas para todos los usuarios del panel de control. Si se establece en false, se usan las credenciales de un visor. El valor predeterminado es false. |
etag |
String | Etag del panel. Se puede proporcionar opcionalmente en las actualizaciones para garantizar que el panel no se ha modificado desde la última lectura. |
file_path |
String | Ruta de acceso local del recurso del panel, incluido el nombre de archivo. Los paneles exportados siempre tienen la extensión de archivo .lvdash.json. |
permissions |
Sequence | Permisos del panel de control Consulte los permisos. |
serialized_dashboard |
Any | Contenido del panel en forma de cadena serializada. |
warehouse_id |
String | Identificador de almacén que se usa para ejecutar el panel. |
Example
En el ejemplo siguiente se incluye e implementa el ejemplo panel de Análisis de carreras de taxis de Nueva York en el área de trabajo de Databricks.
resources:
dashboards:
nyc_taxi_trip_analysis:
display_name: 'NYC Taxi Trip Analysis'
file_path: ../src/nyc_taxi_trip_analysis.lvdash.json
warehouse_id: ${var.warehouse_id}
catálogo_de_base_de_datos
Type: Map
El recurso de catálogo de bases de datos permite definir catálogos de bases de datos que corresponden a instancias de base de datos de un lote. Un catálogo de bases de datos es una base de datos de Lakebase que se registra como un catálogo de Unity Catalog.
Para obtener información sobre los catálogos de bases de datos, consulte Creación de un catálogo.
database_catalogs:
<database_catalog-name>:
<database_catalog-field-name>: <database_catalog-field-value>
| Key | Type | Description |
|---|---|---|
create_database_if_not_exists |
Boolean | Si desea crear la base de datos si no existe. |
database_instance_name |
String | Nombre de la instancia que contiene la base de datos. |
database_name |
String | Nombre de la base de datos (en una instancia) asociada al catálogo. |
lifecycle |
Map | Contiene la configuración del ciclo de vida de un recurso, incluido el comportamiento del recurso cuando se implementa o se destruye. Consulte ciclo de vida. |
name |
String | Nombre del catálogo en Unity Catalog. |
Example
En el ejemplo siguiente se define una instancia de base de datos con un catálogo de bases de datos correspondiente:
resources:
database_instances:
my_instance:
name: my-instance
capacity: CU_1
database_catalogs:
my_catalog:
database_instance_name: ${resources.database_instances.my_instance.name}
name: example_catalog
database_name: my_database
create_database_if_not_exists: true
instancia_de_base_de_datos
Type: Map
El recurso de instancia de base de datos permite definir instancias de base de datos en un lote. Una instancia de base de datos de Lakebase administra los recursos de almacenamiento y proceso y proporciona los puntos de conexión a los que se conectan los usuarios.
Importante
Al implementar un paquete con una instancia de base de datos, la instancia comienza a ejecutarse inmediatamente y está sujeta a tarifas. Consulte Precios de Lakebase.
Para obtener información sobre las instancias de base de datos, consulte ¿Qué es una instancia de base de datos?.
database_instances:
<database_instance-name>:
<database_instance-field-name>: <database_instance-field-value>
| Key | Type | Description |
|---|---|---|
capacity |
String | SKU de la instancia. Los valores válidos son CU_1, CU_2, CU_4, CU_8. |
custom_tags |
Sequence | Lista de pares clave-valor que especifican etiquetas personalizadas asociadas a la instancia. |
enable_pg_native_login |
Boolean | Indica si la instancia tiene habilitado el inicio de sesión de contraseña nativa de PG. Tiene como valor predeterminado true. |
enable_readable_secondaries |
Boolean | Si se habilitan secundarias para atender el tráfico de solo lectura. Tiene como valor predeterminado false. |
lifecycle |
Map | Contiene la configuración del ciclo de vida de un recurso. Controla el comportamiento del recurso cuando se implementa o se destruye. Consulte ciclo de vida. |
name |
String | Nombre de la instancia. Este es el identificador único de la instancia. |
node_count |
Integer | Número de nodos de la instancia, compuesto por 1 principal y 0 o más secundarias. El valor predeterminado es 1 principal y 0 secundarias. |
parent_instance_ref |
Map | Referencia de la instancia primaria. Esto solo está disponible si la instancia es una instancia hijo. Consulte la instancia primaria. |
permissions |
Sequence | Permisos de la instancia de base de datos. Consulte los permisos. |
retention_window_in_days |
Integer | Ventana de retención de la instancia. Este es el período de tiempo en días durante el que se conservan los datos históricos. El valor predeterminado es 7 días. Los valores válidos son de 2 a 35 días. |
stopped |
Boolean | Indica si la instancia está detenida. |
usage_policy_id |
String | Directiva de uso deseada que se va a asociar a la instancia. |
instancia_de_base_de_datos.enlace_de_instancia_padre
Type: Map
Referencia de la instancia primaria. Esto solo está disponible si la instancia es una instancia hijo.
| Key | Type | Description |
|---|---|---|
branch_time |
String | Tiempo de bifurcación de la instancia de base de datos ref. Para una instancia de referencia de padre, este es el punto en el tiempo de la instancia de padre desde la cual se creó la instancia. Para una instancia de referencia secundaria, este es el punto en el tiempo en la instancia desde el cual se creó la instancia secundaria. |
lsn |
String | LSN WAL especificado por el usuario de la instancia de base de datos de referencia. |
name |
String | Nombre de la instancia de la base de datos de referencia. |
Example
En el ejemplo siguiente se define una instancia de base de datos con un catálogo de bases de datos correspondiente:
resources:
database_instances:
my_instance:
name: my-instance
capacity: CU_1
database_catalogs:
my_catalog:
database_instance_name: ${resources.database_instances.my_instance.name}
name: example_catalog
database_name: my_database
create_database_if_not_exists: true
Para obtener un paquete de ejemplo que muestra cómo definir una instancia de base de datos y el catálogo de bases de datos correspondiente, consulte el repositorio de GitHub bundle-examples.
experimento
Type: Map
El recurso de experimento permite definir Experimentos de MLflow en un conjunto. Para obtener información sobre los experimentos de MLflow, consulte Organizar ejecuciones de entrenamiento con experimentos de MLflow.
experiments:
<experiment-name>:
<experiment-field-name>: <experiment-field-value>
| Key | Type | Description |
|---|---|---|
artifact_location |
String | Ubicación donde se almacenan los artefactos del experimento. |
lifecycle |
Map | Contiene la configuración del ciclo de vida de un recurso. Controla el comportamiento del recurso cuando se implementa o se destruye. Consulte ciclo de vida. |
name |
String | Nombre amigable que identifica el experimento. Un nombre de experimento debe ser una ruta de acceso absoluta en el área de trabajo de Databricks, por ejemplo /Workspace/Users/someone@example.com/my_experiment. |
permissions |
Sequence | Permisos del experimento. Consulte los permisos. |
tags |
Sequence | Pares clave-valor de metadatos adicionales. Consulte etiquetas. |
Example
En el ejemplo siguiente se define un experimento que todos los usuarios pueden ver:
resources:
experiments:
experiment:
name: /Workspace/Users/someone@example.com/my_experiment
permissions:
- level: CAN_READ
group_name: users
description: MLflow experiment used to track runs
trabajo
Type: Map
Los trabajos se admiten en Python para conjuntos de recursos de Databricks. Consulte databricks.bundles.jobs.
El recurso de trabajo permite definir trabajos y sus tareas correspondientes en la agrupación.
Para obtener información sobre los trabajos, consulte Trabajos de Lakeflow. Para ver un tutorial que usa una plantilla de Conjuntos de recursos de Databricks para crear un trabajo, consulte Desarrollo de un trabajo con Conjuntos de recursos de Databricks.
jobs:
<job-name>:
<job-field-name>: <job-field-value>
| Key | Type | Description |
|---|---|---|
budget_policy_id |
String | El id de la directiva de presupuesto especificada por el usuario que se utilizará para este trabajo. Si no se especifica, se puede aplicar una directiva de presupuesto predeterminada al crear o modificar el trabajo. Consulte effective_budget_policy_id para la directiva de presupuesto utilizada por esta carga de trabajo. |
continuous |
Map | Propiedad continua opcional para este trabajo. La propiedad continua garantizará que siempre haya un proceso en ejecución. Solo se puede usar uno de schedule y continuous. Consulte continuo. |
deployment |
Map | Información de despliegue para trabajos gestionados por fuentes externas. Consulte Implementación. |
description |
String | Descripción opcional del trabajo. La longitud máxima es de 27700 caracteres en codificación UTF-8. |
edit_mode |
String | Modo de edición del trabajo, ya sea UI_LOCKED o EDITABLE. |
email_notifications |
Map | Conjunto opcional de direcciones de correo electrónico que se notifican cuando se inician o completan las ejecuciones de este trabajo, así como cuando se elimina este trabajo. Consulte email_notifications. |
environments |
Sequence | Lista de especificaciones del entorno de ejecución de tareas a las que pueden hacer referencia las tareas sin servidor de este trabajo. Es necesario que un entorno esté presente para las tareas sin servidor. Para las tareas de cuaderno sin servidor, el entorno es accesible en el panel del entorno del cuaderno. Para otras tareas sin servidor, es necesario especificar el entorno de tareas mediante environment_key en la configuración de la tarea. Consulte entornos. |
format |
String | Deprecated. Formato del trabajo. |
git_source |
Map | Especificación opcional para un repositorio de Git remoto que contiene el código fuente que usan las tareas. Consulte job.git_source. Importante: Los campos git_source y source configurados como GIT no se recomiendan para conjuntos, ya que es posible que las rutas de acceso relativas locales no apunten al mismo contenido en el repositorio de Git, y los conjuntos esperan que un trabajo implementado tenga el mismo contenido que la copia local desde donde se implementó.En su lugar, clone el repositorio localmente y configure el proyecto de agrupación dentro de este repositorio, de modo que el origen de las tareas sea el área de trabajo. |
health |
Map | Conjunto opcional de reglas de mantenimiento que se pueden definir para este trabajo. Consulte la salud. |
job_clusters |
Sequence | Lista de especificaciones de clúster de trabajos que las tareas de este trabajo pueden compartir y reutilizar. Consulte job_clusters. |
max_concurrent_runs |
Integer | Número máximo permitido opcional de ejecuciones simultáneas del trabajo. Establezca este valor si desea poder ejecutar varias ejecuciones del mismo trabajo de manera simultánea. |
name |
String | Nombre opcional del trabajo. La longitud máxima es de 4096 bytes en codificación UTF-8. |
notification_settings |
Map | Configuración de notificación opcional que se usa al enviar notificaciones a email_notifications y webhook_notifications para este trabajo. Consulte notification_settings. |
parameters |
Sequence | Definiciones de parámetros de nivel de trabajo. |
performance_target |
String | Define cómo debe ser el rendimiento o la eficiencia del costo en la ejecución sobre serverless. |
permissions |
Sequence | Permisos del trabajo. Consulte los permisos. |
queue |
Map | Configuración de cola del trabajo. Consulte cola. |
run_as |
Map | Configuración de solo escritura. Especifica el usuario o la entidad de servicio en la que se ejecuta el trabajo. Si no se especifica, el trabajo se ejecuta como el usuario que creó el trabajo. Se debe especificar user_name o service_principal_name. Si no se establece, se produce un error. Consulte run_as. |
schedule |
Map | Programación periódica opcional para este trabajo. El comportamiento predeterminado es que el trabajo solo se ejecuta cuando se desencadena haciendo clic en "Ejecutar ahora" en la interfaz de usuario de trabajos o enviando una solicitud de API a runNow. Consulte programación. |
tags |
Map | Mapa de etiquetas asociadas al trabajo. Estos se reenvían al clúster como etiquetas de clúster para clústeres de trabajo y están sujetos a las mismas limitaciones que las etiquetas de clúster. Se puede agregar un máximo de 25 etiquetas al trabajo. |
tasks |
Sequence | Lista de especificaciones de tareas que se ejecutarán por este trabajo. Consulte Agregar tareas a trabajos en conjuntos de recursos de Databricks. |
timeout_seconds |
Integer | Límite de tiempo opcional que se aplica a cada ejecución de esta tarea. Un valor de 0 significa sin límite de tiempo. |
trigger |
Map | Configuración para desencadenar una ejecución cuando se cumplen determinadas condiciones. Consulte desencadenador. |
webhook_notifications |
Map | Colección de identificadores de notificación del sistema que se van a notificar cuando las ejecuciones de este trabajo comienzan o se completan. Consulte webhook_notifications. |
trabajo.continuo
Type: Map
Configuración para la ejecución continua del trabajo.
| Key | Type | Description |
|---|---|---|
pause_status |
String | Indica si el trabajo continuo está en pausa o no. Valores válidos: PAUSED, UNPAUSED. |
task_retry_mode |
String | Indique cómo el trabajo en curso está aplicando reintentos a nivel de tarea. Los valores válidos son NEVER y ON_FAILURE. Tiene como valor predeterminado NEVER. |
job.implementación
Type: Map
Información de despliegue para trabajos gestionados por fuentes externas.
| Key | Type | Description |
|---|---|---|
kind |
String | Tipo de implementación. Por ejemplo: BUNDLE. |
metadata_file_path |
String | Ruta de acceso al archivo de metadatos de la implementación. |
trabajo.notificaciones_por_correo_electrónico
Type: Map
Configuración de notificaciones por correo electrónico para ejecuciones de trabajos.
| Key | Type | Description |
|---|---|---|
on_start |
Sequence | Lista de direcciones de correo electrónico que se van a notificar cuando se inicia una ejecución. |
on_success |
Sequence | Lista de direcciones de correo electrónico que se deben notificar cuando una ejecución se realiza correctamente. |
on_failure |
Sequence | Lista de direcciones de correo electrónico que se deben notificar cuando se produce un error en una ejecución. |
on_duration_warning_threshold_exceeded |
Sequence | Lista de direcciones de correo electrónico que se deben notificar cuando una duración de ejecución supera el umbral de advertencia. |
no_alert_for_skipped_runs |
Boolean | Si se debe omitir el envío de alertas para ejecuciones saltadas. |
trabajo.entornos
Type: Sequence
Lista de especificaciones del entorno de ejecución de tareas a las que pueden hacer referencia las tareas sin servidor de un trabajo.
Cada elemento de la lista es: JobEnvironment
| Key | Type | Description |
|---|---|---|
environment_key |
String | Clave de un entorno. Debe ser único dentro de un trabajo. |
spec |
Map | Entidad que representa un entorno sin servidor. Consulte job.environments.spec. |
job.environments.spec
Type: Map
Entidad que representa un entorno sin servidor.
| Key | Type | Description |
|---|---|---|
client |
String | Deprecated. La versión del cliente. |
dependencies |
Sequence | Lista de dependencias de pip, como admite la versión de pip en este entorno. |
environment_version |
String | Obligatorio. Versión del entorno usada por el entorno. Cada versión incluye una versión específica de Python y un conjunto de paquetes de Python. La versión es una cadena que consta de un entero. |
job.git_source
Type: Map
Configuración del repositorio de Git para el código fuente del trabajo.
| Key | Type | Description |
|---|---|---|
git_branch |
String | Nombre de la rama que se extraerá y usará en esta tarea. Este campo no se puede especificar junto con git_tag o git_commit. |
git_commit |
String | Confirme que se va a desprotegir y usar este trabajo. Este campo no se puede especificar junto con git_branch o git_tag. |
git_provider |
String | Identificador único del servicio usado para hospedar el repositorio de Git. El valor no distingue mayúsculas de minúsculas. Los valores válidos son gitHub, bitbucketCloud, gitLab, azureDevOpsServicesgitHubEnterprise, , bitbucketServer, . gitLabEnterpriseEdition |
git_snapshot |
Map | Estado de solo lectura del repositorio remoto en el momento en que se ejecutó el trabajo. Este campo solo se incluye en ejecuciones de trabajo. Consulte git_snapshot. |
git_tag |
String | Nombre de la etiqueta que se va a desprotegir y usar en este trabajo. Este campo no se puede especificar junto con git_branch o git_commit. |
git_url |
String | Dirección URL del repositorio que va a clonar este trabajo. |
job.git_source.git_snapshot
Type: Map
Instantánea de información de confirmación de solo lectura.
| Key | Type | Description |
|---|---|---|
used_commit |
String | Confirmación que se usó para ejecutar la ejecución. Si git_branch se especificó, apunta a la HEAD de la rama en el momento de la ejecución; si git_tag se especificó, apunta al commit al que apunta la etiqueta. |
estado.salud
Type: Map
Configuración de supervisión de la salud del trabajo.
| Key | Type | Description |
|---|---|---|
rules |
Sequence | Lista de reglas de salud laboral. Cada regla contiene un metric y un op (operador) y un value. Consulte job.health.rules. |
trabajo.salud.reglas
Type: Sequence
Lista de reglas de salud laboral.
Cada elemento de la lista es: JobHealthRule
| Key | Type | Description |
|---|---|---|
metric |
String | Especifica la métrica de salud que se está evaluando para una regla de salud determinada.
|
op |
String | Especifica el operador utilizado para comparar el valor de la métrica de salud con el umbral especificado. |
value |
Integer | Especifica el valor de umbral que debe cumplir la métrica de mantenimiento para satisfacer la regla de mantenimiento. |
trabajo.clusters_de_tareas
Type: Sequence
Lista de especificaciones de clúster de trabajos que las tareas de este trabajo pueden compartir y reutilizar. Las bibliotecas no se pueden declarar en un clúster de trabajos compartidos. Debe declarar bibliotecas dependientes en la configuración de tareas.
Cada elemento de la lista es: JobCluster
| Key | Type | Description |
|---|---|---|
job_cluster_key |
String | Un nombre único para el clúster de trabajos. Este campo es obligatorio y debe ser único dentro del trabajo.
JobTaskSettings puede hacer referencia a este campo para determinar qué clúster se va a iniciar para la ejecución de la tarea. |
new_cluster |
Map | Si new_cluster, una descripción de un clúster que se crea para cada tarea. Consulte el clúster. |
trabajo.configuración_de_notificaciones
Type: Map
Configuración de notificación que se aplica a todas las notificaciones del trabajo.
| Key | Type | Description |
|---|---|---|
no_alert_for_skipped_runs |
Boolean | Si se debe omitir el envío de alertas para ejecuciones saltadas. |
no_alert_for_canceled_runs |
Boolean | Si se debe omitir el envío de alertas por ejecuciones canceladas. |
job.queue
Type: Map
Configuración de cola para la tarea.
| Key | Type | Description |
|---|---|---|
enabled |
Boolean | Si se va a habilitar la puesta en cola para el trabajo. |
programación.trabajos
Type: Map
Programar la configuración para la ejecución periódica del trabajo.
| Key | Type | Description |
|---|---|---|
quartz_cron_expression |
String | Expresión Cron con sintaxis de Quartz que especifica cuándo se ejecuta la tarea. Por ejemplo, 0 0 9 * * ? ejecuta el trabajo todos los días a las 9:00 UTC. |
timezone_id |
String | Zona horaria de la programación. Por ejemplo, America/Los_Angeles o UTC. |
pause_status |
String | Indica si la programación está en pausa o no. Valores válidos: PAUSED, UNPAUSED. |
job.trigger
Type: Map
Configuración del trigger para la ejecución de trabajos impulsados por eventos.
| Key | Type | Description |
|---|---|---|
file_arrival |
Map | Desencadenador basado en la llegada de archivos. Consulte file_arrival. |
table |
Map | Desencadenador basado en una tabla. Consulte la tabla. |
table_update |
Map | Desencadenador basado en las actualizaciones de la tabla. Consulte table_update. |
periodic |
Map | Activador periódico. Consulte periódicamente. |
trabajo.disparador.llegada_archivo
Type: Map
Configuración de desencadenadores basada en la llegada de archivos.
| Key | Type | Description |
|---|---|---|
url |
String | Ruta de acceso que se va a supervisar en busca de nuevos archivos. |
min_time_between_triggers_seconds |
Integer | Tiempo mínimo en segundos entre eventos de activación. |
wait_after_last_change_seconds |
Integer | Tiempo de espera en segundos después del último cambio de archivo antes de desencadenarse. |
job.trigger.table
Type: Map
Configuración de activación basada en una tabla.
| Key | Type | Description |
|---|---|---|
table_names |
Sequence | Lista de nombres de tabla para supervisar. |
condition |
String | Condición SQL que se debe cumplir para desencadenar el trabajo. |
trabajo.activar.actualización_tabla
Type: Map
Configuración de desencadenador basada en actualizaciones de tabla.
| Key | Type | Description |
|---|---|---|
table_names |
Sequence | Lista de nombres de tabla para supervisar las actualizaciones. |
condition |
String | Condición SQL que se debe cumplir para desencadenar el trabajo. |
wait_after_last_change_seconds |
Integer | Tiempo de espera en segundos después de la última actualización de la tabla antes de desencadenarse. |
trabajo.activación.periódica
Type: Map
Configuración periódica del desencadenador.
| Key | Type | Description |
|---|---|---|
interval |
Integer | Valor de intervalo del desencadenador periódico. |
unit |
String | Unidad de tiempo para el intervalo. Valores válidos: SECONDS, MINUTES, HOURS, DAYS, WEEKS. |
trabajo.notificaciones_de_webhook
Type: Map
Configuración de notificación de webhook para la ejecución de trabajos.
| Key | Type | Description |
|---|---|---|
on_start |
Sequence | Lista de identificadores de notificación de webhook que se deben notificar cuando se inicia una ejecución. |
on_success |
Sequence | Lista de identificadores de notificación de webhook que se deben notificar cuando una ejecución tiene éxito. |
on_failure |
Sequence | Lista de identificadores de notificación de webhook que se deben notificar cuando se produce un error en una ejecución. |
on_duration_warning_threshold_exceeded |
Sequence | Lista de identificadores de notificación de webhook para avisar cuando la duración de ejecución supera el umbral de advertencia. |
Examples
En el ejemplo siguiente se define un trabajo con la clave de recurso hello-job con una tarea de cuaderno:
resources:
jobs:
hello-job:
name: hello-job
tasks:
- task_key: hello-task
notebook_task:
notebook_path: ./hello.py
En el ejemplo siguiente se define un trabajo con un cuaderno de SQL:
resources:
jobs:
job_with_sql_notebook:
name: 'Job to demonstrate using a SQL notebook with a SQL warehouse'
tasks:
- task_key: notebook
notebook_task:
notebook_path: ./select.sql
warehouse_id: 799f096837fzzzz4
Para obtener ejemplos de configuración de trabajos adicionales, consulte Configuración del trabajo.
Para obtener información sobre cómo definir tareas de trabajo e invalidar la configuración del trabajo, consulte:
- Adición de tareas a trabajos en Conjuntos de recursos de Databricks
- Invalidación de la configuración de tareas de trabajo
modelo (heredado)
Type: Map
El recurso de modelo permite definir modelos heredados en agrupaciones. Databricks recomienda que use modelos registrados de Unity Catalog en su lugar.
punto_de_servicio_del_modelo
Type: Map
El recurso model_serving_endpoint permite definir puntos de conexión de modelo de servicio. Consulte Administración de puntos de conexión de modelo de servicio.
model_serving_endpoints:
<model_serving_endpoint-name>:
<model_serving_endpoint-field-name>: <model_serving_endpoint-field-value>
| Key | Type | Description |
|---|---|---|
ai_gateway |
Map | Configuración de puerta de enlace de IA para el punto de conexión de servicio. NOTA: Actualmente solo se admiten los puntos de conexión de rendimiento aprovisionados y el modelo externo. Consulte ai_gateway. |
config |
Map | Configuración principal del punto de conexión de servicio. Consulte config. |
name |
String | Nombre del punto de conexión de servicio. Este campo es obligatorio y debe ser único en un área de trabajo de Databricks. Un nombre de punto de conexión puede constar de caracteres alfanuméricos, guiones y caracteres de subrayado. |
permissions |
Sequence | Los permisos del Modelo de puntos de conexión de servicio. Consulte los permisos. |
rate_limits |
Sequence | Deprecated. Límites de velocidad que se aplicarán al punto de servicio. Use AI Gateway para administrar los límites de velocidad. |
route_optimized |
Boolean | Active la optimización de rutas para el endpoint de servicio. |
tags |
Sequence | Etiquetas que se adjuntarán al punto final de servicio y se propagarán automáticamente a los registros de facturación. |
punto_de_servicio_de_modelo.puerta_de_enlace_ia
Type: Map
Configuración del Gateway de IA para el punto de servicio.
| Key | Type | Description |
|---|---|---|
guardrails |
Map | Configuración de guardarraíl. Consulte barreras de protección. |
inference_table_config |
Map | Configuración del registro de inferencia en tablas del catálogo de Unity. Consulte inference_table_config. |
rate_limits |
Sequence | Configuraciones de límite de velocidad. |
usage_tracking_config |
Map | Configuración para el seguimiento del uso. Consulte usage_tracking_config. |
model_serving_endpoint.ai_gateway.guardrails
Type: Map
Configuración de barreras de puerta de enlace de AI.
| Key | Type | Description |
|---|---|---|
input |
Map | Configuración de límites de protección de entrada con campos como safety, pii. |
output |
Map | Configuración de límites de protección de salida con campos como safety, pii. |
invalid_keywords |
Sequence | Lista de palabras clave que se van a bloquear. |
punto_de_servicio_de_modelo.puerta_de_enlace_ia.configuración_de_tabla_de_inferencia
Type: Map
Configuración del registro de inferencia en tablas del catálogo de Unity.
| Key | Type | Description |
|---|---|---|
catalog_name |
String | Nombre del catálogo en Unity Catalog. |
schema_name |
String | Nombre del esquema en el catálogo de Unity. |
table_name_prefix |
String | Prefijo para nombres de tabla de inferencia. |
enabled |
Boolean | Indica si el registro de tablas de inferencia está habilitado. |
model_serving_endpoint.ai_gateway.configuración_de_seguimiento_de_uso
Type: Map
Configuración del portal de IA para el seguimiento del uso.
| Key | Type | Description |
|---|---|---|
enabled |
Boolean | Indica si el seguimiento de uso está habilitado. |
model_serving_endpoint.config
Type: Map
Configuración principal del punto de conexión de servicio.
| Key | Type | Description |
|---|---|---|
served_entities |
Sequence | Lista de entidades a las que el punto de conexión proporcionará servicios. Cada entidad atendida contiene campos como entity_name, , entity_versionworkload_size, scale_to_zero_enabled, workload_type, . environment_vars |
served_models |
Sequence | (En desuso: use served_entities en su lugar) Una lista de modelos que el punto de conexión debe procesar. |
traffic_config |
Map | La configuración del tráfico que define cómo se deben enrutar las invocaciones al punto de conexión de servicio. Consulte traffic_config. |
auto_capture_config |
Map | Configuración de tablas de inferencia que registra automáticamente las solicitudes y respuestas al catálogo de Unity. Consulte auto_capture_config. |
punto_de_servicio_de_modelo.config.configuración_de_tráfico
Type: Map
La configuración del tráfico que define cómo se deben enrutar las invocaciones al punto de conexión de servicio.
| Key | Type | Description |
|---|---|---|
routes |
Sequence | Lista de rutas para la distribución del tráfico. Cada ruta contiene served_model_name y traffic_percentage. |
model_serving_endpoint.config.auto_capture_config
Type: Map
Configuración de tablas de inferencia que registra automáticamente las solicitudes y respuestas al catálogo de Unity.
| Key | Type | Description |
|---|---|---|
catalog_name |
String | Nombre del catálogo en Unity Catalog. |
schema_name |
String | Nombre del esquema en el catálogo de Unity. |
table_name_prefix |
String | Prefijo para nombres de tabla de inferencia. |
enabled |
Boolean | Indica si el registro de tablas de inferencia está habilitado. |
Example
En el ejemplo siguiente se define un modelo de Catálogo de Unity que sirve el punto de conexión:
resources:
model_serving_endpoints:
uc_model_serving_endpoint:
name: 'uc-model-endpoint'
config:
served_entities:
- entity_name: 'myCatalog.mySchema.my-ads-model'
entity_version: '10'
workload_size: 'Small'
scale_to_zero_enabled: 'true'
traffic_config:
routes:
- served_model_name: 'my-ads-model-10'
traffic_percentage: '100'
tags:
- key: 'team'
value: 'data science'
canalización
Type: Map
Los pipelines son compatibles con Python para los paquetes de recursos de Databricks. Consulte databricks.bundles.pipelines.
El recurso de canalización permite crear canalizaciones. Para obtener información sobre las canalizaciones, consulte Canalizaciones declarativas de Spark de Lakeflow. Para consultar un tutorial que utiliza la plantilla Databricks Asset Bundles para crear una canalización, vea Desarrollar canalizaciones declarativas de Spark Lakeflow con Databricks Asset Bundles.
pipelines:
<pipeline-name>:
<pipeline-field-name>: <pipeline-field-value>
| Key | Type | Description |
|---|---|---|
allow_duplicate_names |
Boolean | Si es falso, la implementación fallará si el nombre entra en conflicto con el de otra canalización. |
budget_policy_id |
String | Directiva de presupuesto de esta canalización. |
catalog |
String | Un catálogo en Unity Catalog donde publicar datos de esta canalización. Si se especifica target, las tablas de esta canalización se publican en un esquema target dentro de catalog (por ejemplo, catalog.target.table). Si target no se especifica, no se publica ningún dato en el catálogo de Unity. |
channel |
String | Canal de lanzamiento de las canalizaciones declarativas de Spark de Lakeflow que especifica qué versión de estas canalizaciones debe utilizarse. |
clusters |
Sequence | La configuración del clúster para esta implementación de canalización. Consulte el clúster. |
configuration |
Map | Configuración de esta ejecución de canalización. |
continuous |
Boolean | Indica si la canalización es continua o se desencadena. Esto reemplaza a trigger. |
deployment |
Map | Tipo de implementación de esta canalización. Consulte Implementación. |
development |
Boolean | Si la canalización está o no en modo de desarrollo. El valor predeterminado es False. |
dry_run |
Boolean | Si la canalización es una canalización de simulación. |
edition |
String | Edición del producto de canalización. |
environment |
Map | Especificación de entorno para esta canalización que se usa para instalar dependencias en el proceso sin servidor. Consulte entorno. Esta clave solo se admite en la VERSIÓN 0.258 de la CLI de Databricks y versiones posteriores. |
event_log |
Map | Configuración del registro de eventos para esta canalización. Consulte event_log. |
filters |
Map | Filtros que determinan qué paquetes de canalización se van a incluir en el gráfico implementado. Consulte filtros. |
id |
String | Identificador único de esta canalización. |
ingestion_definition |
Map | Configuración de una canalización de ingesta administrada. Estas configuraciones no se pueden usar con los ajustes libraries, schema, target o catalog. Consulte ingestion_definition. |
libraries |
Sequence | Lista de bibliotecas o código que necesita esta implementación. Consulte pipeline.libraries. |
lifecycle |
Map | Contiene la configuración del ciclo de vida de un recurso. Controla el comportamiento del recurso cuando se implementa o se destruye. Consulte ciclo de vida. |
name |
String | Nombre amigable para esta tubería. |
notifications |
Sequence | Configuración de notificación para esta canalización. |
permissions |
Sequence | Permisos de la canalización. Consulte los permisos. |
photon |
Boolean | Si Photon está habilitado para esta canalización. |
root_path |
String | Ruta de acceso raíz de esta canalización. Esto se usa como directorio raíz al editar la canalización en la interfaz de usuario de Databricks y se agrega a sys.path al ejecutar orígenes de Python durante la ejecución de la canalización. |
run_as |
Map | La identidad con la que se ejecuta la canalización. Si no se especifica, la canalización se ejecuta como el usuario que creó la canalización. Solo user_name o service_principal_name se puede especificar. Si se especifican ambos, se produce un error. Consulte run_as. |
schema |
String | Esquema predeterminado (base de datos) donde se leen o publican tablas. |
serverless |
Boolean | Si se habilita la computación sin servidor para esta canalización. |
storage |
String | Directorio raíz de DBFS para almacenar puntos de control y tablas. |
tags |
Map | Mapa de etiquetas asociadas a la canalización. Estos se reenvieron al clúster como etiquetas de clúster y, por tanto, están sujetos a las mismas limitaciones. Se pueden agregar un máximo de 25 etiquetas a la canalización. |
target |
String | Esquema de destino (base de datos) para agregar tablas a esta canalización. Se debe especificar exactamente uno de schema o target. Para publicar en el Catálogo de Unity, también especifique catalog. Este campo heredado está en desuso para la creación de canalizaciones en favor del campo schema. |
pipeline.deployment
Type: Map
Configuración del tipo de implementación para el pipeline.
| Key | Type | Description |
|---|---|---|
kind |
String | Tipo de implementación. Por ejemplo: BUNDLE. |
metadata_file_path |
String | Ruta de acceso al archivo de metadatos de la implementación. |
pipeline.entorno
Type: Map
Especificación del entorno para instalar dependencias en cómputo sin servidor.
| Key | Type | Description |
|---|---|---|
dependencies |
Sequence | Lista de dependencias de pip compatibles con la versión de pip en este entorno. Cada dependencia es una línea de un archivo de requerimientos pip. |
pipeline.registro_de_eventos
Type: Map
Configuración del registro de eventos para la tubería.
| Key | Type | Description |
|---|---|---|
catalog |
String | El catálogo de Unity Catalog bajo el cual se publica el registro de eventos. |
name |
String | El nombre en el que se publica el registro de eventos en el catálogo de Unity. |
schema |
String | El esquema del catálogo de Unity en el que se publica el registro de eventos. |
pipeline.filtros
Type: Map
Filtra qué paquetes de canalización se van a incluir en el gráfico implementado.
| Key | Type | Description |
|---|---|---|
include |
Sequence | Lista de nombres de paquete que se van a incluir. |
exclude |
Sequence | Lista de nombres de paquete que se van a excluir. |
pipeline.ingestion_definition
Type: Map
Configuración de una canalización de ingesta administrada. Estas configuraciones no se pueden usar con los ajustes libraries, schema, target o catalog.
| Key | Type | Description |
|---|---|---|
connection_name |
String | Nombre de la conexión que se va a usar para la ingesta. |
ingestion_gateway_id |
String | Identificador de la puerta de enlace de ingestión. |
objects |
Sequence | Obligatorio. Configuración que especifica tablas que se van a replicar y el destino de las tablas replicadas. Cada objeto puede ser schemaSpec, TableSpec o ReportSpec. |
source_configuration |
Map | Parámetros de configuración de origen de nivel de catálogo. Consulte source_configuration. |
table_configuration |
Map | Configuración de las tablas de ingesta. Consulte table_configuration. |
SchemaSpec
Type: Map
Especificación de objeto de esquema para ingerir todas las tablas de un esquema.
| Key | Type | Description |
|---|---|---|
source_schema |
String | Nombre del esquema de origen que se debe ingerir. |
destination_catalog |
String | Nombre del catálogo de destino en el catálogo de Unity. |
destination_schema |
String | Nombre del esquema de destino en el catálogo de Unity. |
table_configuration |
Map | Configuración que se va a aplicar a todas las tablas de este esquema. Consulte pipeline.ingestion_definition.table_configuration. |
TableSpec
Type: Map
Especificación del objeto de tabla para la ingesta de una tabla específica.
| Key | Type | Description |
|---|---|---|
source_schema |
String | Nombre del esquema de origen que contiene la tabla. |
source_table |
String | Nombre de la tabla de origen que se va a ingerir. |
destination_catalog |
String | Nombre del catálogo de destino en el catálogo de Unity. |
destination_schema |
String | Nombre del esquema de destino en el catálogo de Unity. |
destination_table |
String | Nombre de la tabla de destino en el catálogo de Unity. |
table_configuration |
Map | Configuración de esta tabla específica. Consulte pipeline.ingestion_definition.table_configuration. |
EspecificaciónDeReporte
Type: Map
Especificación del objeto de informe para la ingesta de informes de análisis.
| Key | Type | Description |
|---|---|---|
source_url |
String | Dirección URL del informe de origen. |
source_report |
String | Nombre o identificador del informe de origen. |
destination_catalog |
String | Nombre del catálogo de destino en el catálogo de Unity. |
destination_schema |
String | Nombre del esquema de destino en el catálogo de Unity. |
destination_table |
String | Nombre de la tabla de destino de los datos del informe. |
table_configuration |
Map | Configuración de la tabla de informes. Consulte pipeline.ingestion_definition.table_configuration. |
tubería.definición_ingesta.configuración_fuente
Type: Map
Configuración de la fuente.
| Key | Type | Description |
|---|---|---|
catalog |
Map | Parámetros de configuración de origen de nivel de catálogo. Consulte el catálogo. |
pipeline.definición_de_ingestión.configuración_de_fuente.catálogo
Type: Map
Parámetros de configuración de nivel de catálogo para fuentes
| Key | Type | Description |
|---|---|---|
postgres |
Map | Parámetros de configuración de nivel de catálogo específicos de Postgres. Contiene una slot_config clave que representa Map la configuración de ranura de Postgres que se va a usar para la replicación lógica. |
source_catalog |
String | Nombre del catálogo de origen. |
tubería.definición_ingestión.configuración_tabla
Type: Map
Opciones de configuración para tablas de ingesta.
| Key | Type | Description |
|---|---|---|
exclude_columns |
Sequence | Lista de nombres de columna que se excluirán para el procesamiento. Cuando no se especifica, include_columns gestiona completamente qué columnas serán ingeridas. Cuando se especifica, todas las demás columnas, incluidas las futuras, se incluirán automáticamente para la ingestión. Este campo se excluye mutuamente con include_columns. |
include_columns |
Sequence | Lista de nombres de columna que se van a incluir para la ingesta. Cuando no se especifica, se incluirán todas las columnas excepto las de exclude_columns . Las columnas futuras se incluirán automáticamente. Cuando se especifique, todas las columnas futuras restantes serán excluidas automáticamente de la ingesta. Este campo se excluye mutuamente con exclude_columns. |
primary_keys |
Sequence | Lista de nombres de columna que se van a usar como claves principales para la tabla. |
sequence_by |
Sequence | Nombres de columna que especifican el orden lógico de los eventos en los datos de origen. Spark Declarative Pipelines usa esta secuenciación para controlar los eventos de cambio que llegan fuera del orden. |
pipeline.libraries
Type: Sequence
Define la lista de bibliotecas o código que necesita esta canalización.
Cada elemento de la lista es una definición:
| Key | Type | Description |
|---|---|---|
file |
Map | La ruta de acceso a un archivo que define una canalización y se almacena en Databricks Repos. Consulte pipeline.libraries.file. |
glob |
Map | Campo unificado para incluir el código fuente. Cada entrada puede ser una ruta de acceso de cuaderno, una ruta de acceso de archivo o una ruta de acceso de carpeta que finaliza /**. Este campo no se puede usar junto con notebook o file. Consulte pipeline.libraries.glob. |
notebook |
Map | Ruta de acceso a un cuaderno que define una canalización y se almacena en el área de trabajo de Databricks. Consulte pipeline.libraries.notebook. |
whl |
String | Este campo está en desuso |
pipeline.libraries.file
Type: Map
Ruta de acceso a un archivo que define una canalización y se almacena en los repositorios de Databricks.
| Key | Type | Description |
|---|---|---|
path |
String | Ruta de acceso absoluta del código fuente. |
pipeline.libraries.glob
Type: Map
Campo unificado para incluir el código fuente. Cada entrada puede ser una ruta de acceso de cuaderno, una ruta de acceso de archivo o una ruta de acceso de carpeta que finaliza /**. Este campo no se puede usar junto con notebook o file.
| Key | Type | Description |
|---|---|---|
include |
String | Código fuente para incluir en canalizaciones |
pipeline.libraries.notebook
Type: Map
Ruta de acceso a un cuaderno que define una canalización y se almacena en el área de trabajo de Databricks.
| Key | Type | Description |
|---|---|---|
path |
String | Ruta de acceso absoluta del código fuente. |
Example
En el ejemplo siguiente se define una canalización con la clave de recurso hello-pipeline:
resources:
pipelines:
hello-pipeline:
name: hello-pipeline
clusters:
- label: default
num_workers: 1
development: true
continuous: false
channel: CURRENT
edition: CORE
photon: false
libraries:
- notebook:
path: ./pipeline.py
Para obtener ejemplos de configuración de canalización adicionales, consulte Configuración de canalización.
quality_monitor (Catálogo de Unity)
Type: Map
El recurso quality_monitor permite definir un monitor de tabla de catálogo de Unity. Para obtener información sobre los monitores, consulte Generación de perfiles de datos.
quality_monitors:
<quality_monitor-name>:
<quality_monitor-field-name>: <quality_monitor-field-value>
| Key | Type | Description |
|---|---|---|
assets_dir |
String | Directorio para almacenar recursos de supervisión (por ejemplo, panel, tablas de métricas). |
baseline_table_name |
String | Nombre de la tabla de línea base desde la que se calculan las métricas de desfase. Las columnas de la tabla supervisada también deben estar presentes en la tabla de línea base. |
custom_metrics |
Sequence | Métricas personalizadas para calcular en la tabla supervisada. Pueden ser métricas agregadas, métricas derivadas (de métricas agregadas ya calculadas) o métricas de desfase (comparando métricas entre ventanas de tiempo). Consulte custom_metrics. |
inference_log |
Map | Configuración para supervisar los registros de inferencia. Consulte inference_log. |
lifecycle |
Map | Contiene la configuración del ciclo de vida de un recurso. Controla el comportamiento del recurso cuando se implementa o se destruye. Consulte ciclo de vida. |
notifications |
Map | Configuración de notificación del monitor. Consulte las notificaciones. |
output_schema_name |
String | Esquema en el que se crean tablas de métricas de salida. |
schedule |
Map | Programación para actualizar y refrescar automáticamente las tablas de métricas. Consulte programación. |
skip_builtin_dashboard |
Boolean | Si se omite la creación de un panel predeterminado que resume las métricas de calidad de los datos. |
slicing_exprs |
Sequence | Lista de expresiones de columna con las que segmentar los datos para el análisis específico. Los datos se agrupan por cada expresión de forma independiente, lo que da como resultado un segmento independiente para cada predicado y sus complementos. En el caso de las columnas de cardinalidad alta, solo los 100 valores únicos principales por frecuencia generarán segmentos. |
snapshot |
Map | Configuración para supervisar tablas de instantáneas. Consulte instantánea. |
table_name |
String | Nombre completo de la tabla. |
time_series |
Map | Configuración para supervisar tablas de series temporales. Consulte time_series. |
warehouse_id |
String | Argumento opcional para especificar el almacenamiento para la creación del panel. Si no se especifica, se usará el primer almacén operativo. |
monitor_de_calidad.métricas_personalizadas
Type: Sequence
Lista de definiciones de métricas personalizadas.
Cada elemento de la lista es: CustomMetric
| Key | Type | Description |
|---|---|---|
definition |
String | Plantilla de Jinja para una expresión SQL que especifica cómo calcular la métrica. Consulte Creación de la definición de métricas. |
input_columns |
Sequence | Lista de nombres de columna de la tabla de entrada para la que se debe calcular la métrica. Puede usar :table para indicar que la métrica necesita información de varias columnas. |
name |
String | Nombre de la métrica en las tablas de salida. |
output_data_type |
String | Tipo de salida de la métrica personalizada. |
type |
String | Solo puede ser uno de CUSTOM_METRIC_TYPE_AGGREGATE, CUSTOM_METRIC_TYPE_DERIVEDo CUSTOM_METRIC_TYPE_DRIFT. Las métricas CUSTOM_METRIC_TYPE_AGGREGATE y CUSTOM_METRIC_TYPE_DERIVED se calculan en una sola tabla, mientras que las métricas CUSTOM_METRIC_TYPE_DRIFT se comparan entre la tabla de referencia y la tabla de entrada, o entre dos ventanas de tiempo consecutivas.
|
monitor_de_calidad.configuración_de_clasificación_de_datos
Type: Map
Configuración para la clasificación de datos.
| Key | Type | Description |
|---|---|---|
enabled |
Boolean | Si la clasificación de datos está habilitada. |
monitoreo_de_calidad.registro_de_inferencia
Type: Map
Configuración para supervisar los registros de inferencia.
| Key | Type | Description |
|---|---|---|
granularities |
Sequence | Granularidades temporales para agregar registros de inferencia (por ejemplo, ["1 day"]). |
model_id_col |
String | Nombre de la columna que contiene el identificador del modelo. |
prediction_col |
String | Nombre de la columna que contiene la predicción. |
timestamp_col |
String | Nombre de la columna que contiene la marca de tiempo. |
problem_type |
String | Tipo de problema de ML. Los valores válidos incluyen PROBLEM_TYPE_CLASSIFICATION, PROBLEM_TYPE_REGRESSION. |
label_col |
String | Nombre de la columna que contiene la etiqueta (verdad verdadera). |
monitor_de_calidad.notificaciones
Type: Map
Configuración de notificación para el monitor.
| Key | Type | Description |
|---|---|---|
on_failure |
Map | Configuración de notificación cuando se produce un error en el monitor. Consulte on_failure. |
on_new_classification_tag_detected |
Map | Configuración de notificación cuando se detectan nuevas etiquetas de clasificación. Consulte on_new_classification_tag_detected. |
quality_monitor.notifications.on_failure
Type: Map
Configuración de notificación cuando se produce un error en el monitor.
| Key | Type | Description |
|---|---|---|
email_addresses |
Sequence | Lista de direcciones de correo electrónico para notificar en caso de fallo del monitor. |
quality_monitor.notificaciones.on_new_classification_tag_detected
Type: Map
Configuración de notificación cuando se detectan nuevas etiquetas de clasificación.
| Key | Type | Description |
|---|---|---|
email_addresses |
Sequence | Lista de direcciones de correo electrónico que se deben notificar cuando se detectan nuevas etiquetas de clasificación. |
monitor_de_calidad.programar
Type: Map
Programación para actualizar y refrescar automáticamente las tablas de métricas.
| Key | Type | Description |
|---|---|---|
quartz_cron_expression |
String | Expresión Cron con la sintaxis de Quartz. Por ejemplo, 0 0 8 * * ? se ejecuta todos los días a las 8:00 a. m. |
timezone_id |
String | Zona horaria de la programación (por ejemplo, UTC, America/Los_Angeles). |
pause_status |
String | Indica si la programación está en pausa. Valores válidos: PAUSED, UNPAUSED. |
monitor_de_calidad.captura
Type: Map
Configuración para supervisar tablas de instantáneas.
quality_monitor.time_series
Configuración para supervisar tablas de series temporales.
| Key | Type | Description |
|---|---|---|
granularities |
Sequence | Los niveles de granularidad temporal para agregar datos de series temporales (por ejemplo, ["30 minutes"]). |
timestamp_col |
String | Nombre de la columna que contiene la marca de tiempo. |
Examples
Para obtener un paquete de ejemplo completo que define un quality_monitor, consulte el paquete mlops_demo.
En los ejemplos siguientes se definen monitores de calidad para los tipos de perfil InferenceLog, TimeSeries y Snapshot .
# InferenceLog profile type
resources:
quality_monitors:
my_quality_monitor:
table_name: dev.mlops_schema.predictions
output_schema_name: ${bundle.target}.mlops_schema
assets_dir: /Workspace/Users/${workspace.current_user.userName}/databricks_lakehouse_monitoring
inference_log:
granularities: [1 day]
model_id_col: model_id
prediction_col: prediction
label_col: price
problem_type: PROBLEM_TYPE_REGRESSION
timestamp_col: timestamp
schedule:
quartz_cron_expression: 0 0 8 * * ? # Run Every day at 8am
timezone_id: UTC
# TimeSeries profile type
resources:
quality_monitors:
my_quality_monitor:
table_name: dev.mlops_schema.predictions
output_schema_name: ${bundle.target}.mlops_schema
assets_dir: /Workspace/Users/${workspace.current_user.userName}/databricks_lakehouse_monitoring
time_series:
granularities: [30 minutes]
timestamp_col: timestamp
schedule:
quartz_cron_expression: 0 0 8 * * ? # Run Every day at 8am
timezone_id: UTC
# Snapshot profile type
resources:
quality_monitors:
my_quality_monitor:
table_name: dev.mlops_schema.predictions
output_schema_name: ${bundle.target}.mlops_schema
assets_dir: /Workspace/Users/${workspace.current_user.userName}/databricks_lakehouse_monitoring
snapshot: {}
schedule:
quartz_cron_expression: 0 0 8 * * ? # Run Every day at 8am
timezone_id: UTC
modelo_registrado (Catálogo de Unity)
Type: Map
El recurso de modelo registrado permite definir modelos en el catálogo de Unity. Para obtener información sobre modelos registrados de Unity Catalog, consulte Administración del ciclo de vida del modelo en Unity Catalog.
registered_models:
<registered_model-name>:
<registered_model-field-name>: <registered_model-field-value>
| Key | Type | Description |
|---|---|---|
aliases |
Sequence | Lista de alias asociados al modelo registrado. Consulte registered_model.aliases. |
browse_only |
Boolean | Indica si el principal está limitado a recuperar metadatos para el objeto asociado a través del privilegio BROWSE cuando include_browse está activado en la solicitud. |
catalog_name |
String | Nombre del catálogo donde reside el esquema y el modelo registrado. |
comment |
String | Comentario adjunto al modelo registrado. |
full_name |
String | Nombre de tres niveles (completamente cualificado) del modelo registrado |
grants |
Sequence | Las concesiones asociadas al modelo registrado. Consulte concesión. |
lifecycle |
Map | Contiene la configuración del ciclo de vida de un recurso. Controla el comportamiento del recurso cuando se implementa o se destruye. Consulte ciclo de vida. |
name |
String | Nombre del modelo registrado. |
schema_name |
String | Nombre del esquema donde reside el modelo registrado. |
storage_location |
String | Ubicación de almacenamiento en la nube en la que se almacenan los archivos de datos de versión del modelo. |
registered_model.aliases
Type: Sequence
Lista de alias asociados al modelo registrado.
Cada elemento de la lista es un Alias:
| Key | Type | Description |
|---|---|---|
alias_name |
String | Nombre del alias, por ejemplo, "campeón" o "latest_stable" |
catalog_name |
String | Nombre del catálogo que contiene la versión del modelo |
id |
String | Identificador único del alias |
model_name |
String | Nombre del modelo registrado primario de la versión del modelo, en relación con el esquema primario. |
schema_name |
String | Nombre del esquema que contiene la versión del modelo, en relación con el catálogo primario. |
version_num |
Integer | Número de versión entero de la versión del modelo a la que apunta este alias. |
Example
En el ejemplo siguiente se define un modelo registrado en el catálogo de Unity:
resources:
registered_models:
model:
name: my_model
catalog_name: ${bundle.target}
schema_name: mlops_schema
comment: Registered model in Unity Catalog for ${bundle.target} deployment target
grants:
- privileges:
- EXECUTE
principal: account users
esquema (Catálogo de Unity)
Type: Map
Los esquemas se admiten en Python para conjuntos de recursos de Databricks. Consulte databricks.bundles.schemas.
El tipo de recurso de esquema permite definir esquemas de Unity Catalog para tablas y otros recursos de los flujos de trabajo y canalizaciones creados como parte de un conjunto. Un esquema, diferente de otros tipos de recursos, tiene las siguientes limitaciones:
- El propietario de un recurso de esquema siempre es el usuario de implementación y no se puede cambiar. Si se especifica
run_asen la agrupación, se omitirán las operaciones en el esquema. - Solo los campos admitidos por la API de creación de objetos de esquema correspondiente están disponibles para el recurso schema. Por ejemplo,
enable_predictive_optimizationno se admite, ya que solo está disponible en la API de actualización.
schemas:
<schema-name>:
<schema-field-name>: <schema-field-value>
| Key | Type | Description |
|---|---|---|
catalog_name |
String | Nombre del catálogo primario. |
comment |
String | Descripción de texto de forma libre proporcionada por el usuario. |
grants |
Sequence | Las concesiones asociadas al esquema. Consulte concesión. |
lifecycle |
Map | Contiene la configuración del ciclo de vida de un recurso. Controla el comportamiento del recurso cuando se implementa o se destruye. Consulte ciclo de vida. |
name |
String | Nombre del esquema, en relación con el catálogo primario. |
properties |
Map | Mapa de las propiedades clave-valor adjuntas al esquema. |
storage_root |
String | Dirección URL raíz de almacenamiento para las tablas administradas dentro del esquema. |
Examples
En el ejemplo siguiente se define una canalización con la clave de recurso my_pipeline que crea un esquema de Catálogo de Unity con la clave my_schema como destino:
resources:
pipelines:
my_pipeline:
name: test-pipeline-{{.unique_id}}
libraries:
- notebook:
path: ../src/nb.ipynb
- file:
path: ../src/range.sql
development: true
catalog: ${resources.schemas.my_schema.catalog_name}
target: ${resources.schemas.my_schema.id}
schemas:
my_schema:
name: test-schema-{{.unique_id}}
catalog_name: main
comment: This schema was created by Databricks Asset Bundles.
Databricks Asset Bundles no admite un mapeo de permisos de nivel superior, por lo que si desea establecer permisos para un esquema, defina los permisos para el esquema dentro del mapeo de schemas. Para obtener más información sobre las concesiones, vea Mostrar, conceder y revocar privilegios.
En el ejemplo siguiente se define un esquema de catálogo de Unity con concesiones:
resources:
schemas:
my_schema:
name: test-schema
grants:
- principal: users
privileges:
- SELECT
- principal: my_team
privileges:
- CAN_MANAGE
catalog_name: main
ámbito_secreto
Type: Map
El recurso secret_scope permite definir ámbitos secretos en una agrupación. Para obtener información sobre los ámbitos de secreto, consulte Administración de secretos.
secret_scopes:
<secret_scope-name>:
<secret_scope-field-name>: <secret_scope-field-value>
| Key | Type | Description |
|---|---|---|
backend_type |
String | Tipo de back-end con el que se creará el ámbito. Si no se especifica, este valor predeterminado es DATABRICKS. |
keyvault_metadata |
Map | Los metadatos para el ámbito secreto si backend_type es AZURE_KEYVAULT. Consulte keyvault_metadata. |
lifecycle |
Map | Contiene la configuración del ciclo de vida de un recurso. Controla el comportamiento del recurso cuando se implementa o se destruye. Consulte ciclo de vida. |
name |
String | Nombre de ámbito solicitado por el usuario. Los nombres de los ámbitos son únicos. |
permissions |
Sequence | Permisos para aplicar al ámbito secreto. Los permisos se administran a través de ACL de ámbito secreto. Consulte los permisos. |
secret_scope.keyvault_metadata
Type: Map
Metadatos de los ámbitos secretos con respaldo de Azure Key Vault.
| Key | Type | Description |
|---|---|---|
resource_id |
String | Identificador de recurso de Azure del almacén de claves. |
dns_name |
String | Nombre DNS de Azure Key Vault. |
Examples
En el ejemplo siguiente se define un ámbito secreto que utiliza un backend de bóveda de claves.
resources:
secret_scopes:
secret_scope_azure:
name: test-secrets-azure-backend
backend_type: 'AZURE_KEYVAULT'
keyvault_metadata:
resource_id: my_azure_keyvault_id
dns_name: my_azure_keyvault_dns_name
En el ejemplo siguiente se establece una ACL personalizada mediante ámbitos y permisos secretos:
resources:
secret_scopes:
my_secret_scope:
name: my_secret_scope
permissions:
- user_name: admins
level: WRITE
- user_name: users
level: READ
Para obtener un conjunto de ejemplos que muestra cómo definir un ámbito de secreto y un trabajo con una tarea que accede a él en un conjunto, consulte el repositorio de GitHub bundle-examples.
sql_warehouse
Type: Map
El recurso de SQL Warehouse permite definir un almacenamiento de SQL en un lote. Para más información sobre los almacenes de SQL, consulte Almacenamiento de datos en Azure Databricks.
sql_warehouses:
<sql-warehouse-name>:
<sql-warehouse-field-name>: <sql-warehouse-field-value>
| Key | Type | Description |
|---|---|---|
auto_stop_mins |
Integer | Cantidad de tiempo en minutos que debe estar inactiva una instancia de SQL Warehouse (por ejemplo, sin consultas EN EJECUCIÓN), antes de que se detenga automáticamente. Los valores válidos son 0, que indica sin autostop, o igual o mayor que 10. El valor predeterminado es 120. |
channel |
Map | Detalles del canal. Ver canal |
cluster_size |
String | Tamaño de los clústeres asignados para este almacenamiento. Aumentar el tamaño de un clúster de Spark permite ejecutar consultas más grandes en él. Si desea aumentar el número de consultas simultáneas, ajuste max_num_clusters. Para conocer los valores admitidos, consulte cluster_size. |
creator_name |
String | Nombre del usuario que creó el almacén. |
enable_photon |
Boolean | Si el almacén debe usar clústeres optimizados para Photon. El valor predeterminado es False. |
enable_serverless_compute |
Boolean | Si el almacén debe usar computación sin servidor. |
instance_profile_arn |
String | Deprecated. Perfil de instancia usado para pasar el rol de IAM al clúster, |
lifecycle |
Map | Contiene la configuración del ciclo de vida de un recurso. Controla el comportamiento del recurso cuando se implementa o se destruye. Consulte ciclo de vida. |
max_num_clusters |
Integer | El número máximo de clústeres que creará el escalador automático para controlar las consultas simultáneas. Los valores deben ser menores o iguales que 30 y mayores o iguales que min_num_clusters. Se utiliza el valor predeterminado min_clusters si no se ha establecido otro. |
min_num_clusters |
Integer | El número mínimo de clústeres disponibles que se mantendrán para este almacenamiento de SQL. Aumentar esto garantizará que un mayor número de clústeres siempre esté funcionando y, por tanto, puede reducir el tiempo de inicio en frío de las nuevas consultas. Esto es similar a los núcleos reservados frente a revocables dentro de un gestor de recursos. Los valores deben ser mayores que 0 y menores o iguales que min(max_num_clusters, 30). De manera predeterminada, su valor es 1. |
name |
String | Nombre lógico del clúster. El nombre debe ser único dentro de una organización y menos de 100 caracteres. |
permissions |
Sequence | Permisos que se aplicarán al almacén. Consulte los permisos. |
spot_instance_policy |
String | Si se deben usar instancias de spot. Los valores válidos son POLICY_UNSPECIFIED, COST_OPTIMIZED, RELIABILITY_OPTIMIZED. El valor predeterminado es COST_OPTIMIZED. |
tags |
Map | Un conjunto de pares de clave y valor que se asignarán a todos los recursos (por ejemplo, instancias de AWS y volúmenes EBS) asociados a este almacén de datos SQL. El número de etiquetas debe ser menor que 45. |
warehouse_type |
String | El tipo de almacenamiento, PRO o CLASSIC. Si desea usar cómputo sin servidor, establezca este campo en PRO y también, simultáneamente, establezca el campo enable_serverless_compute en true. |
sql_warehouse.channel
Type: Map
Configuración del canal para SQL Warehouse.
| Key | Type | Description |
|---|---|---|
name |
String | Nombre del canal. Los valores válidos incluyen CHANNEL_NAME_CURRENT, CHANNEL_NAME_PREVIEW, CHANNEL_NAME_CUSTOM. |
dbsql_version |
String | Versión de DBSQL para canales personalizados. |
Example
En el ejemplo siguiente se define una instancia de SQL Warehouse:
resources:
sql_warehouses:
my_sql_warehouse:
name: my_sql_warehouse
cluster_size: X-Large
enable_serverless_compute: true
max_num_clusters: 3
min_num_clusters: 1
auto_stop_mins: 60
warehouse_type: PRO
tabla_de_base_de_datos_sincronizada
Type: Map
El recurso de tabla de base de datos sincronizada permite definir tablas de base de datos de Lakebase en un lote.
Para obtener información sobre las tablas de base de datos sincronizadas, consulte ¿Qué es una instancia de base de datos?.
synced_database_tables:
<synced_database_table-name>:
<synced_database_table-field-name>: <synced_database_table-field-value>
| Key | Type | Description |
|---|---|---|
database_instance_name |
String | Nombre de la instancia de base de datos de destino. Esto es necesario al crear tablas de base de datos sincronizadas en catálogos estándar. Esto es opcional al crear tablas de base de datos sincronizadas en catálogos registrados. |
lifecycle |
Map | Contiene la configuración del ciclo de vida de un recurso. Controla el comportamiento del recurso cuando se implementa o se destruye. Consulte ciclo de vida. |
logical_database_name |
String | Nombre del objeto de base de datos postgres de destino (base de datos lógica) para esta tabla. |
name |
String | Nombre completo de la tabla, con el formato catalog.schema.table. |
spec |
Map | Especificación de la tabla de base de datos. Consulte la especificación de la tabla de base de datos sincronizada. |
synced_database_table.spec
Type: Map
Especificación de la tabla de base de datos.
| Key | Type | Description |
|---|---|---|
create_database_objects_if_missing |
Boolean | Si desea crear la base de datos lógica y los recursos de esquema de la tabla sincronizada si aún no existen. |
existing_pipeline_id |
String | Identificador de una canalización existente. Si se establece, la tabla sincronizada se empaquetará en la canalización existente a la que se hace referencia. Esto evita la creación de una nueva pipeline y permite compartir los recursos de cálculo existentes. En este caso, el scheduling_policy de esta tabla sincronizada debe coincidir con la directiva de programación de la canalización existente. Como máximo, se debe definir uno de existing_pipeline_id y new_pipeline_spec. |
new_pipeline_spec |
Map | Especificación de una nueva canalización. Consulte new_pipeline_spec. Como máximo, se debe definir uno de existing_pipeline_id y new_pipeline_spec. |
primary_key_columns |
Sequence | Lista de nombres de columna que forman la clave principal. |
scheduling_policy |
String | Directiva de programación para la sincronización. Los valores válidos incluyen SNAPSHOT, CONTINUOUS. |
source_table_full_name |
String | Nombre completo de la tabla de origen con el formato catalog.schema.table. |
timeseries_key |
String | Clave de serie temporal para desduplicar filas con la misma clave principal. |
synced_database_table.spec.new_pipeline_spec
Type: Map
Especificación de una nueva canalización usada por la tabla de base de datos sincronizada.
| Key | Type | Description |
|---|---|---|
budget_policy_id |
String | El ID de la política de presupuesto que se va a establecer en la tubería recién creada. |
storage_catalog |
String | Catálogo de la canalización para almacenar archivos intermedios, como puntos de comprobación y registros de eventos. Debe ser un catálogo estándar en el que el usuario tenga permisos para crear tablas Delta. |
storage_schema |
String | Esquema de la canalización para almacenar archivos intermedios, como puntos de control y registros de eventos. Esto debe estar en el catálogo estándar donde el usuario tiene permisos para crear tablas Delta. |
Examples
En el ejemplo siguiente se define una tabla de base de datos sincronizada dentro de un catálogo de bases de datos correspondiente:
resources:
database_instances:
my_instance:
name: my-instance
capacity: CU_1
database_catalogs:
my_catalog:
database_instance_name: my-instance
database_name: 'my_database'
name: my_catalog
create_database_if_not_exists: true
synced_database_tables:
my_synced_table:
name: ${resources.database_catalogs.my_catalog.name}.${resources.database_catalogs.my_catalog.database_name}.my_destination_table
database_instance_name: ${resources.database_catalogs.my_catalog.database_instance_name}
logical_database_name: ${resources.database_catalogs.my_catalog.database_name}
spec:
source_table_full_name: 'my_source_table'
scheduling_policy: SNAPSHOT
primary_key_columns:
- my_pk_column
new_pipeline_spec:
storage_catalog: 'my_delta_catalog'
storage_schema: 'my_delta_schema'
En el ejemplo siguiente se define una tabla de base de datos sincronizada dentro de un catálogo estándar:
resources:
synced_database_tables:
my_synced_table:
name: 'my_standard_catalog.public.synced_table'
# database_instance_name is required for synced tables created in standard catalogs.
database_instance_name: 'my-database-instance'
# logical_database_name is required for synced tables created in standard catalogs:
logical_database_name: ${resources.database_catalogs.my_catalog.database_name}
spec:
source_table_full_name: 'source_catalog.schema.table'
scheduling_policy: SNAPSHOT
primary_key_columns:
- my_pk_column
create_database_objects_if_missing: true
new_pipeline_spec:
storage_catalog: 'my_delta_catalog'
storage_schema: 'my_delta_schema'
En este ejemplo se crea una tabla de base de datos sincronizada y se personaliza la programación de canalización para ella. Se asume que ya dispone de:
- Una instancia de base de datos denominada
my-database-instance - Un catálogo estándar denominado
my_standard_catalog - Esquema en el catálogo estándar denominado
default - Una tabla delta de origen denominada
source_delta.schema.customercon la clave principalc_custkey
resources:
synced_database_tables:
my_synced_table:
name: 'my_standard_catalog.default.my_synced_table'
database_instance_name: 'my-database-instance'
logical_database_name: 'test_db'
spec:
source_table_full_name: 'source_delta.schema.customer'
scheduling_policy: SNAPSHOT
primary_key_columns:
- c_custkey
create_database_objects_if_missing: true
new_pipeline_spec:
storage_catalog: 'source_delta'
storage_schema: 'schema'
jobs:
sync_pipeline_schedule_job:
name: sync_pipeline_schedule_job
description: 'Job to schedule synced database table pipeline.'
tasks:
- task_key: synced-table-pipeline
pipeline_task:
pipeline_id: ${resources.synced_database_tables.my_synced_table.data_synchronization_status.pipeline_id}
schedule:
quartz_cron_expression: '0 0 0 * * ?'
volumen (catálogo de Unity)
Type: Map
Los volúmenes se admiten en Python para conjuntos de recursos de Databricks. Consulte databricks.bundles.volumes.
El tipo de recurso de volumen permite definir y crear volúmenes de Unity Catalog como parte de un conjunto. Al implementar un paquete con un volumen definido, tómese en cuenta que:
- No se puede hacer referencia a un volumen en
artifact_pathdel conjunto hasta que exista en el área de trabajo. Por lo tanto, si desea usar Conjuntos de recursos de Databricks para crear el volumen, primero debe definir el volumen en el paquete, implementarlo para crear el volumen, y a continuación, hacer referencia a él enartifact_pathen las implementaciones posteriores. - Los volúmenes del paquete no llevan el prefijo
dev_${workspace.current_user.short_name}cuando el destino de implementación tiene configuradomode: development. Sin embargo, puede configurar manualmente este prefijo. Consulte Valores preestablecidos personalizados.
volumes:
<volume-name>:
<volume-field-name>: <volume-field-value>
| Key | Type | Description |
|---|---|---|
catalog_name |
String | Nombre del catálogo del esquema y del volumen. |
comment |
String | Comentario adjunto al volumen. |
grants |
Sequence | Las concesiones asociadas al volumen. Consulte concesión. |
lifecycle |
Map | Contiene la configuración del ciclo de vida de un recurso. Controla el comportamiento del recurso cuando se implementa o se destruye. Consulte ciclo de vida. |
name |
String | Nombre del volumen. |
schema_name |
String | El nombre del esquema en el que se encuentra el volumen. |
storage_location |
String | Ubicación de almacenamiento en la nube. |
volume_type |
String | Tipo de volumen, EXTERNAL o MANAGED. Un volumen externo se encuentra en la ubicación externa especificada. Un volumen administrado se encuentra en la ubicación predeterminada que especifica el esquema primario, el catálogo primario o el metastore. Consulte Volúmenes administrados frente a externos. |
Example
En el ejemplo siguiente se crea un volumen de catálogo de Unity con la clave my_volume_id:
resources:
volumes:
my_volume_id:
catalog_name: main
name: my_volume
schema_name: my_schema
Para obtener un paquete de ejemplo que ejecuta un trabajo que escribe en un archivo en el volumen del catálogo de Unity, consulte el repositorio de GitHub bundle-examples.
Objetos comunes
subvención
Type: Map
Defina el principal y los privilegios que se van a conceder a este. Para obtener más información sobre las concesiones, vea Mostrar, conceder y revocar privilegios.
| Key | Type | Description |
|---|---|---|
principal |
String | El nombre del principal al que se le concederán privilegios. Puede ser un usuario, grupo o entidad de servicio. |
privileges |
Sequence | Privilegios que se van a conceder a la entidad especificada. Los valores válidos dependen del tipo de recurso (por ejemplo, SELECT, MODIFY, CREATEUSAGE, READ_FILES, WRITE_FILES, , , EXECUTE). ALL_PRIVILEGES |
Example
En el ejemplo siguiente se define un esquema de catálogo de Unity con concesiones:
resources:
schemas:
my_schema:
name: test-schema
grants:
- principal: users
privileges:
- SELECT
- principal: my_team
privileges:
- CAN_MANAGE
catalog_name: main
ciclo de vida
Type: Map
Contiene la configuración del ciclo de vida de un recurso. Controla el comportamiento del recurso cuando se implementa o se destruye.
| Key | Type | Description |
|---|---|---|
prevent_destroy |
Boolean | Configuración del ciclo de vida para evitar que el recurso se destruya. |