Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
O Databricks Asset Bundles permite especificar informações sobre os recursos do Azure Databricks usados pelo pacote no mapeamento de resources na configuração do pacote. Consulte a referência de recursos.
Esta página fornece referência de configuração para todos os tipos de recursos suportados para pacotes e fornece detalhes e um exemplo para cada tipo suportado. Para obter exemplos adicionais, consulte Exemplos de configuração de Bundle.
O esquema JSON para pacotes que é usado para validar a configuração do YAML está no repositório GitHub da CLI do Databricks.
Tip
Para gerar YAML para qualquer recurso existente, use o comando databricks bundle generate. Consulte databricks bundle generate.
Recursos suportados
A tabela a seguir lista os tipos de recursos suportados para pacotes (YAML e Python, quando aplicável). Alguns recursos podem ser criados definindo-os em um pacote e implantando o pacote, e alguns recursos só podem ser criados fazendo referência a um ativo existente para incluir no pacote.
A configuração de recursos define um objeto Databricks que corresponde a um objeto da API REST do Databricks . Os campos de solicitação de criação suportados do objeto REST API, expressos como YAML, são as chaves suportadas do recurso. Os links para a documentação do objeto correspondente de cada recurso estão na tabela abaixo.
Tip
O comando databricks bundle validate retorna avisos se propriedades de recursos desconhecidas forem encontradas nos arquivos de configuração do pacote.
alerta
Type: Map
O recurso de alerta define um alerta SQL (v2).
Adicionado na versão 0.279.0 da CLI Databricks
alerts:
<alert-name>:
<alert-field-name>: <alert-field-value>
| Key | Tipo | Description |
|---|---|---|
custom_description |
String | Opcional. Descrição personalizada para o alerta. Suporta molde de bigode. Adicionado na versão 0.279.0 da CLI Databricks |
custom_summary |
String | Opcional. Resumo personalizado do alerta. Suporta molde de bigode. Adicionado na versão 0.279.0 da CLI Databricks |
display_name |
String | Required. O nome de exibição do alerta, por exemplo, Example alert.Adicionado na versão 0.279.0 da CLI Databricks |
evaluation |
Map | Required. A configuração de avaliação do alerta. Ver alert.evaluation. Adicionado na versão 0.279.0 da CLI Databricks |
lifecycle |
Map | Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando ele é implantado ou destruído. Consulte o ciclo de vida. Adicionado na versão 0.279.0 da CLI Databricks |
parent_path |
String | Opcional. O caminho do espaço de trabalho da pasta que contém o alerta. Só pode ser definido na criação, e não pode ser atualizado. Exemplo: /Users/someone@example.com.Adicionado na versão 0.279.0 da CLI Databricks |
permissions |
Sequence | As permissões de alerta. Consulte as permissões. Adicionado na versão 0.279.0 da CLI Databricks |
query_text |
String | Required. Texto da consulta a ser executada, por exemplo, SELECT 1.Adicionado na versão 0.279.0 da CLI Databricks |
run_as |
Map | Opcional. Especifica a identidade que será usada para executar o alerta. Este campo permite-lhe configurar alertas para serem executados por um utilizador específico ou um principal de serviço. Veja run_as.
Adicionado na versão 0.279.0 da CLI Databricks |
schedule |
Map | Required. A configuração do horário do alerta. Consulte alert.schedule. Adicionado na versão 0.279.0 da CLI Databricks |
warehouse_id |
String | Required. ID do SQL warehouse associado ao alerta, por exemplo, a7066a8ef796be84.Adicionado na versão 0.279.0 da CLI Databricks |
alerta.avaliação
Type: Map
A configuração de avaliação do alerta.
| Key | Tipo | Description |
|---|---|---|
comparison_operator |
String | O operador usado para comparação na avaliação do alerta. |
empty_result_state |
String | O estado de alerta caso o resultado seja vazio. Evite definir este campo como UNKNOWN porque UNKNOWN o estado está planeado para ser descontinuado. |
notification |
Map | O utilizador ou outro destinatário a ser notificado quando o alerta é acionado. Consulte alert.evaluation.notification. |
source |
Map | A coluna de origem do resultado a ser utilizada para avaliar o alerta. Consulte alert.evaluation.source. |
threshold |
Map | O limiar a usar para avaliação de alertas. Isto pode ser uma coluna ou um valor. Ver alert.evaluation.threshold. |
alerta.avaliação.notificação
Type: Map
O utilizador ou outro destinatário a ser notificado quando o alerta é acionado.
| Key | Tipo | Description |
|---|---|---|
notify_on_ok |
booleano | Opcional. Se deve notificar os subscritores quando o alerta voltar ao normal. |
retrigger_seconds |
Integer | Opcional. Número de segundos que um alerta espera após ser acionado antes de ser autorizado a enviar outra notificação. Se definido como 0 ou omitido, o alerta não enviará mais notificações após o primeiro disparo. Definir este valor como 1 permite que o alerta envie uma notificação em cada avaliação onde a condição é cumprida, efetivamente tornando o alerta sempre retomado para fins de notificação. |
subscriptions |
Sequence | Opcional. Lista não ordenada de subscrições de notificações. Consulte alert.evaluation.notification.subscriptions. |
alerta.avaliação.notificação.subscrições
Type: Sequence
Uma lista não ordenada de subscrições de notificações.
Cada item da lista é um AlertSubscription:
| Key | Tipo | Description |
|---|---|---|
destination_id |
String | O ID do destino da notificação. |
user_email |
String | O endereço de email do utilizador para notificar. |
alerta.avaliação.origem
Type: Map
Coluna de origem do resultado para usar para avaliar o alerta.
| Key | Tipo | Description |
|---|---|---|
aggregation |
String | O método de agregação a aplicar à coluna de origem. Os valores válidos são SUM, COUNT, COUNT_DISTINCT, AVGMEDIAN, MIN, MAX,STDDEV |
display |
String | O nome de exibição da coluna de origem. |
name |
String | O nome da coluna de origem do resultado da consulta. |
alerta.avaliação.limite
Type: Map
O limiar a usar para avaliação de alertas pode ser uma coluna ou um valor.
| Key | Tipo | Description |
|---|---|---|
column |
Map | Referência de coluna para usar como limiar. Consulte alert.evaluation.source. |
value |
Map | Valor literal para usar como limiar. Ver alert.evaluation.threshold.value. |
alerta.avaliação.limiar.valor
Type: Map
Valor literal para usar como limiar. Especifique um dos seguintes tipos de valor.
| Key | Tipo | Description |
|---|---|---|
bool_value |
booleano | Opcional. Valor booleano para o limiar, por exemplo, true. |
double_value |
Double | Opcional. Valor numérico para o limiar, por exemplo, 1.25. |
string_value |
String | Opcional. Valor de string para o limiar, por exemplo, test. |
alerta.agenda
Type: Map
A configuração do horário do alerta.
| Key | Tipo | Description |
|---|---|---|
pause_status |
String | Opcional. Quer este horário esteja pausado ou não. Valores válidos: UNPAUSED, PAUSED. Padrão: UNPAUSED. |
quartz_cron_schedule |
String | Required. Uma expressão cron usando sintaxe quartz que especifica o cronograma para este pipeline. O formato de quartzo é descrito no formato de agendador de quartzo. |
timezone_id |
String | Required. Um ID de fuso horário em Java. O calendário será resolvido usando este fuso horário. Isto será combinado com o quartz_cron_schedule para determinar o calendário. Consulte SET TIME ZONE para obter detalhes. |
Examples
A seguinte configuração de exemplo define um alerta com uma avaliação simples:
resources:
alerts:
my_alert:
display_name: my_alert
evaluation:
comparison_operator: EQUAL
source:
name: '1'
threshold:
value:
double_value: 2
query_text: select 2
schedule:
quartz_cron_schedule: '44 19 */1 * * ?'
timezone_id: Europe/Amsterdam
warehouse_id: 799f096837fzzzz4
O seguinte exemplo de configuração define um alerta com permissões que avalia usando agregação e envia notificações:
resources:
alerts:
my_alert:
permissions:
- level: CAN_MANAGE
user_name: someone@example.com
custom_summary: 'My alert'
display_name: 'My alert'
evaluation:
comparison_operator: 'EQUAL'
notification:
notify_on_ok: false
retrigger_seconds: 1
source:
aggregation: 'MAX'
display: '1'
name: '1'
threshold:
value:
double_value: 2
query_text: 'select 2'
schedule:
pause_status: 'UNPAUSED'
quartz_cron_schedule: '44 19 */1 * * ?'
timezone_id: 'Europe/Amsterdam'
warehouse_id: 799f096837fzzzz4
aplicação
Type: Map
O recurso do aplicativo define um aplicativo Databricks. Para obter informações sobre aplicativos Databricks, consulte Aplicativos Databricks.
Para adicionar um aplicativo, especifique as configurações para definir o aplicativo, incluindo o necessário source_code_path.
Tip
Você pode inicializar um pacote com um aplicativo Streamlit Databricks usando o seguinte comando:
databricks bundle init https://github.com/databricks/bundle-examples --template-dir contrib/templates/streamlit-app
Adicionado na versão 0.239.0 da CLI do Databricks
apps:
<app-name>:
<app-field-name>: <app-field-value>
| Key | Tipo | Description |
|---|---|---|
budget_policy_id |
String | O identificador da política de orçamento para o aplicativo. Adicionado na versão 0.243.0 da CLI do Databricks |
compute_size |
String | A dimensão de computação para a aplicação. Os valores válidos são MEDIUM ou LARGE dependem da configuração do espaço de trabalho.Adicionado na versão 0.273.0 da CLI Databricks |
config |
Map | Comandos de configuração da aplicação e variáveis de ambiente. Quando especificada, esta configuração é escrita num ficheiro app.yaml no caminho do código-fonte durante a implementação. Isto permite-lhe definir a configuração da aplicação diretamente no bundle YAML, em vez de manter um ficheiro app.yaml separado. Veja app.config. Adicionado na versão 0.283.0 da CLI do Databricks |
description |
String | A descrição do aplicativo. Adicionado na versão 0.239.0 da CLI do Databricks |
lifecycle |
Map | O comportamento do recurso quando ele é implantado ou destruído. Consulte o ciclo de vida. Adicionado na versão 0.268.0 da CLI do Databricks |
name |
String | O nome do aplicativo. O nome deve conter apenas caracteres alfanuméricos minúsculos e hífenes. Ele deve ser exclusivo dentro do espaço de trabalho. Adicionado na versão 0.239.0 da CLI do Databricks |
permissions |
Sequence | As permissões do aplicativo. Consulte as permissões. Adicionado na versão 0.239.0 da CLI do Databricks |
resources |
Sequence | Os recursos de computação do aplicativo. Consulte app.resources. Adicionado na versão 0.239.0 da CLI do Databricks |
source_code_path |
String | O ./app caminho local do código-fonte do aplicativo Databricks.Adicionado na versão 0.239.0 da CLI do Databricks |
user_api_scopes |
Sequence | Os escopos da API do usuário. Adicionado na CLI Databricks versão 0.246.0 |
app.config
Comandos de configuração da aplicação e variáveis de ambiente. Consulte Configurar a execução do aplicativo Databricks comapp.yaml.
| Key | Tipo | Description |
|---|---|---|
command |
Sequence | Os comandos para executar a aplicação, por exemplo ["streamlit", "run", "app.py"] |
env |
Sequence | Uma lista de name pares e value que especificam variáveis de ambiente da aplicação. |
app.recursos
Type: Sequence
Uma lista de recursos de computação para a aplicação.
Cada item da lista é um AppResource:
| Key | Tipo | Description |
|---|---|---|
description |
String | A descrição do recurso do aplicativo. |
database |
Map | As configurações que identificam o banco de dados Lakebase a ser usado. Consulte app.resources.database. |
experiment |
Map | As definições que identificam o experimento MLflow a utilizar. Veja app.resources.experiment. |
genie_space |
Map | As configurações que identificam o espaço do Genie a ser usado. Veja app.resources.genie_space. |
job |
Map | As configurações que identificam o recurso de trabalho a ser usado. Consulte app.resources.job. |
name |
String | O nome do recurso do aplicativo. |
secret |
Map | As configurações que identificam o recurso secreto do Azure Databricks a ser usado. Consulte app.resources.secret. |
serving_endpoint |
Map | As configurações que identificam o modelo que serve o recurso de ponto de extremidade a ser usado. Ver app.resources.serving_endpoint. |
sql_warehouse |
Map | As configurações que identificam o recurso do SQL warehouse a ser usado. Consulte app.resources.sql_warehouse. |
uc_securable |
Map | As configurações que identificam o volume do Catálogo Unity a ser usado. Ver app.resources.uc_securable. |
app.resources.base de dados
Type: Map
As configurações que identificam o banco de dados Lakebase a ser usado.
| Key | Tipo | Description |
|---|---|---|
database_name |
String | O nome do banco de dados. |
instance_name |
String | O nome da instância da base de dados. |
permission |
String | O nível de permissão para o banco de dados. Os valores válidos são CAN_CONNECT_AND_CREATE. |
app.resources.experiment
Type: Map
As definições que identificam o experimento MLflow a utilizar.
| Key | Tipo | Description |
|---|---|---|
experiment_id |
String | O ID do experimento MLflow. |
permission |
String | O nível de permissão para a experiência. Os valores válidos incluem CAN_READ, CAN_EDIT, CAN_MANAGE. |
app.resources.genie_space
Type: Map
As configurações que identificam o espaço do Genie a ser usado.
| Key | Tipo | Description |
|---|---|---|
name |
String | O nome do espaço Genie. |
permission |
String | O nível de permissão para o espaço. Os valores válidos incluem CAN_VIEW, CAN_EDIT, CAN_MANAGE, CAN_RUN. |
space_id |
String | O ID do espaço Genie, por exemplo 550e8400-e29b-41d4-a716-999955440000. |
app.resources.job
Type: Map
As configurações que identificam o recurso de trabalho a ser usado.
| Key | Tipo | Description |
|---|---|---|
id |
String | A ID do trabalho. |
permission |
String | O nível de permissão para a tarefa. Os valores válidos incluem CAN_VIEW, CAN_MANAGE_RUN, CAN_MANAGE, IS_OWNER. |
app.recursos.segredo
Type: Map
As configurações que identificam o recurso secreto do Azure Databricks a ser usado.
| Key | Tipo | Description |
|---|---|---|
key |
String | A chave do segredo para conceder permissão. |
permission |
String | O nível de permissão para o segredo. Os valores válidos incluem READ, WRITE, MANAGE. |
scope |
String | O nome do escopo secreto. |
app.resources.endpoint_de_serviço
Type: Map
As configurações que identificam o modelo que serve o recurso de ponto de extremidade a ser usado.
| Key | Tipo | Description |
|---|---|---|
name |
String | O nome do endpoint de serviço. |
permission |
String | O nível de permissão para o endpoint de serviço. Os valores válidos incluem CAN_QUERY, CAN_MANAGE, CAN_VIEW. |
app.resources.sql_armazém_de_dados
Type: Map
As configurações que identificam o SQL warehouse a ser usado.
| Key | Tipo | Description |
|---|---|---|
id |
String | O ID do armazém SQL. |
permission |
String | O nível de permissão para o SQL warehouse. Os valores válidos incluem CAN_USE, CAN_MANAGE, IS_OWNER. |
app.resources.uc_securable
Type: Map
As configurações que identificam o volume do Catálogo Unity a ser usado.
| Key | Tipo | Description |
|---|---|---|
permission |
String | O nível de permissão para a entidade securável no Unity Catalog. Os valores válidos são READ_VOLUME e WRITE_VOLUME. |
securable_full_name |
String | O nome completo do objeto securizável do Unity Catalog no formato catalog.schema.volume. |
securable_type |
String | O tipo de segurança do Unity Catalog. Os valores válidos são VOLUME. |
Examples
Para um tutorial que explica como criar um bundle que define uma aplicação, veja Gerenciar aplicações Databricks usando Databricks Asset Bundles.
O exemplo seguinte define uma aplicação básica:
resources:
apps:
hello_world_app:
name: 'hello-world-app'
source_code_path: . # This assumes the app source code is at the root of the project.
description: 'A Databricks app'
O exemplo seguinte cria uma aplicação chamada my_app que gere um trabalho criado pelo pacote. Para o exemplo completo, consulte o repositório GitHub de bundle-examples.
resources:
jobs:
# Define a job in the bundle
hello_world:
name: hello_world
tasks:
- task_key: task
spark_python_task:
python_file: ../src/main.py
environment_key: default
environments:
- environment_key: default
spec:
environment_version: '2'
# Define an app that manages the job in the bundle
apps:
job_manager:
name: 'job_manager_app'
description: 'An app which manages a job created by this bundle'
# The location of the source code for the app
source_code_path: ../src/app
# The resources in the bundle which this app has access to. This binds the resource in the app with the bundle resource.
resources:
- name: 'app-job'
job:
id: ${resources.jobs.hello_world.id}
permission: 'CAN_MANAGE_RUN'
O correspondente app.yaml define a configuração para executar o aplicativo:
command:
- flask
- --app
- app
- run
- --debug
env:
- name: JOB_ID
valueFrom: 'app-job'
O exemplo seguinte cria uma aplicação que tem acesso a uma experiência MLflow criada pelo bundle:
resources:
experiments:
# Define an MLflow experiment in the bundle
my_experiment:
name: /Users/${workspace.current_user.userName}/my-app-experiment
apps:
my_ml_app:
name: 'my-ml-app'
description: 'An app with access to an MLflow experiment'
source_code_path: ./app
# Grant the app access to the MLflow experiment
resources:
- name: 'app-experiment'
experiment:
experiment_id: ${resources.experiments.my_experiment.id}
permission: 'CAN_MANAGE'
Alternativamente, o seguinte exemplo define uma aplicação com configuração personalizada definida na configuração bundle:
resources:
apps:
my_app:
name: my_app
description: my_app_description
source_code_path: ./app
config:
command: ['flask', '--app', 'app', 'run']
env:
- name: MY_ENV_VAR
value: test_value
- name: ANOTHER_VAR
value: another_value
catalogs
Type: Map
O recurso de catálogo permite-lhe definir catálogos (Unity Catalog) num bundle.
Note
O uso de Databricks Asset Bundles para definir catálogos só é suportado se estiver a usar o motor de implementação direta.
Adicionado na CLI Databricks versão 0.287.0
catalogs:
<catalog-name>:
<catalog-field-name>: <catalog-field-value>
| Key | Tipo | Description |
|---|---|---|
comment |
String | Uma descrição em texto livre fornecida pelos utilizadores do catálogo. Adicionado na CLI Databricks versão 0.287.0 |
connection_name |
String | O nome da ligação a uma fonte de dados externa. Adicionado na CLI Databricks versão 0.287.0 |
grants |
Sequence | As bolsas associadas ao catálogo. Ver subvenção. Adicionado na CLI Databricks versão 0.287.0 |
lifecycle |
Map | Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando ele é implantado ou destruído. Consulte o ciclo de vida. Adicionado na CLI Databricks versão 0.287.0 |
name |
String | Required. O nome do catálogo. Adicionado na CLI Databricks versão 0.287.0 |
options |
Objeto | Um mapa das propriedades chave-valor associadas ao segurável. Adicionado na CLI Databricks versão 0.287.0 |
properties |
Objeto | Um mapa das propriedades chave-valor associadas ao segurável. Adicionado na CLI Databricks versão 0.287.0 |
provider_name |
String | O nome do fornecedor de partilha delta. Um catálogo de partilha Delta é um catálogo baseado numa partilha Delta num servidor de partilha remota. Consulte O que é Delta Sharing?. Adicionado na CLI Databricks versão 0.287.0 |
share_name |
String | O nome da ação sob o fornecedor de ações. Adicionado na CLI Databricks versão 0.287.0 |
storage_root |
String | A URL raiz de armazenamento para tabelas geridas dentro do catálogo. Adicionado na CLI Databricks versão 0.287.0 |
Example
resources:
catalogs:
my_catalog:
name: my_catalog
comment: 'Catalog created by Databricks Asset Bundles'
properties:
purpose: 'Testing'
grants:
- principal: someone@example.com
privileges:
- USE_CATALOG
- CREATE_SCHEMA
schemas:
my_schema:
name: my_schema
catalog_name: ${resources.catalogs.my_catalog.name}
comment: 'Schema in custom catalog'
aglomerado
Type: Map
O recurso de cluster define um cluster.
Adicionado no Databricks CLI versão 0.229.0 ou inferior
clusters:
<cluster-name>:
<cluster-field-name>: <cluster-field-value>
| Key | Tipo | Description |
|---|---|---|
apply_policy_default_values |
booleano | Quando definido como true, os valores fixos e padrão da política serão usados para campos omitidos. Quando definido como false, apenas os valores fixos da política serão aplicados. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
autoscale |
Map | Parâmetros necessários para dimensionar automaticamente clusters para cima e para baixo com base na carga. Consulte autoscale. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
autotermination_minutes |
Integer | Encerra automaticamente o cluster depois que ele fica inativo por esse tempo em minutos. Se não estiver definido, este cluster não será encerrado automaticamente. Se especificado, o limite deve estar entre 10 e 10000 minutos. Os usuários também podem definir esse valor como 0 para desabilitar explicitamente a terminação automática. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
aws_attributes |
Map | Atributos relacionados a clusters em execução na Amazon Web Services. Se não for especificado na criação do cluster, um conjunto de valores padrão será usado. Ver aws_attributes. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
azure_attributes |
Map | Atributos relacionados a clusters em execução no Microsoft Azure. Se não for especificado na criação do cluster, um conjunto de valores padrão será usado. Ver azure_attributes. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
cluster_log_conf |
Map | A configuração para entregar logs do Spark para um destino de armazenamento a longo prazo. Ver cluster_log_conf. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
cluster_name |
String | Nome do cluster solicitado pelo usuário. Isso não precisa ser único. Se não for especificado na criação, o nome do cluster será uma cadeia de caracteres vazia. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
custom_tags |
Map | Tags adicionais para recursos de cluster. O Databricks marcará todos os recursos do cluster (por exemplo, instâncias da AWS e volumes do EBS) com essas tags, além do default_tags.Adicionado no Databricks CLI versão 0.229.0 ou inferior |
data_security_mode |
String | O modelo de governança de dados a ser usado ao acessar dados de um cluster. Os valores válidos incluem NONE, SINGLE_USER, USER_ISOLATION, , LEGACY_SINGLE_USERLEGACY_TABLE_ACL, LEGACY_PASSTHROUGH.Adicionado no Databricks CLI versão 0.229.0 ou inferior |
docker_image |
Map | A imagem personalizada do docker. Ver docker_image. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
driver_instance_pool_id |
String | O ID opcional do pool de instâncias ao qual pertence o driver do cluster. O cluster do pool usa o pool de instâncias com id (instance*pool_id) se o pool de drivers não for atribuído. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
driver_node_type_id |
String | O tipo de nó do driver do Spark. Este campo é opcional. Se não definido, o tipo de nó driver é definido para o valor de node_type_id. Este campo, juntamente com node_type_id, não deve ser definido se virtual_cluster_size for definido. Se tanto driver_node_type_id, node_type_id, como virtual_cluster_size forem especificados, driver_node_type_id e node_type_id têm precedência.Adicionado no Databricks CLI versão 0.229.0 ou inferior |
enable_elastic_disk |
booleano | Dimensionamento automático do Armazenamento Local: quando ativado, esse cluster adquirirá dinamicamente espaço em disco adicional quando seus trabalhadores do Spark estiverem com pouco espaço em disco. Esse recurso requer permissões específicas da AWS para funcionar corretamente - consulte o Guia do usuário para obter mais detalhes. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
enable_local_disk_encryption |
booleano | Se o LUKS deve ser habilitado nos discos locais das VMs de cluster. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
gcp_attributes |
Map | Atributos relacionados a clusters em execução no Google Cloud Platform. Se não for especificado na criação do cluster, um conjunto de valores padrão será usado. Ver gcp_attributes. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
init_scripts |
Sequence | A configuração para armazenar scripts de inicialização. Qualquer número de destinos pode ser especificado. Os scripts são executados sequencialmente na ordem fornecida. Ver init_scripts. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
instance_pool_id |
String | A ID opcional do pool de instâncias ao qual o cluster pertence. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
is_single_node |
booleano | Este campo só pode ser utilizado quando kind = CLASSIC_PREVIEW. Quando definido como verdadeiro, o Databricks define automaticamente um único nó relacionado custom_tagscom , spark_conf, e num_workers.Adicionado na versão 0.237.0 da CLI Databricks |
kind |
String | O tipo de computação descrito por esta especificação de computação. Adicionado na versão 0.237.0 da CLI Databricks |
lifecycle |
Map | Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando ele é implantado ou destruído. Consulte o ciclo de vida. Adicionado na versão 0.268.0 da CLI do Databricks |
node_type_id |
String | Este campo codifica, através de um único valor, os recursos disponíveis para cada um dos nós do Spark neste cluster. Por exemplo, os nós do Spark podem ser provisionados e otimizados para cargas de trabalho intensivas de memória ou computação. Uma lista dos tipos de nós disponíveis pode ser obtida usando a API de tipos de nó List. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
num_workers |
Integer | Número de nós de trabalho que este cluster deve possuir. Um cluster tem um Spark Driver e num_workers executores, perfazendo um total de num_workers + 1 nós Spark.Adicionado no Databricks CLI versão 0.229.0 ou inferior |
permissions |
Sequence | As permissões de cluster. Consulte as permissões. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
policy_id |
String | A ID da política de cluster usada para criar o cluster, se aplicável. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
remote_disk_throughput |
Integer | Débito remoto de disco em bytes por segundo. Adicionado na versão 0.257.0 da CLI Databricks |
runtime_engine |
String | Determina o mecanismo de tempo de execução do cluster, ou STANDARD ou PHOTON.Adicionado no Databricks CLI versão 0.229.0 ou inferior |
single_user_name |
String | Nome de utilizador único se os dados*security_mode for SINGLE_USER.Adicionado no Databricks CLI versão 0.229.0 ou inferior |
spark_conf |
Map | Um objeto que contém um conjunto de pares opcionais de chave-valor de configuração do Spark especificados pelo usuário. Os usuários também podem passar uma sequência de opções JVM extras para o driver e os executores via spark.driver.extraJavaOptions e spark.executor.extraJavaOptions respectivamente.Adicionado no Databricks CLI versão 0.229.0 ou inferior |
spark_env_vars |
Map | Um objeto que contém um conjunto de pares de chave-valor de variáveis de ambiente opcionais especificadas pelo utilizador. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
spark_version |
String | A versão Spark do cluster, por exemplo, 3.3.x-scala2.11. Uma lista das versões disponíveis do Spark pode ser obtida usando a API List available Spark versions.Adicionado no Databricks CLI versão 0.229.0 ou inferior |
ssh_public_keys |
Sequence | Conteúdo de chave pública SSH que será adicionado a cada nó do Spark neste cluster. As chaves privadas correspondentes podem ser usadas para fazer login com o nome ubuntu de usuário na porta 2200. Até 10 chaves podem ser especificadas.Adicionado no Databricks CLI versão 0.229.0 ou inferior |
total_initial_remote_disk_size |
Integer | Tamanho total do disco remoto inicial em bytes. Adicionado na versão 0.257.0 da CLI Databricks |
use_ml_runtime |
booleano | Este campo só pode ser utilizado quando kind = CLASSIC_PREVIEW.
effective_spark_version é determinado por spark_version (Data Bricks Runtime release), este campo use_ml_runtime, e se node_type_id é ou não o nó da GPU.Adicionado na versão 0.237.0 da CLI Databricks |
workload_type |
Map | Atributos de cluster apresentados para tipos de carga de trabalho de clusters. Ver workload_type. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
cluster.autoscale
Type: Map
Parâmetros para dimensionar automaticamente clusters para cima e para baixo com base na carga.
| Key | Tipo | Description |
|---|---|---|
min_workers |
Integer | O número mínimo de trabalhadores para o qual o cluster pode ser reduzido quando subutilizado. É também o número inicial de trabalhadores que o cluster terá após a criação. |
max_workers |
Integer | O número máximo de trabalhadores para o qual o cluster pode ser dimensionado quando sobrecarregado.
max_workers deve ser estritamente maior que min_workers. |
cluster.aws_attributes
Type: Map
Atributos relacionados a clusters em execução na Amazon Web Services.
| Key | Tipo | Description |
|---|---|---|
zone_id |
String | Identificador da zona de disponibilidade/datacenter em que o cluster reside. Esta cadeia de caracteres terá uma forma como us-west-2a. |
availability |
String | Tipo de disponibilidade usado para todos os nós posteriores aos first_on_demand acima mencionados. Os valores válidos são SPOT, ON_DEMAND, SPOT_WITH_FALLBACK. |
spot_bid_price_percent |
Integer | O preço máximo para instâncias spot da AWS, como uma porcentagem do preço sob demanda do tipo de instância correspondente. |
instance_profile_arn |
String | Os nós desse cluster só serão colocados em instâncias da AWS com esse perfil de instância. |
first_on_demand |
Integer | Os primeiros first_on_demand nós do cluster serão colocados em instâncias sob demanda. Esse valor deve ser maior que 0, para garantir que o nó de driver do cluster seja colocado numa instância on-demand. |
ebs_volume_type |
String | O tipo de volumes do EBS que serão lançados com esse cluster. Os valores válidos são GENERAL_PURPOSE_SSD ou THROUGHPUT_OPTIMIZED_HDD. |
ebs_volume_count |
Integer | O número de volumes lançados para cada instância. |
ebs_volume_size |
Integer | O tamanho de cada volume do EBS (em GiB) lançado para cada instância. |
ebs_volume_iops |
Integer | O número de IOPS de cada volume gp3 do EBS. |
ebs_volume_throughput |
Integer | A taxa de transferência por volume gp3 do EBS, em MiB por segundo. |
cluster.azure_attributes
Type: Map
Atributos relacionados a clusters em execução no Microsoft Azure.
| Key | Tipo | Description |
|---|---|---|
first_on_demand |
Integer | Os primeiros first_on_demand nós do cluster serão colocados em instâncias sob demanda. |
availability |
String | Tipo de disponibilidade usado para todos os nós posteriores aos first_on_demand acima mencionados. Os valores válidos são SPOT_AZURE, ON_DEMAND_AZURE, SPOT_WITH_FALLBACK_AZURE. |
spot_bid_max_price |
Número | O preço máximo para Azure Spot Instances. Use -1 para especificar o preço mais baixo. |
log_analytics_info |
Map | A configuração para o agente Azure Log Analytics. Veja log_analytics_info. |
cluster.azure_attributes.log_analytics_info
Type: Map
A configuração para o agente Azure Log Analytics.
| Key | Tipo | Description |
|---|---|---|
log_analytics_workspace_id |
String | O ID do espaço de trabalho Azure Log Analytics. |
log_analytics_primary_key |
String | A chave principal para o espaço de trabalho Azure Log Analytics. |
cluster.gcp_atributos
Type: Map
Atributos relacionados a clusters em execução no Google Cloud Platform.
| Key | Tipo | Description |
|---|---|---|
use_preemptible_executors |
booleano | Se deve ou não usar executores preemptíveis. Os executores preemptíveis são instâncias GCE preemptíveis que podem ser recuperadas pela GCE a qualquer momento. |
google_service_account |
String | A conta de serviço do Google a ser usada pelas instâncias de VM do cluster Databricks. |
local_ssd_count |
Integer | O número de SSDs locais a serem anexados a cada nó do cluster. O valor predefinido é 0. |
zone_id |
String | Identificador da zona de disponibilidade/datacenter em que o cluster reside. |
availability |
String | Tipo de disponibilidade usado para todos os nós. Os valores válidos são PREEMPTIBLE_GCP, ON_DEMAND_GCP, PREEMPTIBLE_WITH_FALLBACK_GCP. |
boot_disk_size |
Integer | O tamanho do disco de inicialização em GB. Os valores normalmente variam de 100 a 1000. |
cluster.cluster_log_conf (configuração de log do cluster)
A configuração para entregar logs do Spark a um destino de armazenamento de longo prazo.
| Key | Tipo | Description |
|---|---|---|
dbfs |
Map | Local do DBFS para entrega de log de cluster. Consulte dbfs. |
s3 |
Map | Localização S3 para entrega de logs do cluster. Ver s3. |
volumes |
Map | Local dos volumes para entrega de log de cluster. Ver volumes. |
cluster.cluster_log_conf.dbfs
Type: Map
Local do DBFS para entrega de log de cluster.
| Key | Tipo | Description |
|---|---|---|
destination |
String | O caminho do DBFS para a entrega de logs de cluster (por exemplo, dbfs:/cluster-logs). |
cluster.cluster_log_conf.s3
Type: Map
Localização S3 para entrega de logs do cluster.
| Key | Tipo | Description |
|---|---|---|
destination |
String | O URI do S3 para a entrega de logs do cluster (por exemplo, s3://my-bucket/cluster-logs). |
region |
String | A região AWS do bucket S3. |
endpoint |
String | A URL de endpoint S3 (opcional). |
enable_encryption |
booleano | Se a criptografia para logs de cluster deve ser habilitada. |
encryption_type |
String | O tipo de encriptação. Os valores válidos incluem SSE_S3, SSE_KMS. |
kms_key |
String | O ARN da chave KMS para criptografia (ao utilizar SSE_KMS). |
canned_acl |
String | A ACL predefinida a ser aplicada aos registos de cluster. |
cluster.cluster_log_conf.volumes
Type: Map
Local dos volumes para entrega de log de cluster.
| Key | Tipo | Description |
|---|---|---|
destination |
String | O caminho do volume para distribuição dos logs do cluster (por exemplo, /Volumes/catalog/schema/volume/cluster_log). |
cluster.docker_image
Type: Map
A configuração de imagem personalizada do Docker.
| Key | Tipo | Description |
|---|---|---|
url |
String | URL da imagem do Docker. |
basic_auth |
Map | Autenticação básica para repositório do Docker. Ver basic_auth. |
cluster.docker_image.basic_auth (autenticação básica do Docker)
Type: Map
Autenticação básica para repositório do Docker.
| Key | Tipo | Description |
|---|---|---|
username |
String | O nome de usuário para autenticação do registro do Docker. |
password |
String | A senha para autenticação do registro do Docker. |
cluster.init_scripts
Type: Map
A configuração para armazenar scripts de inicialização. Pelo menos um tipo de local deve ser especificado.
| Key | Tipo | Description |
|---|---|---|
dbfs |
Map | Localização DBFS do script de inicialização. Consulte dbfs. |
workspace |
Map | Localização do espaço de trabalho do script init. Veja o espaço de trabalho. |
s3 |
Map | Localização S3 do script de inicialização. Ver s3. |
abfss |
Map | Localização do script de init ABFSS. Ver abfss. |
gcs |
Map | Localização GCS do script de inicialização. Ver gcs. |
volumes |
Map | Localização do script de inicialização dos volumes UC. Ver volumes. |
cluster.init_scripts.dbfs
Type: Map
Localização DBFS do script de inicialização.
| Key | Tipo | Description |
|---|---|---|
destination |
String | O caminho do script de inicialização no DBFS. |
cluster.init_scripts.workspace (ambiente de inicialização de scripts)
Type: Map
Localização do espaço de trabalho do script init.
| Key | Tipo | Description |
|---|---|---|
destination |
String | O caminho do espaço de trabalho do script init. |
cluster.init_scripts.s3
Type: Map
Localização S3 do script de inicialização.
| Key | Tipo | Description |
|---|---|---|
destination |
String | O URI S3 do script de inicialização. |
region |
String | A região AWS do bucket S3. |
endpoint |
String | A URL de endpoint S3 (opcional). |
cluster.init_scripts.abfss
Type: Map
Localização do script de init ABFSS.
| Key | Tipo | Description |
|---|---|---|
destination |
String | O caminho ABFSS do script init. |
cluster.init_scripts.gcs
Type: Map
Localização GCS do script de inicialização.
| Key | Tipo | Description |
|---|---|---|
destination |
String | Caminho GCS do script de inicialização. |
cluster.init_scripts.volumes
Type: Map
Localização dos volumes dos scripts de inicialização.
| Key | Tipo | Description |
|---|---|---|
destination |
String | O caminho dos Volumes UC do script de inicialização. |
cluster.tipo_de_carga_de_trabalho
Type: Map
Atributos de cluster que apresentam os tipos de carga de trabalho.
| Key | Tipo | Description |
|---|---|---|
clients |
Map | Define que tipo de clientes podem usar o cluster. Veja os clientes. |
cluster.workload_type.clientes
Type: Map
O tipo de clientes para essa carga de trabalho de computação.
| Key | Tipo | Description |
|---|---|---|
jobs |
booleano | Se o cluster pode executar trabalhos. |
notebooks |
booleano | Se o cluster pode executar blocos de anotações. |
Examples
O exemplo a seguir cria um cluster dedicado (usuário único) para o usuário atual com o Databricks Runtime 15.4 LTS e uma política de cluster:
resources:
clusters:
my_cluster:
num_workers: 0
node_type_id: 'i3.xlarge'
driver_node_type_id: 'i3.xlarge'
spark_version: '15.4.x-scala2.12'
spark_conf:
'spark.executor.memory': '2g'
autotermination_minutes: 60
enable_elastic_disk: true
single_user_name: ${workspace.current_user.userName}
policy_id: '000128DB309672CA'
enable_local_disk_encryption: false
data_security_mode: SINGLE_USER
runtime_engine: STANDARD
Este exemplo cria um cluster my_cluster simples e o define como o cluster a ser usado para executar o bloco de anotações em my_job:
bundle:
name: clusters
resources:
clusters:
my_cluster:
num_workers: 2
node_type_id: 'i3.xlarge'
autoscale:
min_workers: 2
max_workers: 7
spark_version: '13.3.x-scala2.12'
spark_conf:
'spark.executor.memory': '2g'
jobs:
my_job:
tasks:
- task_key: test_task
notebook_task:
notebook_path: './src/my_notebook.py'
existing_cluster_id: ${resources.clusters.my_cluster.id}
painel
Type: Map
O recurso de painel permite que você gerencie painéis de IA/BI em um pacote. Para obter informações sobre painéis de IA/BI, consulte Painéis.
Se você implantou um pacote que contém um painel do seu ambiente local e, em seguida, usa a interface do usuário para modificar esse painel, as modificações feitas por meio da interface do usuário não são aplicadas ao arquivo JSON do painel no pacote local, a menos que você o atualize explicitamente usando bundle generate. Você pode usar a opção --watch para pesquisar continuamente e recuperar alterações no painel. Consulte databricks bundle generate.
Além disso, se você tentar implantar um pacote de seu ambiente local que contenha um arquivo JSON de painel diferente daquele no espaço de trabalho remoto, ocorrerá um erro. Para forçar a implantação e substituir o dashboard no espaço de trabalho remoto pelo painel local, use a opção --force. Consulte databricks bundle deploy.
Adicionado na versão 0.232.0 da CLI do Databricks
Note
Ao usar o Databricks Asset Bundles com suporte do Git para dashboards, evite a geração de dashboards duplicados adicionando o mapeamento de sincronização para excluir os dashboards da sincronização como ficheiros:
sync:
exclude:
- src/*.lvdash.json
dashboards:
<dashboard-name>:
<dashboard-field-name>: <dashboard-field-value>
| Key | Tipo | Description |
|---|---|---|
dataset_catalog |
String | O valor de catálogo predefinido usado por todos os conjuntos de dados no dashboard se não for especificado de outra forma na consulta. Por exemplo, configuração que define este campo, veja Catálogo de dashboard e parametrização de esquema. Adicionado na versão 0.283.0 da CLI do Databricks |
dataset_schema |
String | O valor padrão do esquema usado por todos os conjuntos de dados no dashboard, caso não seja especificado de outra forma na consulta. Por exemplo, configuração que define este campo, veja Catálogo de dashboard e parametrização de esquema. Adicionado na versão 0.283.0 da CLI do Databricks |
display_name |
String | O nome de exibição do painel. Adicionado na versão 0.232.0 da CLI do Databricks |
embed_credentials |
booleano | Se as credenciais de identidade de implantação do pacote são usadas para executar consultas para todos os visualizadores de painel. Se estiver definido como false, as credenciais de um visualizador serão usadas. O valor predefinido é false.Adicionado na versão 0.232.0 da CLI do Databricks |
etag |
String | O etag para o painel. Pode ser fornecido opcionalmente em atualizações para garantir que o painel não tenha sido modificado desde a última leitura. Adicionado na CLI Databricks versão 0.234.0 |
file_path |
String | O caminho local do ativo do painel, incluindo o nome do arquivo. Os painéis exportados sempre têm a extensão de arquivo .lvdash.json.Adicionado na versão 0.232.0 da CLI do Databricks |
lifecycle |
Map | Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando ele é implantado ou destruído. Consulte o ciclo de vida. |
parent_path |
String | O caminho do espaço de trabalho da pasta que contém o painel. Inclui corte dianteiro e sem corte posterior. Adicionado na versão 0.232.0 da CLI do Databricks |
path |
String | O caminho do espaço de trabalho do ativo do dashboard, incluindo o nome do ativo. Adicionado na CLI Databricks versão 0.234.0 |
permissions |
Sequence | As permissões do painel. Consulte as permissões. Adicionado na versão 0.232.0 da CLI do Databricks |
serialized_dashboard |
Any | O conteúdo do painel em forma de cadeia de caracteres serializada. Adicionado na versão 0.232.0 da CLI do Databricks |
warehouse_id |
String | O ID do armazém usado para executar o painel de controlo. Adicionado na versão 0.232.0 da CLI do Databricks |
Example
O exemplo a seguir inclui e implanta o painel de exemplo NYC Taxi Trip Analysis no espaço de trabalho Databricks.
resources:
dashboards:
nyc_taxi_trip_analysis:
display_name: 'NYC Taxi Trip Analysis'
file_path: ../src/nyc_taxi_trip_analysis.lvdash.json
warehouse_id: ${var.warehouse_id}
catálogo_da_base_de_dados
Type: Map
O recurso de catálogo de banco de dados permite definir catálogos de banco de dados que correspondem a instâncias de banco de dados em um pacote. Um catálogo de banco de dados é um banco de dados Lakebase registrado como um catálogo Unity Catalog.
Para obter informações sobre catálogos de banco de dados, consulte Criar um catálogo.
Adicionado na versão 0.265.0 da CLI do Databricks
database_catalogs:
<database_catalog-name>:
<database_catalog-field-name>: <database_catalog-field-value>
| Key | Tipo | Description |
|---|---|---|
create_database_if_not_exists |
booleano | Se o banco de dados deve ser criado se ele não existir. Adicionado na versão 0.265.0 da CLI do Databricks |
database_instance_name |
String | O nome da instância que hospeda o banco de dados. Adicionado na versão 0.265.0 da CLI do Databricks |
database_name |
String | O nome do banco de dados (em uma instância) associado ao catálogo. Adicionado na versão 0.265.0 da CLI do Databricks |
lifecycle |
Map | Contém as configurações de ciclo de vida de um recurso, incluindo o comportamento do recurso quando ele é implantado ou destruído. Consulte o ciclo de vida. Adicionado na versão 0.265.0 da CLI do Databricks |
name |
String | O nome do catálogo no Unity Catalog. Adicionado na versão 0.265.0 da CLI do Databricks |
Example
O exemplo a seguir define uma instância de banco de dados com um catálogo de banco de dados correspondente:
resources:
database_instances:
my_instance:
name: my-instance
capacity: CU_1
database_catalogs:
my_catalog:
database_instance_name: ${resources.database_instances.my_instance.name}
name: example_catalog
database_name: my_database
create_database_if_not_exists: true
instância_de_base_de_dados
Type: Map
O recurso de instância de banco de dados permite definir instâncias de banco de dados em um pacote. Uma instância de banco de dados Lakebase gerencia recursos de armazenamento e computação e fornece os pontos de extremidade aos quais os usuários se conectam.
Importante
Quando você implanta um pacote com uma instância de banco de dados, a instância começa a ser executada imediatamente e está sujeita a preços. Veja os preços do Lakebase.
Para obter informações sobre instâncias de banco de dados, consulte O que é uma instância de banco de dados?.
Adicionado na versão 0.265.0 da CLI do Databricks
database_instances:
<database_instance-name>:
<database_instance-field-name>: <database_instance-field-value>
| Key | Tipo | Description |
|---|---|---|
capacity |
String | O sku da instância. Os valores válidos são CU_1, CU_2, CU_4, CU_8.Adicionado na versão 0.265.0 da CLI do Databricks |
custom_tags |
Sequence | Uma lista de pares chave-valor que especifica etiquetas personalizadas associadas à instância. Adicionado na versão 0.273.0 da CLI Databricks |
enable_pg_native_login |
booleano | Se a instância tem login de senha nativa PG habilitado. O padrão é true.Adicionado na CLI Databricks versão 0.267.0 |
enable_readable_secondaries |
booleano | Se os secundários devem servir tráfego somente leitura. O padrão é false.Adicionado na versão 0.265.0 da CLI do Databricks |
lifecycle |
Map | Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando ele é implantado ou destruído. Consulte o ciclo de vida. Adicionado na versão 0.268.0 da CLI do Databricks |
name |
String | O nome da instância. Este é o identificador exclusivo para a instância. Adicionado na versão 0.265.0 da CLI do Databricks |
node_count |
Integer | O número de nós na instância, composto por 1 primário e 0 ou mais secundários. O padrão é 1 primário e 0 secundário. Adicionado na versão 0.265.0 da CLI do Databricks |
parent_instance_ref |
Map | A referência da instância pai. Isso só estará disponível se a instância for filha. Consulte a instância pai. Adicionado na versão 0.265.0 da CLI do Databricks |
permissions |
Sequence | As permissões da instância do banco de dados. Consulte as permissões. Adicionado na versão 0.265.0 da CLI do Databricks |
retention_window_in_days |
Integer | A janela de retenção para a instância. Esta é a janela de tempo em dias para a qual os dados históricos são retidos. O valor padrão é 7 dias. Os valores válidos são de 2 a 35 dias. Adicionado na versão 0.265.0 da CLI do Databricks |
stopped |
booleano | Se a instância está parada. Adicionado na versão 0.265.0 da CLI do Databricks |
usage_policy_id |
String | A política de uso desejada a ser associada à instância. Adicionado na versão 0.273.0 da CLI Databricks |
instância_de_base_de_dados.referência_da_instância_parente
Type: Map
A referência da instância pai. Isso só estará disponível se a instância for filha.
| Key | Tipo | Description |
|---|---|---|
branch_time |
String | Tempo de ramificação da instância do banco de dados ref. Para uma instância de referência pai, este é o ponto no tempo na instância pai a partir da qual a instância foi criada. Para uma instância de referência filho, este é o ponto no tempo na instância a partir do qual a instância filho foi criada. |
lsn |
String | LSN do WAL especificado pelo utilizador da instância de base de dados de referência. |
name |
String | Nome da instância do banco de dados ref. |
Example
O exemplo a seguir define uma instância de banco de dados com um catálogo de banco de dados correspondente:
resources:
database_instances:
my_instance:
name: my-instance
capacity: CU_1
database_catalogs:
my_catalog:
database_instance_name: ${resources.database_instances.my_instance.name}
name: example_catalog
database_name: my_database
create_database_if_not_exists: true
Para obter um exemplo de pacote que demonstra como definir uma instância de banco de dados e o catálogo de banco de dados correspondente, consulte o repositório GitHub de exemplos de pacote.
experimento
Type: Map
O recurso de experimento permite definir experimentos MLflow em um pacote. Para obter informações sobre experimentos MLflow, consulte Organizar execuções de treinamento com experimentos MLflow.
Adicionado no Databricks CLI versão 0.229.0 ou inferior
experiments:
<experiment-name>:
<experiment-field-name>: <experiment-field-value>
| Key | Tipo | Description |
|---|---|---|
artifact_location |
String | O local onde os artefatos para o experimento são armazenados. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
lifecycle |
Map | Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando ele é implantado ou destruído. Consulte o ciclo de vida. Adicionado na versão 0.268.0 da CLI do Databricks |
name |
String | O nome amigável que identifica o experimento. Um nome de experimento deve ser um caminho absoluto no espaço de trabalho Databricks, por exemplo /Workspace/Users/someone@example.com/my_experiment.Adicionado no Databricks CLI versão 0.229.0 ou inferior |
permissions |
Sequence | As permissões do experimento. Consulte as permissões. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
tags |
Sequence | Pares chave-valor de metadados adicionais. Veja tags. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
Example
O exemplo a seguir define um experimento que todos os usuários podem exibir:
resources:
experiments:
experiment:
name: /Workspace/Users/someone@example.com/my_experiment
permissions:
- level: CAN_READ
group_name: users
description: MLflow experiment used to track runs
trabalho
Type: Map
As tarefas são suportadas em Python para "Databricks Asset Bundles". Ver databricks.bundles.jobs.
O recurso de trabalho permite que você defina trabalhos e suas tarefas correspondentes em seu pacote.
Para obter informações sobre trabalhos, consulte Lakeflow Jobs. Para obter um tutorial que usa um modelo Databricks Asset Bundles para criar um trabalho, consulte Desenvolver um trabalho com Databricks Asset Bundles.
Adicionado no Databricks CLI versão 0.229.0 ou inferior
jobs:
<job-name>:
<job-field-name>: <job-field-value>
| Key | Tipo | Description |
|---|---|---|
budget_policy_id |
String | A id da política de orçamento especificada pelo usuário a ser usada para este trabalho. Se não for especificado, uma política de orçamento padrão pode ser aplicada ao criar ou modificar o trabalho. Consulte effective_budget_policy_id para a política de orçamento usada por esta carga de trabalho.Adicionado na CLI Databricks versão 0.231.0 |
continuous |
Map | Uma propriedade contínua opcional para este trabalho. A propriedade continuous garantirá que haja sempre uma execução executada. Apenas um de schedule e continuous pode ser usado. Ver contínuo.Adicionado no Databricks CLI versão 0.229.0 ou inferior |
deployment |
Map | Informações de implantação para trabalhos gerenciados por fontes externas. Consulte a implantação. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
description |
String | Uma descrição opcional para o cargo. O comprimento máximo é de 27700 caracteres na codificação UTF-8. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
email_notifications |
Map | Um conjunto opcional de endereços de e-mail que é notificado quando as operações desta tarefa começam ou são concluídas, bem como quando esta tarefa é eliminada. Ver email_notifications. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
environments |
Sequence | Uma lista de especificações do ambiente em que as tarefas podem ser executadas, que podem ser referenciadas pelas tarefas sem servidor deste trabalho. É necessário que um ambiente esteja presente para tarefas sem servidor. Para tarefas de notebook sem servidor, o ambiente é acessível no painel de ambiente do notebook. Para outras tarefas sem servidor, o ambiente de tarefas deve ser especificado usando environment_key nas configurações da tarefa. Veja ambientes. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
format |
String | Deprecated. O formato do trabalho. |
git_source |
Map | Uma especificação opcional para um repositório Git remoto contendo o código-fonte usado pelas tarefas. Veja job.git_source. Adicionado no Databricks CLI versão 0.229.0 ou inferior Importante: O git_source campo e o campo de tarefa source definidos como GIT não são recomendados para pacotes, porque os caminhos relativos locais podem não apontar para o mesmo conteúdo no repositório Git, e os pacotes esperam que um trabalho implantado tenha o mesmo conteúdo que a cópia local de onde foi implantado.Em vez disso, clone o repositório localmente e configure seu projeto de pacote dentro desse repositório, para que a origem das tarefas seja o espaço de trabalho. |
health |
Map | Um conjunto opcional de regras de integridade que pode ser definido para este trabalho. Consulte saúde. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
job_clusters |
Sequence | Uma lista de especificações de cluster de trabalho que podem ser compartilhadas e reutilizadas entre tarefas deste trabalho. Vê job_clusters. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
lifecycle |
Map | Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando ele é implantado ou destruído. Consulte o ciclo de vida. Adicionado na versão 0.268.0 da CLI do Databricks |
max_concurrent_runs |
Integer | Um número máximo opcional permitido de execuções simultâneas do trabalho. Defina esse valor se quiser ser capaz de executar várias execuções do mesmo trabalho simultaneamente. |
name |
String | Um nome opcional para o trabalho. O comprimento máximo é de 4096 bytes na codificação UTF-8. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
notification_settings |
Map | Configurações de notificação opcionais que são usadas ao enviar notificações para cada um dos email_notifications e webhook_notifications para este trabalho. Ver notification_settings.Adicionado no Databricks CLI versão 0.229.0 ou inferior |
parameters |
Sequence | Definições de parâmetros no nível do trabalho. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
performance_target |
String | Define como deve ser a eficiência de desempenho ou custo na execução em um ambiente serverless. Adicionado na versão 0.241.0 da CLI Databricks |
permissions |
Sequence | As permissões do trabalho. Consulte as permissões. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
queue |
Map | As configurações de fila do trabalho. Veja a fila. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
run_as |
Map | Configuração somente gravação. Especifica o usuário ou a entidade de serviço com a qual o trabalho é executado. Se não for especificado, o trabalho será executado como o usuário que o criou. Ou user_name ou service_principal_name deve ser especificado. Se não, ocorre um erro. Veja run_as.Adicionado no Databricks CLI versão 0.229.0 ou inferior |
schedule |
Map | Um cronograma periódico opcional para este trabalho. O comportamento padrão é que o trabalho só é executado quando acionado clicando em "Executar agora" na interface do usuário de trabalhos ou enviando uma solicitação de API para .runNow Veja a programação.Adicionado no Databricks CLI versão 0.229.0 ou inferior |
tags |
Map | Um mapa de tags associadas ao trabalho. Elas são encaminhadas para o cluster como marcas de cluster para clusters de trabalhos e estão sujeitas às mesmas limitações que as tags de cluster. Um máximo de 25 tags podem ser adicionadas ao trabalho. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
tasks |
Sequence | Uma lista de especificações de tarefas a serem executadas por este trabalho. Consulte Adicionar tarefas a trabalhos no Databricks Asset Bundles. Adicionado na versão 0.237.0 da CLI Databricks |
timeout_seconds |
Integer | Um tempo limite opcional aplicado a cada execução desta tarefa. Um valor de 0 significa que não há tempo limite.Adicionado no Databricks CLI versão 0.229.0 ou inferior |
trigger |
Map | Uma configuração para disparar uma execução quando determinadas condições são atendidas. Veja gatilho. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
usage_policy_id |
String | O ID da política de utilização a usar para este trabalho. Adicionado na versão 0.273.0 da CLI Databricks |
webhook_notifications |
Map | Uma coleção de IDs de notificação do sistema para notificar quando as execuções desse trabalho começarem ou forem concluídas. Ver webhook_notifications. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
job.contínuo
Type: Map
Configuração para execução contínua de tarefas.
| Key | Tipo | Description |
|---|---|---|
pause_status |
String | Se o trabalho contínuo está pausado ou não. Valores válidos: PAUSED, UNPAUSED. |
task_retry_mode |
String | Indique como o trabalho contínuo está a aplicar retries ao nível da tarefa. Os valores válidos são NEVER e ON_FAILURE. O padrão é NEVER. |
Tarefa.Implementação
Type: Map
Informações de implantação para trabalhos gerenciados por fontes externas.
| Key | Tipo | Description |
|---|---|---|
kind |
String | O tipo de implantação. Por exemplo, BUNDLE. |
metadata_file_path |
String | O caminho para o arquivo de metadados para a implantação. |
job.notificações_de_email
Type: Map
Configurações de notificação por e-mail para execuções de tarefas.
| Key | Tipo | Description |
|---|---|---|
on_start |
Sequence | Uma lista de endereços de e-mail para notificar quando uma execução é iniciada. |
on_success |
Sequence | Uma lista de endereços de e-mail para notificar quando uma execução for bem-sucedida. |
on_failure |
Sequence | Uma lista de endereços de e-mail para notificar quando uma execução falhar. |
on_duration_warning_threshold_exceeded |
Sequence | Uma lista de endereços de e-mail para notificar quando a duração de uma execução exceder o limite de aviso. |
no_alert_for_skipped_runs |
booleano | Se deve omitir o envio de alertas para execuções ignoradas. |
on_streaming_backlog_exceeded |
Sequence | Uma lista de endereços de e-mail para notificar quando quaisquer limites de lista de pendências de streaming forem excedidos para qualquer fluxo. Os limiares de backlog de streaming podem ser definidos no health campo usando as seguintes métricas: STREAMING_BACKLOG_BYTES, STREAMING_BACKLOG_RECORDS, STREAMING_BACKLOG_SECONDS, ou STREAMING_BACKLOG_FILES. O alerta é baseado na média de 10 minutos dessas métricas. Se o problema persistir, as notificações serão reenviadas a cada 30 minutos. |
emprego.ambientes
Type: Sequence
Uma lista de especificações do ambiente de execução de tarefas que podem ser referenciadas por tarefas sem servidor de uma tarefa.
Cada item da lista é um JobEnvironment:
| Key | Tipo | Description |
|---|---|---|
environment_key |
String | A chave de um ambiente. Tem de ser único dentro de um trabalho. |
spec |
Map | A entidade que representa um ambiente "serverless". Veja job.environments.spec. |
tarefa.ambientes.especificação
Type: Map
A entidade que representa um ambiente "serverless".
| Key | Tipo | Description |
|---|---|---|
client |
String | Deprecated. A versão para o cliente. |
dependencies |
Sequence | Lista de dependências de pip, conforme suportado pela versão de pip neste ambiente. |
environment_version |
String | Required. Versão do ambiente usada pelo ambiente. Cada versão vem com uma versão específica do Python e um conjunto de pacotes Python. A versão é uma cadeia de caracteres, consistindo de um inteiro. |
job.git_source
Type: Map
Configuração do repositório Git para o código-fonte do trabalho.
| Key | Tipo | Description |
|---|---|---|
git_branch |
String | O nome do ramo a ser verificado e utilizado por esta tarefa. Este campo não pode ser especificado em conjunto com git_tag ou git_commit. |
git_commit |
String | Comprometa-se a fazer check-out e ser usado por este trabalho. Este campo não pode ser especificado em conjunto com git_branch ou git_tag. |
git_provider |
String | Identificador único do serviço utilizado para alojar o repositório Git. O valor não diferencia maiúsculas de minúsculas. Os valores válidos são gitHub, bitbucketCloud, gitLab, azureDevOpsServices, gitHubEnterprise, bitbucketServer, . gitLabEnterpriseEdition |
git_snapshot |
Map | Estado de apenas leitura do repositório remoto no momento em que o trabalho foi executado. Este campo é incluído apenas em execuções de trabalho. Ver git_snapshot. |
git_tag |
String | Nome da tag a ser verificada e usada por este trabalho. Este campo não pode ser especificado em conjunto com git_branch ou git_commit. |
git_url |
String | URL do repositório a ser clonado por este trabalho. |
job.git_source.git_snapshot
Type: Map
Instantâneo de informações de commit em modo somente leitura.
| Key | Tipo | Description |
|---|---|---|
used_commit |
String | Commit que foi usado para executar a execução. Se git_branch foi especificado, aponta para o HEAD do branch no momento da execução; se git_tag foi especificado, aponta para o commit ao qual a tag se refere. |
emprego.saúde
Type: Map
Configuração de monitoramento de saúde para a tarefa.
| Key | Tipo | Description |
|---|---|---|
rules |
Sequence | Uma lista de regras de saúde do trabalho. Cada regra contém um metric, um op (operador), e um value. Consulte job.health.rules. |
tarefa.saúde.normas
Type: Sequence
Uma lista de regras de saúde do trabalho.
Cada item da lista é um JobHealthRule:
| Key | Tipo | Description |
|---|---|---|
metric |
String | Especifica a métrica de saúde que está a ser avaliada para uma regra de saúde específica.
|
op |
String | Especifica o operador usado para comparar o valor da métrica de integridade com o limite especificado. |
value |
Integer | Especifica o valor limite que a métrica de integridade deve obedecer para satisfazer a regra de integridade. |
job.job_clusters
Type: Sequence
Uma lista de especificações de cluster de trabalho que podem ser compartilhadas e reutilizadas entre tarefas deste trabalho. As bibliotecas não podem ser declaradas em um cluster de trabalho compartilhado. Você deve declarar bibliotecas dependentes nas configurações de tarefas.
Cada item da lista é um JobCluster:
| Key | Tipo | Description |
|---|---|---|
job_cluster_key |
String | Um nome exclusivo para o cluster de trabalhos. Este campo é obrigatório e deve ser exclusivo dentro do trabalho.
JobTaskSettings pode consultar este campo para determinar qual cluster lançar para a execução da tarefa. |
new_cluster |
Map | Se new_cluster, uma descrição de um cluster criado para cada tarefa. Consulte cluster. |
trabalho.definições_de_notificação
Type: Map
Configurações de notificação que se aplicam a todas as notificações do trabalho.
| Key | Tipo | Description |
|---|---|---|
no_alert_for_skipped_runs |
booleano | Se deve omitir o envio de alertas para execuções ignoradas. |
no_alert_for_canceled_runs |
booleano | Se deve pular o envio de alertas para execuções canceladas. |
job.queue
Type: Map
Configurações de fila para a tarefa.
| Key | Tipo | Description |
|---|---|---|
enabled |
booleano | Se é necessário habilitar a fila para o trabalho. |
job.agendamento
Type: Map
Agende a configuração para a execução periódica do trabalho.
| Key | Tipo | Description |
|---|---|---|
quartz_cron_expression |
String | Uma expressão Cron usando sintaxe Quartz que especifica quando o trabalho é executado. Por exemplo, 0 0 9 * * ? executa o trabalho todos os dias às 9:00 AM UTC. |
timezone_id |
String | O fuso horário da programação. Por exemplo, America/Los_Angeles ou UTC. |
pause_status |
String | Se o cronograma está pausado ou não. Valores válidos: PAUSED, UNPAUSED. |
job.gatilho
Type: Map
Configuração de gatilho para execução de trabalho controlado por eventos.
| Key | Tipo | Description |
|---|---|---|
file_arrival |
Map | Acionador com base na chegada de arquivos. Ver file_arrival. |
table |
Map | Gatilho baseado numa tabela. Consulte a tabela. |
table_update |
Map | Trigger baseado em atualizações de tabela. Consulte table_update. |
periodic |
Map | Acionador periódico. Ver periódico. |
job.trigger.chegada_de_ficheiro
Type: Map
Configuração de acionamento com base na chegada do ficheiro.
| Key | Tipo | Description |
|---|---|---|
url |
String | O caminho do arquivo para monitorar novos arquivos. |
min_time_between_triggers_seconds |
Integer | Tempo mínimo em segundos entre os eventos de gatilho. |
wait_after_last_change_seconds |
Integer | Aguarde o tempo em segundos após a última alteração de arquivo antes de acionar. |
tarefa.disparo.tabela
Type: Map
Configuração de gatilho com base em uma tabela.
| Key | Tipo | Description |
|---|---|---|
table_names |
Sequence | Uma lista de nomes de tabelas para monitorizar. |
condition |
String | A condição SQL que deve ser atendida para disparar o trabalho. |
trabalho.disparador.atualização_de_tabela
Type: Map
Configuração de gatilho com base em atualizações de tabela.
| Key | Tipo | Description |
|---|---|---|
table_names |
Sequence | Uma lista de nomes de tabelas para monitorar atualizações. |
condition |
String | A condição SQL que deve ser atendida para disparar o trabalho. |
wait_after_last_change_seconds |
Integer | Tempo de espera em segundos após a última atualização da tabela antes de acionar. |
job.trigger.periódico
Type: Map
Configuração periódica do gatilho.
| Key | Tipo | Description |
|---|---|---|
interval |
Integer | O valor do intervalo para o gatilho periódico. |
unit |
String | A unidade de tempo para o intervalo. Valores válidos: SECONDS, MINUTES, , HOURS, DAYSWEEKS, . |
job.notificações_de_webhook
Type: Map
Configurações de notificações via Webhook para execução de tarefas.
| Key | Tipo | Description |
|---|---|---|
on_start |
Sequence | Uma lista de IDs de notificação de webhook para notificar quando uma execução é iniciada. |
on_success |
Sequence | Uma lista de IDs de notificação de webhook para notificar quando uma execução for bem-sucedida. |
on_failure |
Sequence | Uma lista de IDs de notificação de webhook para notificar quando uma execução falha. |
on_duration_warning_threshold_exceeded |
Sequence | Uma lista de IDs de notificação de webhook para alertar quando a duração de uma execução exceder o limiar de aviso. |
on_streaming_backlog_exceeded |
Sequence | Uma lista de IDs de notificação do sistema a chamar quando quaisquer limiares de atraso de streaming forem ultrapassados para qualquer fluxo. Os limiares de backlog de streaming podem ser definidos no health campo usando as seguintes métricas: STREAMING_BACKLOG_BYTES, STREAMING_BACKLOG_RECORDS, STREAMING_BACKLOG_SECONDS, ou STREAMING_BACKLOG_FILES. O alerta é baseado na média de 10 minutos dessas métricas. Se o problema persistir, as notificações serão reenviadas a cada 30 minutos. Pode ser especificado um máximo de 3 destinos. |
Examples
O exemplo a seguir define um trabalho com a chave de recurso hello-job com uma tarefa de bloco de anotações:
resources:
jobs:
hello-job:
name: hello-job
tasks:
- task_key: hello-task
notebook_task:
notebook_path: ./hello.py
O exemplo a seguir define um trabalho com um bloco de anotações SQL:
resources:
jobs:
job_with_sql_notebook:
name: 'Job to demonstrate using a SQL notebook with a SQL warehouse'
tasks:
- task_key: notebook
notebook_task:
notebook_path: ./select.sql
warehouse_id: 799f096837fzzzz4
Para obter exemplos adicionais de configuração de trabalho, consulte Configuração de trabalho.
Para obter informações sobre como definir tarefas de trabalho e substituir configurações de trabalho, consulte:
- Adicionar tarefas a trabalhos no Databricks Asset Bundles
- Substituição de configurações de tarefas de trabalho
modelo (legado)
Type: Map
O recurso de modelo permite definir modelos herdados em pacotes. Em vez disso, a Databricks recomenda que se use modelos registados do Unity Catalog .
Adicionado no Databricks CLI versão 0.229.0 ou inferior
ponto_de_serviço_do_modelo
Type: Map
O recurso de endpoint de serviço do modelo permite definir pontos de serviço do modelo. Consulte Gerenciar pontos de extremidade de serviço de modelo.
Adicionado no Databricks CLI versão 0.229.0 ou inferior
model_serving_endpoints:
<model_serving_endpoint-name>:
<model_serving_endpoint-field-name>: <model_serving_endpoint-field-value>
| Key | Tipo | Description |
|---|---|---|
ai_gateway |
Map | A configuração do AI Gateway para o ponto de extremidade de serviço. NOTA: Atualmente, apenas o modelo externo e endpoints de throughput provisionados são suportados. Veja ai_gateway. Adicionado na versão 0.230.0 da CLI Databricks |
budget_policy_id |
String | O ID da política orçamental a usar para este endpoint. Adicionado na versão 0.244.0 da CLI Databricks |
config |
Map | A configuração principal do ponto de extremidade de serviço. Consulte config. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
description |
String | Uma descrição do endpoint de serviço. Adicionado na versão 0.260.0 da CLI Databricks |
email_notifications |
Map | Configuração de notificações por email para o endpoint de serviço. Ver email_notifications. Adicionado na CLI Databricks versão 0.264.0 |
lifecycle |
Map | Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando ele é implantado ou destruído. Consulte o ciclo de vida. Adicionado na versão 0.268.0 da CLI do Databricks |
name |
String | O nome do endpoint de serviço. Este campo é obrigatório e deve ser exclusivo em um espaço de trabalho Databricks. Um nome de ponto de extremidade pode consistir em caracteres alfanuméricos, traços e sublinhados. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
permissions |
Sequence | O modelo que serve as permissões do ponto de extremidade. Consulte as permissões. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
rate_limits |
Sequence | Deprecated. Limites de taxa a serem aplicados ao endpoint de serviço. Use o AI Gateway para gerenciar limites de taxa. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
route_optimized |
booleano | Ative a otimização de rota para o endpoint de serviço. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
tags |
Sequence | Tags a serem anexadas ao ponto de acesso de serviço e propagadas automaticamente nos logs de faturamento. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
model_serving_endpoint.notificações_de_email
Type: Map
Configuração de notificações por email para o endpoint de serviço.
| Key | Tipo | Description |
|---|---|---|
on_update_failure |
Sequence | Uma lista de endereços de email a serem notificados quando um endpoint falha em atualizar a sua configuração ou estado. |
on_update_success |
Sequence | Uma lista de endereços de email a serem notificados quando um endpoint atualiza com sucesso a sua configuração ou estado. |
ponto_de_serviço_do_modelo.portal_ai
Type: Map
Configuração do AI Gateway para o endpoint de serviço.
| Key | Tipo | Description |
|---|---|---|
fallback_config |
Map | Configuração para backup de tráfego que automaticamente faz fallbacks para outras entidades servidas se o pedido a uma entidade servida falhar com certos códigos de erro, para aumentar a disponibilidade. Veja fallback_config. |
guardrails |
Map | Configuração de guarda-freio. Veja barreiras de proteção. |
inference_table_config |
Map | Configuração para registro de inferência em tabelas do Unity Catalog. Ver inference_table_config. |
rate_limits |
Sequence | Configurações de limite de taxa. |
usage_tracking_config |
Map | Configuração para rastrear o uso. Ver usage_tracking_config. |
model_serving_endpoint.ai_gateway.fallback_config
Type: Map
Configuração para o backback de tráfego que automaticamente recua para outras entidades servidas se um pedido falhar com certos códigos de erro.
| Key | Tipo | Description |
|---|---|---|
enabled |
booleano | Se o fallback está ativado para este endpoint. |
ponto_de_serviço_de_modelo.passarela_ai.proteções
Type: Map
A configuração de guarda-corpos do gateway de IA.
| Key | Tipo | Description |
|---|---|---|
input |
Map | Configuração de guarda-corpos de entrada com campos como safety, pii. |
output |
Map | Configuração de guarda-corpos de saída com campos como safety, pii. |
invalid_keywords |
Sequence | Uma lista de palavras-chave a bloquear. |
ponto_fim_serviço_de_modelos.gateway_ai.configuração_tabela_de_inferência
Type: Map
Configuração para registro de inferência em tabelas do Unity Catalog.
| Key | Tipo | Description |
|---|---|---|
catalog_name |
String | O nome do catálogo no Unity Catalog. |
schema_name |
String | O nome do esquema no Unity Catalog. |
table_name_prefix |
String | O prefixo para nomes de tabelas de inferência. |
enabled |
booleano | Se o log da tabela de inferência está habilitado. |
ponto_de_distribuição_de_modelos.ai_portal.configuração_de_rastreamento_de_uso
Type: Map
A configuração do gateway de IA para rastrear o uso.
| Key | Tipo | Description |
|---|---|---|
enabled |
booleano | Se o rastreamento de uso está habilitado. |
model_serving_endpoint.config
Type: Map
A configuração principal do ponto de extremidade de serviço.
| Key | Tipo | Description |
|---|---|---|
served_entities |
Sequence | Uma lista de entidades a serem atendidas para atendimento no endpoint. Cada entidade servida contém campos como entity_name, entity_version, , workload_size, scale_to_zero_enabledworkload_type, environment_vars. |
served_models |
Sequence | (Preterido: use served_entities em vez disso) Uma lista de modelos servidos para serem servidos no ponto de extremidade. |
traffic_config |
Map | A configuração de tráfego que define como as invocações para o endpoint de serviço devem ser direcionadas. Ver traffic_config. |
auto_capture_config |
Map | Configuração para Tabelas de Inferência que registra automaticamente solicitações e respostas no Unity Catalog. Ver auto_capture_config. |
endpoint_de_serviço_de_modelo.config.configuração_de_tráfego
Type: Map
A configuração de tráfego que define como as invocações para o endpoint de serviço devem ser direcionadas.
| Key | Tipo | Description |
|---|---|---|
routes |
Sequence | Uma lista de rotas para distribuição de tráfego. Cada rota contém served_model_name e traffic_percentage. |
model_serving_endpoint.config.auto_capture_config
Type: Map
Configuração para Tabelas de Inferência que registra automaticamente solicitações e respostas no Unity Catalog.
| Key | Tipo | Description |
|---|---|---|
catalog_name |
String | O nome do catálogo no Unity Catalog. |
schema_name |
String | O nome do esquema no Unity Catalog. |
table_name_prefix |
String | O prefixo para nomes de tabelas de inferência. |
enabled |
booleano | Se o log da tabela de inferência está habilitado. |
Example
O exemplo a seguir define um modelo do Unity Catalog ponto de extremidade de serviço:
resources:
model_serving_endpoints:
uc_model_serving_endpoint:
name: 'uc-model-endpoint'
config:
served_entities:
- entity_name: 'myCatalog.mySchema.my-ads-model'
entity_version: '10'
workload_size: 'Small'
scale_to_zero_enabled: 'true'
traffic_config:
routes:
- served_model_name: 'my-ads-model-10'
traffic_percentage: '100'
tags:
- key: 'team'
value: 'data science'
gasoduto
Type: Map
Os pipelines são suportados em Python para Databricks Asset Bundles. Consulte databricks.bundles.pipelines.
O recurso pipeline permite-lhe criar pipelines. Para obter informações sobre pipelines, consulte Lakeflow Spark Declarative Pipelines. Para obter um tutorial que usa o modelo Databricks Asset Bundles para criar um pipeline, consulte Develop Lakeflow Spark Declarative Pipelines with Databricks Asset Bundles.
Adicionado no Databricks CLI versão 0.229.0 ou inferior
pipelines:
<pipeline-name>:
<pipeline-field-name>: <pipeline-field-value>
| Key | Tipo | Description |
|---|---|---|
allow_duplicate_names |
booleano | Se for falso, a implantação falhará se o nome estiver em conflito com outro pipeline. Adicionado na CLI Databricks versão 0.261.0 |
budget_policy_id |
String | Política orçamental deste gasoduto. Adicionado na versão 0.230.0 da CLI Databricks |
catalog |
String | Um catálogo no Unity Catalog para publicar dados desse pipeline. Se target for especificado, as tabelas neste pipeline são publicadas num esquema target dentro de catalog (por exemplo, catalog.target.table). Se target não for especificado, nenhum dado será publicado no Unity Catalog.Adicionado no Databricks CLI versão 0.229.0 ou inferior |
channel |
String | O Canal de Lançamento do Lakeflow Spark Declarative Pipelines que determina a versão a ser utilizada. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
clusters |
Sequence | As configurações de cluster para essa implantação de pipeline. Consulte cluster. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
configuration |
Map | A configuração para esta execução de pipeline. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
continuous |
booleano | Se o pipeline é contínuo ou acionado. Isto substitui trigger.Adicionado no Databricks CLI versão 0.229.0 ou inferior |
deployment |
Map | Tipo de implantação deste pipeline. Consulte a implantação. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
development |
booleano | Se o pipeline está em modo de desenvolvimento. É definido para false por padrão. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
dry_run |
booleano | Se o gasoduto é um gasoduto de funcionamento seco. |
edition |
String | A edição do produto pipeline. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
environment |
Map | A especificação de ambiente para esse pipeline usada para instalar dependências na computação sem servidor. Ver ambiente. Essa chave só é suportada na CLI do Databricks versão 0.258 e superior. Adicionado na versão 0.257.0 da CLI Databricks |
event_log |
Map | A configuração do log de eventos para este pipeline. Ver event_log. Adicionado na CLI Databricks versão 0.246.0 |
filters |
Map | Os filtros que determinam quais pacotes de pipeline devem ser incluídos no gráfico implantado. Veja filtros. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
gateway_definition |
Map | A configuração para um pipeline gateway. Estas definições não podem ser usadas com as ingestion_definition definições.Adicionado no Databricks CLI versão 0.229.0 ou inferior |
id |
String | Identificador exclusivo para esta linha de processamento. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
ingestion_definition |
Map | A configuração de um pipeline de ingestão gerido. Essas configurações não podem ser usadas com libraries, schema, target ou catalog. Veja ingestion_definition.Adicionado no Databricks CLI versão 0.229.0 ou inferior |
libraries |
Sequence | Uma lista de bibliotecas ou código necessários para esta implantação. Consulte pipeline.libraries. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
lifecycle |
Map | Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando ele é implantado ou destruído. Consulte o ciclo de vida. Adicionado na versão 0.268.0 da CLI do Databricks |
name |
String | Um nome amigável para esta canalização. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
notifications |
Sequence | As configurações de notificação para esse pipeline. Ver notificações. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
permissions |
Sequence | As permissões do gasoduto. Consulte as permissões. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
photon |
booleano | Se o Photon está habilitado para esse pipeline. Esta tonalidade é ignorada se serverless for definida como true.Adicionado no Databricks CLI versão 0.229.0 ou inferior |
restart_window |
Map | Define uma janela de reinício para este pipeline. Os pipelines podem ser reiniciados dentro desta janela sem ficarem atrasados. |
root_path |
String | O caminho raiz para esse pipeline. Isso é usado como o diretório raiz ao editar o pipeline na interface do usuário do Databricks e é adicionado ao sys.path ao executar códigos-fonte Python durante a execução do pipeline. Adicionado na versão 0.253.0 da CLI do Databricks |
run_as |
Map | A identidade sob a qual o pipeline é executado. Se não for especificado, o pipeline será executado como o usuário que criou o pipeline. Apenas user_name ou service_principal_name pode ser especificado. Se ambos forem especificados, um erro será gerado. Veja run_as.Adicionado na versão 0.241.0 da CLI Databricks |
schema |
String | O esquema padrão (banco de dados) do qual as tabelas são lidas ou publicadas. Adicionado na versão 0.230.0 da CLI Databricks |
serverless |
booleano | Se a computação sem servidor está habilitada para esse pipeline. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
storage |
String | O diretório raiz DBFS para armazenar pontos de verificação e tabelas. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
tags |
Map | Um mapa de tags associadas ao pipeline. Elas são encaminhadas para o cluster como tags de cluster e, portanto, estão sujeitas às mesmas limitações. Um máximo de 25 etiquetas pode ser adicionado ao pipeline. Adicionado na CLI Databricks versão 0.256.0 |
target |
String | Esquema de destino (banco de dados) para ao qual adicionar tabelas neste pipeline. Exatamente um dos schema ou target deve ser especificado. Para também publicar no Unity Catalog, especifique catalog. Este campo herdado foi descontinuado para a criação de pipelines em favor do campo schema.Adicionado no Databricks CLI versão 0.229.0 ou inferior |
usage_policy_id |
String | O ID da política de utilização a usar para este pipeline. Adicionado na versão 0.273.0 da CLI Databricks |
canal de implantação
Type: Map
Configuração do tipo de implantação para o pipeline.
| Key | Tipo | Description |
|---|---|---|
kind |
String | O tipo de implantação. Por exemplo, BUNDLE. |
metadata_file_path |
String | O caminho para o arquivo de metadados para a implantação. |
pipeline.ambiente
Type: Map
Especificação de ambiente para instalação de dependências em computação sem servidor.
| Key | Tipo | Description |
|---|---|---|
dependencies |
Sequence | Uma lista de dependências do pip, conforme suportada pela versão do pip neste ambiente. Cada dependência é uma linha de ficheiro de requisitos de pip. |
pipeline.registo_de_eventos
Type: Map
Configuração do log de eventos para o pipeline.
| Key | Tipo | Description |
|---|---|---|
catalog |
String | O registo de eventos é publicado sob o catálogo Unity Catalog. |
name |
String | O nome com o qual o registo de eventos é publicado no Catálogo Unity. |
schema |
String | O esquema do Unity Catalog sob o qual o registo de eventos é publicado. |
pipeline.filtros
Type: Map
Filtros que determinam quais pacotes de pipeline devem ser incluídos no gráfico implantado.
| Key | Tipo | Description |
|---|---|---|
include |
Sequence | Uma lista de nomes de pacotes a serem incluídos. |
exclude |
Sequence | Uma lista de nomes de pacotes a serem excluídos. |
pipeline.ingestion_definition
Type: Map
Configuração para um pipeline de ingestão gerenciado. Essas configurações não podem ser usadas com libraries, schema, target ou catalog.
| Key | Tipo | Description |
|---|---|---|
connection_name |
String | O nome da conexão a ser utilizada para ingestão. |
ingestion_gateway_id |
String | O ID do gateway de ingestão. |
objects |
Sequence | Required. Definições que especificam tabelas a replicar e o destino das tabelas replicadas. Cada objeto pode ser um SchemaSpec, TableSpec ou ReportSpec. |
source_configurations |
Sequence | Configurações de fonte de topo. |
table_configuration |
Map | Configuração das tabelas de ingestão. Ver table_configuration. |
EspecificaçãoDeEsquema
Type: Map
Especificação do objeto de esquema para ingerir todas as tabelas de um esquema.
| Key | Tipo | Description |
|---|---|---|
source_schema |
String | O nome do esquema de origem a ser ingerido. |
destination_catalog |
String | O nome do catálogo de destino no Unity Catalog. |
destination_schema |
String | O nome do esquema de destino no Unity Catalog. |
table_configuration |
Map | Configuração a ser aplicada a todas as tabelas neste esquema. Consulte pipeline.ingestion_definition.table_configuration. |
TableSpec
Type: Map
Especificação de objeto de tabela para ingestão de uma tabela específica.
| Key | Tipo | Description |
|---|---|---|
source_schema |
String | O nome do esquema de origem que contém a tabela. |
source_table |
String | O nome da tabela de origem que será ingerida. |
destination_catalog |
String | O nome do catálogo de destino no Unity Catalog. |
destination_schema |
String | O nome do esquema de destino no Unity Catalog. |
destination_table |
String | O nome da tabela de destino no Catálogo Unity. |
table_configuration |
Map | Configuração para esta tabela específica. Consulte pipeline.ingestion_definition.table_configuration. |
ReportSpec
Type: Map
Especificação do objeto de relatório para importação de relatórios analíticos.
| Key | Tipo | Description |
|---|---|---|
source_url |
String | A URL do relatório de origem. |
source_report |
String | O nome ou identificador do relatório de origem. |
destination_catalog |
String | O nome do catálogo de destino no Unity Catalog. |
destination_schema |
String | O nome do esquema de destino no Unity Catalog. |
destination_table |
String | O nome da tabela de destino para os dados do relatório. |
table_configuration |
Map | Configuração da tabela de relatório. Consulte pipeline.ingestion_definition.table_configuration. |
pipeline.ingestion_definition.configurações_de_fonte
Type: Map
Configuração para a fonte.
| Key | Tipo | Description |
|---|---|---|
catalog |
Map | Parâmetros de configuração da fonte ao nível do catálogo. Ver catálogo. |
pipeline.definição_ingestão.source_configuration.catalog
Type: Map
Parâmetros de configuração da fonte ao nível do catálogo
| Key | Tipo | Description |
|---|---|---|
postgres |
Map | Parâmetros de configuração ao nível de catálogo específicos do Postgres. Contém uma slot_config chave que é uma Map representando a configuração do slot do Postgres a ser utilizado para replicação lógica. |
source_catalog |
String | O nome do catálogo de origem. |
pipeline.ingestion_definition.configuração_da_tabela
Type: Map
Opções de configuração para tabelas de ingestão.
| Key | Tipo | Description |
|---|---|---|
exclude_columns |
Sequence | Uma lista de nomes de colunas a excluir para a ingestão. Quando não especificado, include_columns controla totalmente quais colunas devem ser ingeridas. Quando especificado, todas as outras colunas, incluindo as futuras, serão automaticamente incluídas para ingestão. Este campo é mutuamente exclusivo de include_columns. |
include_columns |
Sequence | Uma lista de nomes de colunas a incluir no processo de ingestão. Quando não especificado, todas as colunas exceto as em exclude_columns serão incluídas. As colunas futuras serão automaticamente incluídas. Quando for especificado, todas as outras colunas futuras serão automaticamente excluídas do processo de ingestão. Este campo é mutuamente exclusivo de exclude_columns. |
primary_keys |
Sequence | Uma lista de nomes de colunas a serem usados como chaves primárias para a tabela. |
sequence_by |
Sequence | Os nomes das colunas especificam a ordem lógica dos eventos nos dados de origem. O Spark Declarative Pipelines utiliza esta sequência para lidar com eventos de alteração que chegam fora de ordem. |
pipeline.bibliotecas
Type: Sequence
Define a lista de bibliotecas ou código necessários a este pipeline.
Cada item da lista é uma definição:
| Key | Tipo | Description |
|---|---|---|
file |
Map | O caminho para um ficheiro que define um pipeline e está armazenado nos repositórios do Databricks. Consulte pipeline.libraries.file. |
glob |
Map | O campo unificado para incluir o código-fonte. Cada entrada pode ser um caminho de bloco de anotações, um caminho de arquivo ou um caminho de pasta que termina /**. Este campo não pode ser utilizado em conjunto com notebook ou file. Consulte pipeline.libraries.glob. |
notebook |
Map | O caminho para um notebook que define um pipeline e é armazenado no espaço de trabalho do Databricks. Consulte pipeline.libraries.notebook. |
whl |
String | Este campo foi preterido |
pipeline.bibliotecas.ficheiro
Type: Map
O caminho para um arquivo que define um pipeline e é armazenado no Databricks Repos.
| Key | Tipo | Description |
|---|---|---|
path |
String | O caminho absoluto do código-fonte. |
pipeline.bibliotecas.glob
Type: Map
O campo unificado para incluir o código-fonte. Cada entrada pode ser um caminho de bloco de anotações, um caminho de arquivo ou um caminho de pasta que termina /**. Este campo não pode ser utilizado em conjunto com notebook ou file.
| Key | Tipo | Description |
|---|---|---|
include |
String | O código-fonte a ser incluído nos pipelines |
pipeline.bibliotecas.notebook
Type: Map
O caminho para um notebook que define um pipeline e é armazenado no espaço de trabalho do Databricks.
| Key | Tipo | Description |
|---|---|---|
path |
String | O caminho absoluto do código-fonte. |
pipeline.notifications
Type: Sequence
As configurações de notificação para esse pipeline. Cada item na sequência é uma configuração de notificação.
| Key | Tipo | Description |
|---|---|---|
alerts |
Sequence | Uma lista de alertas que ativam notificações. Os valores válidos incluem on-update-success, on-update-failure, on-update-fatal-failure, on-flow-failure. |
email_recipients |
Sequence | Uma lista de endereços de email para notificar quando um alerta configurado for acionado. |
Example
O exemplo a seguir define um pipeline com a chave de recurso hello-pipeline:
resources:
pipelines:
hello-pipeline:
name: hello-pipeline
clusters:
- label: default
num_workers: 1
development: true
continuous: false
channel: CURRENT
edition: CORE
photon: false
libraries:
- notebook:
path: ./pipeline.py
Para obter exemplos adicionais de configuração de pipeline, consulte Configuração de pipeline.
postgres_branch
Type:Map
O recurso de branch do Postgres permite-te definir branches do Lakebase num bundle. Também deve definir projetos Postgres correspondentes e endpoints de computação.
Adicionado na CLI Databricks versão 0.287.0
postgres_branches:
<postgres_branch-name>:
<postgres_branch-field-name>: <postgres_branches-field-value>
| Key | Tipo | Description |
|---|---|---|
branch_id |
String | O ID a usar para a Filial. Este torna-se o componente final do nome do recurso do ramo. O ID é obrigatório e deve ter entre 1 e 63 caracteres, começar com uma letra minúscula e conter apenas letras minúsculas, números e hífens. Por exemplo, development passa a projects/my-app/branches/development.Adicionado na CLI Databricks versão 0.287.0 |
expire_time |
String | Hora de validade absoluta. Quando definido, o ramo expira nesta altura. Adicionado na CLI Databricks versão 0.287.0 |
is_protected |
booleano | Quando definido como verdadeiro, protege a ramificação contra eliminação e reiniciação. Os endpoints de computação associados e o projeto não podem ser eliminados enquanto a ramificação estiver protegida. Adicionado na CLI Databricks versão 0.287.0 |
no_expiry |
booleano | Desative explicitamente a expiração. Quando definido como verdadeiro, o ramo não expira. Se definido como falso, o pedido é inválido; Fornece TTL ou expire_time em vez disso. Adicionado na CLI Databricks versão 0.287.0 |
parent |
String | O projeto onde esta filial será criada. Formato: projects/{project_id}Adicionado na CLI Databricks versão 0.287.0 |
source_branch |
String | O nome do ramo de origem a partir do qual este ramo foi criado (linha de dados para recuperação ponto no tempo). Se não for especificado, o ramo predefinido é o projeto por defeito. Formato: projects/{project_id}/branches/{branch_id}Adicionado na CLI Databricks versão 0.287.0 |
source_branch_lsn |
String | O Número de Sequência de Log (LSN) no ramo de origem a partir do qual este ramo foi criado. Adicionado na CLI Databricks versão 0.287.0 |
source_branch_time |
String | O momento no ramo de origem a partir do qual este ramo foi criado. Adicionado na CLI Databricks versão 0.287.0 |
ttl |
String | Duração relativa do tempo de vida. Quando definido, o ramo expira em creation_time + TTL. Adicionado na CLI Databricks versão 0.287.0 |
Example
Veja postgres_projects exemplo.
postgres_endpoint
Type: Map
O recurso postgres_endpoints permite-lhe definir endpoints de computação Lakebase num bundle. Deve também definir projetos e ramoscorrespondentes do Lakebase.
Adicionado na CLI Databricks versão 0.287.0
postgres_endpoints:
<postgres_endpoint-name>:
<postgres_endpoint-field-name>: <postgres_endpoint-field-value>
| Key | Tipo | Description |
|---|---|---|
autoscaling_limit_max_cu |
Número | O número máximo de Unidades de Cálculo. O valor mínimo é 0,5. Adicionado na CLI Databricks versão 0.287.0 |
autoscaling_limit_min_cu |
Número | O número mínimo de Unidades de Cálculo. O valor mínimo é 0,5. Adicionado na CLI Databricks versão 0.287.0 |
disabled |
booleano | Se deve restringir ligações ao endpoint de computação. Ativar esta opção agenda uma operação de cálculo de suspensão. Um endpoint de computação desativado não pode ser ativado por uma ligação ou ação de consola. Adicionado na CLI Databricks versão 0.287.0 |
endpoint_id |
String | O ID a usar para o Endpoint. Isto torna-se o componente final do nome do recurso do endpoint. O ID é obrigatório e deve ter entre 1 e 63 caracteres, começar com uma letra minúscula e conter apenas letras minúsculas, números e hífens. Por exemplo, primary passa a projects/my-app/branches/development/endpoints/primary.Adicionado na CLI Databricks versão 0.287.0 |
endpoint_type |
String | O tipo de ponto final. Um ramo só pode ter um READ_WRITE endpoint. Valores possíveis: ENDPOINT_TYPE_READ_WRITE, ENDPOINT_TYPE_READ_ONLY.Adicionado na CLI Databricks versão 0.287.0 |
no_suspension |
booleano | Quando definido como true, desativa explicitamente a suspensão automática (nunca suspende). Deve ser definido como verdadeiro quando fornecido. Adicionado na CLI Databricks versão 0.287.0 |
parent |
String | O ramo onde este Endpoint será criado. Formato: projects/{project_id}/branches/{branch_id}Adicionado na CLI Databricks versão 0.287.0 |
settings |
Map | Uma coleção de definições para um endpoint de computação. Adicionado na CLI Databricks versão 0.287.0 |
suspend_timeout_duration |
String | Duração da inatividade após a qual o endpoint de computação é automaticamente suspenso. Se especificado, deve estar entre os 60 e os 604800 (1 minuto a 1 semana). Adicionado na CLI Databricks versão 0.287.0 |
Example
Veja postgres_projects exemplo.
postgres_project
Type: Map
O recurso do projeto Postgres permite-lhe definir Lakebase Autoscaling projetos de bases de dados Postgres num pacote. Também deve definir os ramos Postgres correspondentes e os endpoints de cálculo.
Adicionado na CLI Databricks versão 0.287.0
postgres_projects:
<postgres_project-name>:
<postgres_project-field-name>: <postgres_project-field-value>
| Key | Tipo | Description |
|---|---|---|
default_endpoint_settings |
Map | Uma coleção de definições para um endpoint de computação. Veja postgres_project.default_endpoint_settings. Adicionado na CLI Databricks versão 0.287.0 |
display_name |
String | Nome de projeto legível para humanos. O comprimento deve estar entre 1 e 256 caracteres. Adicionado na CLI Databricks versão 0.287.0 |
history_retention_duration |
String | O número de segundos para manter o histórico partilhado para a recuperação em um momento em tempo para todas as ramificações deste projeto. O valor deve estar entre 0s e 2592000s (até 30 dias). Adicionado na CLI Databricks versão 0.287.0 |
pg_version |
Integer | O principal número de versão da Postgres. As versões suportadas são a 16 e a 17. Adicionado na CLI Databricks versão 0.287.0 |
project_id |
String | O ID para usar no Projeto. Este torna-se o componente final do nome do recurso do projeto. O ID é obrigatório e deve ter entre 1 e 63 caracteres, começar com uma letra minúscula e conter apenas letras minúsculas, números e hífens. Por exemplo, my-app passa a projects/my-app.Adicionado na CLI Databricks versão 0.287.0 |
Exemplo
resources:
postgres_projects:
my_db:
project_id: test-prod-app
display_name: 'Production Database'
pg_version: 17
postgres_branches:
main:
parent: ${resources.postgres_projects.my_db.id}
branch_id: main
is_protected: false
no_expiry: true
postgres_endpoints:
primary:
parent: ${resources.postgres_branches.main.id}
endpoint_id: primary
endpoint_type: ENDPOINT_TYPE_READ_WRITE
autoscaling_limit_min_cu: 0.5
autoscaling_limit_max_cu: 4
postgres_project.default_endpoint_settings_
Type: Map
| Key | Tipo | Description |
|---|---|---|
autoscaling_limit_max_cu |
Número | O número máximo de Unidades de Cálculo. O valor mínimo é 0,5. |
autoscaling_limit_min_cu |
Número | O número mínimo de Unidades de Cálculo. O valor mínimo é 0,5. |
no_suspension |
booleano | Quando definido como true, desativa explicitamente a suspensão automática (nunca suspende). Deve ser definido como verdadeiro quando fornecido. |
pg_settings |
Map | Uma representação crua dos cenários do Postgres. |
suspend_timeout_duration |
String | Duração da inatividade após a qual o endpoint de computação é automaticamente suspenso. Se especificado, deve estar entre os 60 e os 604800 (1 minuto a 1 semana). |
monitor_de_qualidade (Catálogo Unity)
Type: Map
O recurso quality_monitor permite definir um monitor de tabelas do Unity Catalog . Para obter informações sobre monitores, consulte Perfilagem de dados.
Adicionado no Databricks CLI versão 0.229.0 ou inferior
quality_monitors:
<quality_monitor-name>:
<quality_monitor-field-name>: <quality_monitor-field-value>
| Key | Tipo | Description |
|---|---|---|
assets_dir |
String | O diretório para armazenar ativos de monitoramento (por exemplo, painel, tabelas métricas). Adicionado no Databricks CLI versão 0.229.0 ou inferior |
baseline_table_name |
String | Nome da tabela de linha de base a partir da qual as métricas de desvio são calculadas. As colunas na tabela monitorada também devem estar presentes na tabela da linha de base. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
custom_metrics |
Sequence | Métricas personalizadas para calcular na tabela monitorada. Estas podem ser métricas agregadas, métricas derivadas (de métricas agregadas já computadas) ou métricas de desvio (comparando métricas entre janelas de tempo). Ver custom_metrics. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
inference_log |
Map | Configuração para monitorar logs de inferência. Ver inference_log. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
latest_monitor_failure_msg |
String | A última mensagem de erro para uma falha no monitor. Este é um campo de apenas leitura que é preenchido quando um monitor falha. Adicionado na CLI Databricks versão 0.264.0 |
lifecycle |
Map | Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando ele é implantado ou destruído. Consulte o ciclo de vida. Adicionado na versão 0.268.0 da CLI do Databricks |
notifications |
Map | As configurações de notificação para o monitor. Ver notificações. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
output_schema_name |
String | Esquema onde as tabelas métricas de saída são criadas. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
schedule |
Map | A programação para atualizar e refrescar automaticamente as tabelas de métricas. Veja a programação. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
skip_builtin_dashboard |
booleano | Se deve ignorar a criação de um painel padrão resumindo métricas de qualidade de dados. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
slicing_exprs |
Sequence | Lista de expressões de coluna com as quais fatiar dados para análise direcionada. Os dados são agrupados por cada expressão de forma independente, resultando em uma fatia separada para cada predicado e seus complementos. Para colunas de alta cardinalidade, apenas os 100 principais valores exclusivos por frequência gerarão fatias. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
snapshot |
Map | Configuração para monitorização de tabelas de captura. Veja o instantâneo. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
table_name |
String | O nome completo da tabela. Adicionado na versão 0.235.0 da CLI Databricks |
time_series |
Map | Configuração para monitoramento de tabelas de séries temporais. Ver time_series. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
warehouse_id |
String | Argumento opcional para especificar o armazém para a criação do painel. Se não for especificado, será usado o primeiro armazém operacional. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
monitor_qualidade.métricas_personalizadas
Type: Sequence
Uma lista de definições de métricas personalizadas.
Cada item da lista é um CustomMetric:
| Key | Tipo | Description |
|---|---|---|
definition |
String | Modelo Jinja para uma expressão SQL que especifica como calcular a métrica. Consulte Criar definição de métrica. |
input_columns |
Sequence | Uma lista de nomes de colunas na tabela de entrada para a qual a métrica deve ser calculada. Pode usar :table para indicar que a métrica precisa de informações de várias colunas. |
name |
String | Nome da métrica nas tabelas de saída. |
output_data_type |
String | O tipo de saída da métrica personalizada. |
type |
String | Só pode ser um de CUSTOM_METRIC_TYPE_AGGREGATE, CUSTOM_METRIC_TYPE_DERIVEDou CUSTOM_METRIC_TYPE_DRIFT. As métricas CUSTOM_METRIC_TYPE_AGGREGATE e CUSTOM_METRIC_TYPE_DERIVED são calculadas numa única tabela, enquanto as métricas CUSTOM_METRIC_TYPE_DRIFT são comparadas na linha de base e na tabela de entrada, ou entre as duas janelas de tempo consecutivas.
|
quality_monitor.inference_log
Type: Map
Configuração para monitorar logs de inferência.
| Key | Tipo | Description |
|---|---|---|
granularities |
Sequence | As granularidades temporais para agregar registos de inferência (por exemplo, ["1 day"]). |
model_id_col |
String | O nome da coluna que contém a ID do modelo. |
prediction_col |
String | O nome da coluna que contém a previsão. |
timestamp_col |
String | O nome da coluna que contém a marca temporal. |
problem_type |
String | O tipo de problema de ML. Os valores válidos incluem PROBLEM_TYPE_CLASSIFICATION, PROBLEM_TYPE_REGRESSION. |
label_col |
String | O nome da coluna que contém o rótulo (verdade básica). |
prediction_proba_col |
String | O nome da coluna que contém as probabilidades de previsão. |
quality_monitor.Notificações
Type: Map
Configurações de notificação para o monitor.
| Key | Tipo | Description |
|---|---|---|
on_failure |
Map | Configurações de notificação quando o monitor falha. Ver on_failure. |
on_new_classification_tag_detected |
Map | Configurações de notificação quando novas tags de classificação são detetadas. Ver on_new_classification_tag_detected. |
quality_monitor.notificações.em_falha
Type: Map
Configurações de notificação quando o monitor falha.
| Key | Tipo | Description |
|---|---|---|
email_addresses |
Sequence | Uma lista de endereços de e-mail para notificar sobre a falha do monitor. |
quality_monitor.notificações.quando_nova_etiqueta_de_classificação_deteção
Type: Map
Configurações de notificação quando novas tags de classificação são detetadas.
| Key | Tipo | Description |
|---|---|---|
email_addresses |
Sequence | Uma lista de endereços de e-mail para notificar quando novas tags de classificação forem detetadas. |
quality_monitor.horário
Type: Map
Agende para atualizar e recarregar automaticamente as tabelas métricas.
| Key | Tipo | Description |
|---|---|---|
quartz_cron_expression |
String | Uma expressão Cron usando a sintaxe Quartz. Por exemplo, 0 0 8 * * ? funciona todos os dias às 8:00 da manhã. |
timezone_id |
String | O fuso horário da programação (por exemplo, UTCAmerica/Los_Angeles, ). |
pause_status |
String | Se o agendamento está pausado. Valores válidos: PAUSED, UNPAUSED. |
monitor_de_qualidade.fotografia
Type: Map
Configuração para monitorização de tabelas de captura.
monitor_de_qualidade.série_temporal
Configuração para monitoramento de tabelas de séries temporais.
| Key | Tipo | Description |
|---|---|---|
granularities |
Sequence | As granularidades de tempo para a agregação de dados de séries temporais (por exemplo, ["30 minutes"]). |
timestamp_col |
String | O nome da coluna que contém a marca temporal. |
Examples
Os exemplos a seguir definem monitores de qualidade para os tipos de perfil InferenceLog, TimeSeries e Snapshot .
# InferenceLog profile type
resources:
quality_monitors:
my_quality_monitor:
table_name: dev.mlops_schema.predictions
output_schema_name: ${bundle.target}.mlops_schema
assets_dir: /Workspace/Users/${workspace.current_user.userName}/databricks_lakehouse_monitoring
inference_log:
granularities: [1 day]
model_id_col: model_id
prediction_col: prediction
label_col: price
problem_type: PROBLEM_TYPE_REGRESSION
timestamp_col: timestamp
schedule:
quartz_cron_expression: 0 0 8 * * ? # Run Every day at 8am
timezone_id: UTC
# TimeSeries profile type
resources:
quality_monitors:
my_quality_monitor:
table_name: dev.mlops_schema.predictions
output_schema_name: ${bundle.target}.mlops_schema
assets_dir: /Workspace/Users/${workspace.current_user.userName}/databricks_lakehouse_monitoring
time_series:
granularities: [30 minutes]
timestamp_col: timestamp
schedule:
quartz_cron_expression: 0 0 8 * * ? # Run Every day at 8am
timezone_id: UTC
# Snapshot profile type
resources:
quality_monitors:
my_quality_monitor:
table_name: dev.mlops_schema.predictions
output_schema_name: ${bundle.target}.mlops_schema
assets_dir: /Workspace/Users/${workspace.current_user.userName}/databricks_lakehouse_monitoring
snapshot: {}
schedule:
quartz_cron_expression: 0 0 8 * * ? # Run Every day at 8am
timezone_id: UTC
O exemplo seguinte configura um monitor de qualidade e um trabalho correspondente de reentrenamento do modelo com base na monitorização:
# Quality monitoring workflow
resources:
quality_monitors:
mlops_quality_monitor:
table_name: ${bundle.target}.mlops_demo.predictions
output_schema_name: ${bundle.target}.mlops_demo
assets_dir: /Users/${workspace.current_user.userName}/databricks_lakehouse_monitoring
inference_log:
granularities: [1 hour]
model_id_col: model_version
prediction_col: prediction
label_col: fare_amount
problem_type: PROBLEM_TYPE_REGRESSION
timestamp_col: inference_timestamp
schedule:
quartz_cron_expression: 57 0 14 * * ? # refresh monitoring metrics every day at 7 am PT
timezone_id: UTC
jobs:
retraining_job:
name: ${bundle.target}-mlops_demo-monitoring-retraining-job
tasks:
- task_key: monitored_metric_violation_check
notebook_task:
notebook_path: ../monitoring/notebooks/MonitoredMetricViolationCheck.py
base_parameters:
env: ${bundle.target}
table_name_under_monitor: ${bundle.target}.mlops_demo.predictions
metric_to_monitor: r2_score
metric_violation_threshold: 0.7
num_evaluation_windows: 24
num_violation_windows: 5 # 5 out of the past 24 windows have metrics lower than threshold
- task_key: is_metric_violated
depends_on:
- task_key: monitored_metric_violation_check
condition_task:
op: EQUAL_TO
left: '{{tasks.monitored_metric_violation_check.values.is_metric_violated}}'
right: 'true'
- task_key: trigger_retraining
depends_on:
- task_key: is_metric_violated
outcome: 'true'
run_job_task:
job_id: ${resources.jobs.model_training_job.id}
schedule:
quartz_cron_expression: '0 0 15 * * ?' # daily at 8 am PDT
timezone_id: UTC
# To get notifications, provide a list of emails to the on_failure argument.
#
# email_notifications:
# on_failure:
# - someone@example.com
modelo_registado (Catálogo Unity)
Type: Map
O recurso de modelo registrado permite definir modelos no Unity Catalog. Para obter informações sobre modelos registrados do Unity Catalog, consulte Manage model lifecycle in Unity Catalog.
Adicionado no Databricks CLI versão 0.229.0 ou inferior
registered_models:
<registered_model-name>:
<registered_model-field-name>: <registered_model-field-value>
| Key | Tipo | Description |
|---|---|---|
aliases |
Sequence | Lista de aliases associados ao modelo registado. Consulte registered_model.aliases. Adicionado na versão 0.273.0 da CLI Databricks |
browse_only |
booleano | Indica se o "principal" está limitado a recuperar metadados para o objeto associado através do privilégio BROWSE quando "include_browse" está ativado na solicitação. Adicionado na versão 0.273.0 da CLI Databricks |
catalog_name |
String | O nome do catálogo onde residem o esquema e o modelo registrado. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
comment |
String | O comentário anexado ao modelo registado. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
created_at |
Integer | Carimbo temporal de criação do modelo registado em milissegundos desde a época Unix. Adicionado na versão 0.273.0 da CLI Databricks |
created_by |
String | O identificador do utilizador que criou o modelo registado. Adicionado na versão 0.273.0 da CLI Databricks |
full_name |
String | O nome de três níveis (totalmente qualificado) do modelo registado. Adicionado na versão 0.273.0 da CLI Databricks |
grants |
Sequence | Os subsídios associados ao modelo registado. Ver subvenção. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
lifecycle |
Map | Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando ele é implantado ou destruído. Consulte o ciclo de vida. Adicionado na versão 0.268.0 da CLI do Databricks |
metastore_id |
String | O identificador único da metastore. Adicionado na versão 0.273.0 da CLI Databricks |
name |
String | O nome do modelo registado. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
owner |
String | O identificador do usuário que possui o modelo registrado. Adicionado na versão 0.273.0 da CLI Databricks |
schema_name |
String | O nome do esquema onde reside o modelo registrado. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
storage_location |
String | O local de armazenamento na nuvem sob o qual os arquivos de dados da versão do modelo são armazenados. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
updated_at |
String | Carimbo temporal da última atualização do modelo registado em milissegundos desde a época Unix. Adicionado na versão 0.273.0 da CLI Databricks |
updated_by |
String | O identificador do utilizador que atualizou o modelo registado da última vez. Adicionado na versão 0.273.0 da CLI Databricks |
registered_model.pseudónimos
Type: Sequence
Uma lista de pseudónimos associados ao modelo registado.
Cada item da lista é um Alias:
| Key | Tipo | Description |
|---|---|---|
alias_name |
String | Nome do pseudónimo, por exemplo, «campeão» ou «latest_stable» |
catalog_name |
String | O nome do catálogo que contém a versão do modelo |
id |
String | O identificador exclusivo do alias |
model_name |
String | O nome do modelo pai registado da versão do modelo, em relação ao esquema pai |
schema_name |
String | O nome do esquema que contém a versão do modelo, em relação ao catálogo principal |
version_num |
Integer | Número de versão inteiro da versão do modelo para a qual esse alias aponta. |
Example
O exemplo a seguir define um modelo registrado no Unity Catalog:
resources:
registered_models:
model:
name: my_model
catalog_name: ${bundle.target}
schema_name: mlops_schema
comment: Registered model in Unity Catalog for ${bundle.target} deployment target
grants:
- privileges:
- EXECUTE
principal: account users
esquema (Unity Catalog)
Type: Map
Os esquemas são suportados em Python para Databricks Asset Bundles. Consulte databricks.bundles.schemas.
O tipo de recurso de esquema permite definir esquemas do Catálogo Unity para tabelas e outros ativos nos seus fluxos de trabalho e pipelines, que são criados como parte de um pacote. Um esquema, diferente de outros tipos de recursos, tem as seguintes limitações:
- O proprietário de um recurso de esquema é sempre o usuário de implantação e não pode ser alterado. Se
run_asfor especificado no pacote, será ignorado nas operações do esquema. - Somente os campos suportados pela API de criação do objeto Schemas correspondente estão disponíveis para o recurso de esquema. Por exemplo,
enable_predictive_optimizationnão é suportado, pois só está disponível na API de atualização .
Adicionado no Databricks CLI versão 0.229.0 ou inferior
schemas:
<schema-name>:
<schema-field-name>: <schema-field-value>
| Key | Tipo | Description |
|---|---|---|
catalog_name |
String | O nome do catálogo principal. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
comment |
String | Uma descrição de texto de forma livre fornecida pelo usuário. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
grants |
Sequence | As subvenções associadas ao esquema. Ver subvenção. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
lifecycle |
Map | Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando ele é implantado ou destruído. Consulte o ciclo de vida. Adicionado na versão 0.268.0 da CLI do Databricks |
name |
String | O nome do esquema, relativo ao catálogo pai. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
properties |
Map | Um mapa de propriedades chave-valor anexadas ao esquema. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
storage_root |
String | A URL raiz de armazenamento para tabelas gerenciadas dentro do esquema. Adicionado no Databricks CLI versão 0.229.0 ou inferior |
Examples
O exemplo a seguir define um pipeline com a chave de recurso my_pipeline que cria um esquema Unity Catalog com a chave my_schema como destino:
resources:
pipelines:
my_pipeline:
name: test-pipeline-{{.unique_id}}
libraries:
- notebook:
path: ../src/nb.ipynb
- file:
path: ../src/range.sql
development: true
catalog: ${resources.schemas.my_schema.catalog_name}
target: ${resources.schemas.my_schema.id}
schemas:
my_schema:
name: test-schema-{{.unique_id}}
catalog_name: main
comment: This schema was created by Databricks Asset Bundles.
Um mapeamento de concessões de nível superior não é suportado pelo Databricks Asset Bundles, portanto, se você quiser definir concessões para um esquema, defina as concessões para o esquema dentro do mapeamento schemas. Para obter mais informações sobre subsídios, consulte Mostrar, conceder e revogar privilégios.
O exemplo a seguir define um esquema Unity Catalog com concessões:
resources:
schemas:
my_schema:
name: test-schema
grants:
- principal: users
privileges:
- SELECT
- principal: my_team
privileges:
- CAN_MANAGE
catalog_name: main
âmbito_secreto
Type: Map
O recurso secret_scope permite definir escopos secretos em um pacote. Para obter informações sobre escopos secretos, consulte Gerenciamento de segredos.
Adicionado na versão 0.252.0 da CLI do Databricks
secret_scopes:
<secret_scope-name>:
<secret_scope-field-name>: <secret_scope-field-value>
| Key | Tipo | Description |
|---|---|---|
backend_type |
String | O tipo de back-end com o qual o escopo será criado. Se não for especificado, o padrão será DATABRICKS.Adicionado na versão 0.252.0 da CLI do Databricks |
keyvault_metadata |
Map | Os metadados do escopo secreto, caso o backend_type seja AZURE_KEYVAULT. Ver keyvault_metadata.Adicionado na versão 0.252.0 da CLI do Databricks |
lifecycle |
Map | Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando ele é implantado ou destruído. Consulte o ciclo de vida. Adicionado na versão 0.268.0 da CLI do Databricks |
name |
String | Nome do escopo solicitado pelo usuário. Os nomes de escopo são exclusivos. Adicionado na versão 0.252.0 da CLI do Databricks |
permissions |
Sequence | As permissões a serem aplicadas ao escopo secreto. As permissões são gerenciadas por meio de ACLs de escopo secreto. Consulte as permissões. Adicionado na versão 0.252.0 da CLI do Databricks |
secret_scope.keyvault_metadata
Type: Map
Os metadados para escopos secretos apoiados pelo Cofre de Chaves do Azure.
| Key | Tipo | Description |
|---|---|---|
resource_id |
String | O ID do recurso do Azure do Cofre de Chaves. |
dns_name |
String | O nome DNS do Azure Key Vault (Cofre de Chaves do Azure). |
Examples
O exemplo a seguir define um escopo secreto que usa um fundo de cofre de chaves:
resources:
secret_scopes:
secret_scope_azure:
name: test-secrets-azure-backend
backend_type: 'AZURE_KEYVAULT'
keyvault_metadata:
resource_id: my_azure_keyvault_id
dns_name: my_azure_keyvault_dns_name
O exemplo a seguir define uma ACL personalizada usando escopos e permissões secretos:
resources:
secret_scopes:
my_secret_scope:
name: my_secret_scope
permissions:
- user_name: admins
level: WRITE
- user_name: users
level: READ
Para obter um exemplo de pacote que demonstra como definir um escopo secreto e um trabalho com uma tarefa que lê a partir dele em um pacote, consulte o repositório GitHub de exemplos de pacote.
sql_armazém_de_dados
Type: Map
O recurso SQL warehouse permite definir um SQL warehouse em um pacote. Para obter informações sobre armazéns SQL, consulte Data warehousing on Azure Databricks.
Adicionado na versão 0.260.0 da CLI Databricks
sql_warehouses:
<sql-warehouse-name>:
<sql-warehouse-field-name>: <sql-warehouse-field-value>
| Key | Tipo | Description |
|---|---|---|
auto_stop_mins |
Integer | O tempo em minutos que um SQL warehouse precisa estar inativo (por exemplo, sem consultas EM EXECUÇÃO), antes de ser automaticamente interrompido. Os valores válidos são 0, que indica que não há paragem automática, ou superior ou igual a 10. O padrão é 120. Adicionado na versão 0.260.0 da CLI Databricks |
channel |
Map | Os detalhes do canal. Ver canal. Adicionado na versão 0.260.0 da CLI Databricks |
cluster_size |
String | O tamanho dos clusters alocados para este armazém de dados. Aumentar o tamanho de um cluster do Spark permite executar consultas maiores nele. Se quiser aumentar o número de consultas simultâneas, ajuste max_num_clusters. Para valores suportados, consulte cluster_size. Adicionado na versão 0.260.0 da CLI Databricks |
creator_name |
String | O nome do usuário que criou o depósito. Adicionado na versão 0.260.0 da CLI Databricks |
enable_photon |
booleano | Se o armazém deve usar clusters otimizados para Photon. É definido para false por padrão. Adicionado na versão 0.260.0 da CLI Databricks |
enable_serverless_compute |
booleano | Se o depósito deve usar computação sem servidor. Adicionado na versão 0.260.0 da CLI Databricks |
instance_profile_arn |
String | Deprecated. Perfil de instância usado para passar o papel IAM para o cluster. Adicionado na versão 0.260.0 da CLI Databricks |
lifecycle |
Map | Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando ele é implantado ou destruído. Consulte o ciclo de vida. Adicionado na versão 0.268.0 da CLI do Databricks |
max_num_clusters |
Integer | O número máximo de clusters que o autoscaler criará para lidar com consultas simultâneas. Os valores devem ser menores ou iguais a 30 e maiores ou iguais a min_num_clusters. Define o valor padrão para min_clusters se não estiver definido.Adicionado na versão 0.260.0 da CLI Databricks |
min_num_clusters |
Integer | O número mínimo de clusters disponíveis que serão mantidos para este SQL warehouse. Aumentar isso garantirá que um número maior de clusters esteja sempre em execução e, portanto, pode reduzir o tempo de inicialização a frio para novas consultas. Isso é semelhante aos núcleos reservados versus revogáveis em um gerenciador de recursos. Os valores devem ser superiores a 0 e inferiores ou iguais a min(max_num_clusters, 30). O padrão é 1. Adicionado na versão 0.260.0 da CLI Databricks |
name |
String | O nome lógico do cluster. O nome deve ser exclusivo dentro de uma organização e ter menos de 100 caracteres. Adicionado na versão 0.260.0 da CLI Databricks |
permissions |
Sequence | As permissões a serem aplicadas ao armazém. Consulte as permissões. Adicionado na versão 0.260.0 da CLI Databricks |
spot_instance_policy |
String | Se deve utilizar instâncias spot. Os valores válidos são POLICY_UNSPECIFIED, COST_OPTIMIZED, RELIABILITY_OPTIMIZED. A predefinição é COST_OPTIMIZED.Adicionado na versão 0.260.0 da CLI Databricks |
tags |
Map | Um conjunto de pares chave-valor que serão marcados em todos os recursos (por exemplo, instâncias da AWS e volumes do EBS) associados a esse SQL warehouse. O número de tags deve ser inferior a 45. Adicionado na versão 0.260.0 da CLI Databricks |
warehouse_type |
String | O tipo de armazém, PRO ou CLASSIC. Se você quiser usar computação sem servidor, defina este campo como PRO e também como enable_serverless_computetrue.Adicionado na versão 0.260.0 da CLI Databricks |
sql_warehouse.canal
Type: Map
A configuração do canal para o SQL warehouse.
| Key | Tipo | Description |
|---|---|---|
name |
String | O nome do canal. Os valores válidos incluem CHANNEL_NAME_CURRENT, CHANNEL_NAME_PREVIEW, CHANNEL_NAME_CUSTOM. |
dbsql_version |
String | A versão DBSQL para canais personalizados. |
Example
O exemplo a seguir define um SQL warehouse:
resources:
sql_warehouses:
my_sql_warehouse:
name: my_sql_warehouse
cluster_size: X-Large
enable_serverless_compute: true
max_num_clusters: 3
min_num_clusters: 1
auto_stop_mins: 60
warehouse_type: PRO
tabela_de_base_de_dados_sincronizada
Type: Map
O recurso de tabela de banco de dados sincronizado permite que você defina tabelas de banco de dados Lakebase em um pacote.
Para obter informações sobre tabelas de banco de dados sincronizadas, consulte O que é uma instância de banco de dados?.
Adicionado na CLI Databricks versão 0.266.0
synced_database_tables:
<synced_database_table-name>:
<synced_database_table-field-name>: <synced_database_table-field-value>
| Key | Tipo | Description |
|---|---|---|
database_instance_name |
String | O nome da instância do banco de dados de destino. Isso é necessário ao criar tabelas de banco de dados sincronizadas em catálogos padrão. Isso é opcional ao criar tabelas de banco de dados sincronizadas em catálogos registrados. Adicionado na CLI Databricks versão 0.266.0 |
lifecycle |
Map | Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando ele é implantado ou destruído. Consulte o ciclo de vida. Adicionado na versão 0.268.0 da CLI do Databricks |
logical_database_name |
String | O nome do objeto de banco de dados Postgres de destino (banco de dados lógico) para esta tabela. Adicionado na CLI Databricks versão 0.266.0 |
name |
String | O nome completo da tabela, no formato catalog.schema.table.Adicionado na CLI Databricks versão 0.266.0 |
spec |
Map | A especificação da tabela do banco de dados. Consulte a especificação da tabela de banco de dados sincronizada. Adicionado na CLI Databricks versão 0.266.0 |
tabela_base_de_dados_sincronizada.spec
Type: Map
A especificação da tabela do banco de dados.
Adicionado na CLI Databricks versão 0.266.0
| Key | Tipo | Description |
|---|---|---|
create_database_objects_if_missing |
booleano | Se é necessário criar o banco de dados lógico e os recursos de esquema da tabela sincronizada, caso ainda não existam. |
existing_pipeline_id |
String | O ID de um pipeline existente. Se isso for definido, a tabela sincronizada será empacotada em bloco no pipeline existente referenciado. Isso evita a criação de um novo pipeline e permite o compartilhamento da computação existente. Nesse caso, a tabela sincronizada scheduling_policy deve corresponder à política de agendamento do pipeline existente. No máximo um dos existing_pipeline_id e new_pipeline_spec deve ser definido. |
new_pipeline_spec |
Map | A especificação para uma nova canalização. Ver new_pipeline_spec. No máximo um dos existing_pipeline_id e new_pipeline_spec deve ser definido. |
primary_key_columns |
Sequence | A lista de nomes de colunas que formam a chave primária. |
scheduling_policy |
String | A política de agendamento para sincronização. Os valores válidos incluem SNAPSHOT, CONTINUOUS. |
source_table_full_name |
String | O nome completo da tabela de origem no formato catalog.schema.table. |
timeseries_key |
String | Chave de série temporal para eliminar a duplicação de linhas com a mesma chave primária. |
tabela_de_base_de_dados_sincronizada.spec.nova_especificação_de_pipeline
Type: Map
A especificação para um novo pipeline utilizado na tabela de bases de dados sincronizada.
| Key | Tipo | Description |
|---|---|---|
budget_policy_id |
String | O ID da política orçamental a definir no oleoduto recém-criado. |
storage_catalog |
String | O catálogo da canalização para armazenar ficheiros intermédios, como pontos de verificação e registos de eventos. Este precisa ser um catálogo padrão onde o usuário tem permissões para criar tabelas Delta. |
storage_schema |
String | O esquema do pipeline para armazenar ficheiros intermediários, como checkpoints e logs de eventos. Isso precisa estar no catálogo padrão onde o usuário tem permissões para criar tabelas Delta. |
Examples
O exemplo a seguir define uma tabela de banco de dados sincronizada dentro de um catálogo de banco de dados correspondente:
resources:
database_instances:
my_instance:
name: my-instance
capacity: CU_1
database_catalogs:
my_catalog:
database_instance_name: my-instance
database_name: 'my_database'
name: my_catalog
create_database_if_not_exists: true
synced_database_tables:
my_synced_table:
name: ${resources.database_catalogs.my_catalog.name}.${resources.database_catalogs.my_catalog.database_name}.my_destination_table
database_instance_name: ${resources.database_catalogs.my_catalog.database_instance_name}
logical_database_name: ${resources.database_catalogs.my_catalog.database_name}
spec:
source_table_full_name: 'my_source_table'
scheduling_policy: SNAPSHOT
primary_key_columns:
- my_pk_column
new_pipeline_spec:
storage_catalog: 'my_delta_catalog'
storage_schema: 'my_delta_schema'
O exemplo a seguir define uma tabela de banco de dados sincronizada dentro de um catálogo padrão:
resources:
synced_database_tables:
my_synced_table:
name: 'my_standard_catalog.public.synced_table'
# database_instance_name is required for synced tables created in standard catalogs.
database_instance_name: 'my-database-instance'
# logical_database_name is required for synced tables created in standard catalogs:
logical_database_name: ${resources.database_catalogs.my_catalog.database_name}
spec:
source_table_full_name: 'source_catalog.schema.table'
scheduling_policy: SNAPSHOT
primary_key_columns:
- my_pk_column
create_database_objects_if_missing: true
new_pipeline_spec:
storage_catalog: 'my_delta_catalog'
storage_schema: 'my_delta_schema'
Este exemplo cria uma tabela de banco de dados sincronizada e personaliza a programação do pipeline para ela. Pressupõe que já tenha:
- Uma instância de banco de dados chamada
my-database-instance - Um catálogo padrão chamado
my_standard_catalog - Um esquema no catálogo padrão chamado
default - Uma tabela delta de origem nomeada
source_delta.schema.customercom a chave primáriac_custkey
resources:
synced_database_tables:
my_synced_table:
name: 'my_standard_catalog.default.my_synced_table'
database_instance_name: 'my-database-instance'
logical_database_name: 'test_db'
spec:
source_table_full_name: 'source_delta.schema.customer'
scheduling_policy: SNAPSHOT
primary_key_columns:
- c_custkey
create_database_objects_if_missing: true
new_pipeline_spec:
storage_catalog: 'source_delta'
storage_schema: 'schema'
jobs:
sync_pipeline_schedule_job:
name: sync_pipeline_schedule_job
description: 'Job to schedule synced database table pipeline.'
tasks:
- task_key: synced-table-pipeline
pipeline_task:
pipeline_id: ${resources.synced_database_tables.my_synced_table.data_synchronization_status.pipeline_id}
schedule:
quartz_cron_expression: '0 0 0 * * ?'
volume (Catálogo Unity)
Type: Map
Os volumes são suportados em Python para Databricks Asset Bundles. Consulte databricks.bundles.volumes.
O tipo de recurso de volume permite definir e criar volumes do Unity Catalog como parte integrante de um pacote. Ao implantar um pacote com um volume definido, observe que:
- Um volume não pode ser referenciado no
artifact_pathdo pacote até que ele exista no espaço de trabalho. Portanto, se você quiser usar o Databricks Asset Bundles para criar o volume, você deve primeiro definir o volume no pacote, implantá-lo para criar o volume e, em seguida, fazer referência a ele noartifact_pathem implantações subsequentes. - Os volumes no pacote não são precedidos com o prefixo
dev_${workspace.current_user.short_name}quando o destino de implantação temmode: developmentconfigurado. No entanto, você pode configurar manualmente esse prefixo. Consulte Predefinições personalizadas.
Adicionado na versão 0.236.0 da CLI do Databricks
volumes:
<volume-name>:
<volume-field-name>: <volume-field-value>
| Key | Tipo | Description |
|---|---|---|
catalog_name |
String | O nome do catálogo do esquema e do volume. Adicionado na versão 0.236.0 da CLI do Databricks |
comment |
String | O comentário anexado ao volume. Adicionado na versão 0.236.0 da CLI do Databricks |
grants |
Sequence | As subvenções associadas à publicação. Ver subvenção. Adicionado na versão 0.236.0 da CLI do Databricks |
lifecycle |
Map | Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando ele é implantado ou destruído. Consulte o ciclo de vida. Adicionado na versão 0.268.0 da CLI do Databricks |
name |
String | O nome do volume. Adicionado na versão 0.236.0 da CLI do Databricks |
schema_name |
String | O nome do esquema onde está o volume. Adicionado na versão 0.236.0 da CLI do Databricks |
storage_location |
String | O local de armazenamento na nuvem. Adicionado na versão 0.236.0 da CLI do Databricks |
volume_type |
String | O tipo de volume, ou EXTERNAL ou MANAGED. Um volume externo está localizado num local externo específico. Um volume gerenciado está localizado no local padrão especificado pelo esquema pai, pelo catálogo pai ou pelo metastore. Consulte Volumes gerenciados versus volumes externos. |
Example
O exemplo a seguir cria um volume Unity Catalog com a chave my_volume_id:
resources:
volumes:
my_volume_id:
catalog_name: main
name: my_volume
schema_name: my_schema
Para ver um exemplo de pacote que executa um trabalho que grava num ficheiro no volume do Catálogo Unity, consulte o repositório GitHub bundle-examples.
Objetos comuns
subvenção
Type: Map
Define o principal e os privilégios a serem concedidos a esse principal. Para obter mais informações sobre subsídios, consulte Mostrar, conceder e revogar privilégios.
Adicionado no Databricks CLI versão 0.229.0 ou inferior
| Key | Tipo | Description |
|---|---|---|
principal |
String | O nome do principal ao qual serão concedidos privilégios. Pode ser um usuário, grupo ou entidade de serviço. |
privileges |
Sequence | Os privilégios a conceder à entidade especificada. Os valores válidos dependem do tipo de recurso (por exemplo, SELECT, , MODIFY, CREATE, USAGE, READ_FILESWRITE_FILES, , EXECUTE, ). ALL_PRIVILEGES |
Example
O exemplo a seguir define um esquema Unity Catalog com concessões:
resources:
schemas:
my_schema:
name: test-schema
grants:
- principal: users
privileges:
- SELECT
- principal: my_team
privileges:
- CAN_MANAGE
catalog_name: main
ciclo de vida
Type: Map
Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando ele é implantado ou destruído.
Adicionado na versão 0.268.0 da CLI do Databricks
| Key | Tipo | Description |
|---|---|---|
prevent_destroy |
booleano | Configuração do ciclo de vida para evitar que o recurso seja destruído. Adicionado na versão 0.268.0 da CLI do Databricks |