Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Esta página contém instruções para configurar a computação clássica para Lakeflow Spark Declarative Pipelines. Para obter uma referência do esquema JSON, consulte a clusters definição na Referência da API de Pipeline.
Para criar um pipeline executado em computação clássica, os usuários devem primeiro ter permissão para implantar computação clássica, permissão de criação irrestrita ou acesso a uma política de computação. Os pipelines sem necessidade de um servidor não exigem permissões para a criação de recursos computacionais. Por padrão, todos os usuários do espaço de trabalho podem usar pipelines sem servidor.
Observação
Como o tempo de execução do Lakeflow Spark Declarative Pipelines gerencia o ciclo de vida da computação do pipeline e executa uma versão personalizada do Databricks Runtime, não é possível definir manualmente algumas configurações de computação em uma configuração de pipeline, como a versão do Spark ou nomes de cluster. Consulte Atributos de cluster que não são configuráveis pelo usuário.
Selecione os recursos de computação para o seu pipeline
Para configurar a computação clássica para seu pipeline a partir do Lakeflow Pipelines Editor:
- Clique em Configurações.
- Na seção Computação das configurações do pipeline, clique no
editar.
- Se estiver marcada, desmarque Serverless.
- Faça quaisquer outras alterações nas configurações de computação e clique em Salvar.
Isso configura seu pipeline para usar computação clássica e permite que você edite as configurações de computação, conforme descrito abaixo.
Para obter mais informações sobre o Lakeflow Pipelines Editor, consulte Desenvolver e depurar pipelines ETL com o Lakeflow Pipelines Editor.
Selecione uma política de computação
Os administradores de espaço de trabalho podem configurar políticas de computação para fornecer aos usuários acesso a recursos de computação clássicos para pipelines. As políticas de computação são opcionais. Verifique com o administrador do espaço de trabalho se você não tem os privilégios de computação necessários. Consulte Definir limites para a computação em Lakeflow Spark Declarative Pipelines.
Ao usar a API de Pipelines, para garantir que os valores padrão da política de computação sejam aplicados corretamente, defina "apply_policy_default_values": true na clusters definição:
{
"clusters": [
{
"label": "default",
"policy_id": "<policy-id>",
"apply_policy_default_values": true
}
]
}
Configurar tags de computação
Você pode adicionar tags personalizadas aos recursos de computação clássicos do seu pipeline. As tags permitem monitorar o custo dos recursos de computação usados por vários grupos em sua organização. O Databricks aplica essas tags aos recursos da nuvem e aos logs de uso registrados nas tabelas do sistema de uso. Você pode adicionar tags usando a configuração Cluster tags UI ou editando a configuração JSON do seu pipeline.
Selecionar tipos de instância para executar um pipeline
Por padrão, o Lakeflow Spark Declarative Pipelines seleciona os tipos de instância para os nós de driver e trabalhador do seu pipeline. Opcionalmente, você pode configurar os tipos de instância. Por exemplo, selecione tipos de instância para melhorar o desempenho do pipeline ou resolver problemas de memória ao executar o pipeline.
Para configurar tipos de instância ao criar ou editar um pipeline no Lakeflow Pipelines Editor:
- Clique no botão Configurações.
- Na seção Computação das configurações do pipeline, clique no
.
- Na seção Configurações avançadas, selecione os tipos de instância Tipo de trabalhador e Tipo de driver para o pipeline.
Definir configurações separadas para os clusters de atualização e manutenção
Cada pipeline declarativo tem dois recursos de computação associados: um cluster de atualização que processa atualizações de pipeline e um cluster de manutenção que executa tarefas de manutenção diárias (incluindo otimização preditiva). Por padrão, suas configurações de computação se aplicam a ambos os clusters. O uso das mesmas configurações para ambos os clusters melhora a confiabilidade das execuções de manutenção, garantindo que as configurações necessárias, como credenciais de acesso a dados para um local de armazenamento, sejam aplicadas ao cluster de manutenção.
Para aplicar configurações a apenas um dos dois clusters, adicione o label campo ao objeto JSON de configuração. Há três valores possíveis para o label campo:
-
maintenance: Aplica a configuração somente ao cluster de manutenção. -
updates: Aplica a configuração somente ao cluster de atualização. -
default: Aplica a configuração aos clusters de atualização e manutenção. Este é o valor padrão se olabelcampo for omitido.
Se houver uma configuração conflitante, a configuração com o updates rótulo ou maintenance substituirá a configuração definida com o default rótulo.
Observação
O cluster de manutenção diária é usado apenas em certos casos:
- Pipelines armazenados no metastore do Hive.
- Pipelines em espaços de trabalho que não aceitaram os termos de serviço de computação sem servidor. Se precisar de ajuda para aceitar os termos, entre em contato com seu representante Databricks.
- Pipelines em espaços de trabalho que não configuraram corretamente o link privado para serverless.
Exemplo: Definir uma configuração para o cluster de atualização
O exemplo a seguir define um parâmetro de configuração do Spark que é adicionado somente à configuração do cluster de updates:
{
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
},
{
"label": "updates",
"spark_conf": {
"key": "value"
}
}
]
}
Exemplo: Configurar tipos de instância para o cluster de atualização
Para evitar atribuir recursos desnecessários ao cluster de maintenance, este exemplo usa o rótulo updates para definir os tipos de instância apenas para o cluster updates.
{
"clusters": [
{
"label": "updates",
"node_type_id": "Standard_D12_v2",
"driver_node_type_id": "Standard_D3_v2",
"...": "..."
}
]
}
Atrasar o desligamento da computação
Para controlar o comportamento de desligamento do cluster, você pode usar o modo de desenvolvimento ou produção ou usar a configuração pipelines.clusterShutdown.delay na configuração do pipeline. O exemplo a seguir define o valor pipelines.clusterShutdown.delay como 60 segundos:
{
"configuration": {
"pipelines.clusterShutdown.delay": "60s"
}
}
Quando o modo production está habilitado, o valor padrão para pipelines.clusterShutdown.delay é 0 seconds. Quando development modo está habilitado, o valor padrão é 2 hours.
Observação
Como o recurso de computação Lakeflow Spark Declarative Pipelines é desligado automaticamente quando não está em uso, não é possível usar uma política de computação que defina autotermination_minutes. Isso resulta em um erro.
Criar uma computação de nó único
Uma computação de nó único tem um nó controlador que atua como mestre e executor. Isso se destina a cargas de trabalho que usam pequenas quantidades de dados ou não são distribuídas.
Para criar um nó de computação único, defina num_workers como 0. Por exemplo:
{
"clusters": [
{
"num_workers": 0
}
]
}