Partilhar via


Configurar a computação clássica para pipelines

Esta página contém instruções para configurar a computação clássica para Lakeflow Spark Declarative Pipelines. Para obter uma referência do esquema JSON, consulte a clusters definição na Referência da API de Pipeline.

Para criar um pipeline executado em computação clássica, os usuários devem primeiro ter permissão para implantar computação clássica, permissão de criação irrestrita ou acesso a uma política de computação. Os pipelines sem necessidade de um servidor não exigem permissões para a criação de recursos computacionais. Por padrão, todos os usuários do espaço de trabalho podem usar pipelines sem servidor.

Observação

Como o tempo de execução do Lakeflow Spark Declarative Pipelines gerencia o ciclo de vida da computação do pipeline e executa uma versão personalizada do Databricks Runtime, não é possível definir manualmente algumas configurações de computação em uma configuração de pipeline, como a versão do Spark ou nomes de cluster. Consulte Atributos de cluster que não são configuráveis pelo usuário.

Selecione os recursos de computação para o seu pipeline

Para configurar a computação clássica para seu pipeline a partir do Lakeflow Pipelines Editor:

  1. Clique em Configurações.
  2. Na seção Computação das configurações do pipeline, clique no ícone Lápis. editar.
  3. Se estiver marcada, desmarque Serverless.
  4. Faça quaisquer outras alterações nas configurações de computação e clique em Salvar.

Isso configura seu pipeline para usar computação clássica e permite que você edite as configurações de computação, conforme descrito abaixo.

Para obter mais informações sobre o Lakeflow Pipelines Editor, consulte Desenvolver e depurar pipelines ETL com o Lakeflow Pipelines Editor.

Selecione uma política de computação

Os administradores de espaço de trabalho podem configurar políticas de computação para fornecer aos usuários acesso a recursos de computação clássicos para pipelines. As políticas de computação são opcionais. Verifique com o administrador do espaço de trabalho se você não tem os privilégios de computação necessários. Consulte Definir limites para a computação em Lakeflow Spark Declarative Pipelines.

Ao usar a API de Pipelines, para garantir que os valores padrão da política de computação sejam aplicados corretamente, defina "apply_policy_default_values": true na clusters definição:

{
  "clusters": [
    {
      "label": "default",
      "policy_id": "<policy-id>",
      "apply_policy_default_values": true
    }
  ]
}

Configurar tags de computação

Você pode adicionar tags personalizadas aos recursos de computação clássicos do seu pipeline. As tags permitem monitorar o custo dos recursos de computação usados por vários grupos em sua organização. O Databricks aplica essas tags aos recursos da nuvem e aos logs de uso registrados nas tabelas do sistema de uso. Você pode adicionar tags usando a configuração Cluster tags UI ou editando a configuração JSON do seu pipeline.

Selecionar tipos de instância para executar um pipeline

Por padrão, o Lakeflow Spark Declarative Pipelines seleciona os tipos de instância para os nós de driver e trabalhador do seu pipeline. Opcionalmente, você pode configurar os tipos de instância. Por exemplo, selecione tipos de instância para melhorar o desempenho do pipeline ou resolver problemas de memória ao executar o pipeline.

Para configurar tipos de instância ao criar ou editar um pipeline no Lakeflow Pipelines Editor:

  1. Clique no botão Configurações.
  2. Na seção Computação das configurações do pipeline, clique no ícone Lápis..
  3. Na seção Configurações avançadas, selecione os tipos de instância Tipo de trabalhador e Tipo de driver para o pipeline.

Definir configurações separadas para os clusters de atualização e manutenção

Cada pipeline declarativo tem dois recursos de computação associados: um cluster de atualização que processa atualizações de pipeline e um cluster de manutenção que executa tarefas de manutenção diárias (incluindo otimização preditiva). Por padrão, suas configurações de computação se aplicam a ambos os clusters. O uso das mesmas configurações para ambos os clusters melhora a confiabilidade das execuções de manutenção, garantindo que as configurações necessárias, como credenciais de acesso a dados para um local de armazenamento, sejam aplicadas ao cluster de manutenção.

Para aplicar configurações a apenas um dos dois clusters, adicione o label campo ao objeto JSON de configuração. Há três valores possíveis para o label campo:

  • maintenance: Aplica a configuração somente ao cluster de manutenção.
  • updates: Aplica a configuração somente ao cluster de atualização.
  • default: Aplica a configuração aos clusters de atualização e manutenção. Este é o valor padrão se o label campo for omitido.

Se houver uma configuração conflitante, a configuração com o updates rótulo ou maintenance substituirá a configuração definida com o default rótulo.

Observação

O cluster de manutenção diária é usado apenas em certos casos:

  • Pipelines armazenados no metastore do Hive.
  • Pipelines em espaços de trabalho que não aceitaram os termos de serviço de computação sem servidor. Se precisar de ajuda para aceitar os termos, entre em contato com seu representante Databricks.

Exemplo: Definir uma configuração para o cluster de atualização

O exemplo a seguir define um parâmetro de configuração do Spark que é adicionado somente à configuração do cluster de updates:

{
  "clusters": [
    {
      "label": "default",
      "autoscale": {
        "min_workers": 1,
        "max_workers": 5,
        "mode": "ENHANCED"
      }
    },
    {
      "label": "updates",
      "spark_conf": {
        "key": "value"
      }
    }
  ]
}

Exemplo: Configurar tipos de instância para o cluster de atualização

Para evitar atribuir recursos desnecessários ao cluster de maintenance, este exemplo usa o rótulo updates para definir os tipos de instância apenas para o cluster updates.

{
  "clusters": [
    {
      "label": "updates",
      "node_type_id": "Standard_D12_v2",
      "driver_node_type_id": "Standard_D3_v2",
      "...": "..."
    }
  ]
}

Atrasar o desligamento da computação

Para controlar o comportamento de desligamento do cluster, você pode usar o modo de desenvolvimento ou produção ou usar a configuração pipelines.clusterShutdown.delay na configuração do pipeline. O exemplo a seguir define o valor pipelines.clusterShutdown.delay como 60 segundos:

{
  "configuration": {
    "pipelines.clusterShutdown.delay": "60s"
  }
}

Quando o modo production está habilitado, o valor padrão para pipelines.clusterShutdown.delay é 0 seconds. Quando development modo está habilitado, o valor padrão é 2 hours.

Observação

Como o recurso de computação Lakeflow Spark Declarative Pipelines é desligado automaticamente quando não está em uso, não é possível usar uma política de computação que defina autotermination_minutes. Isso resulta em um erro.

Criar uma computação de nó único

Uma computação de nó único tem um nó controlador que atua como mestre e executor. Isso se destina a cargas de trabalho que usam pequenas quantidades de dados ou não são distribuídas.

Para criar um nó de computação único, defina num_workers como 0. Por exemplo:

{
  "clusters": [
    {
      "num_workers": 0
    }
  ]
}