Configurar clusters

Nota

Estas são instruções para o legado criar uI cluster, e estão incluídas apenas para precisão histórica. Todos os clientes devem utilizar o uI de criação atualizado.

Este artigo explica as opções de configuração disponíveis quando cria e edita clusters Azure Databricks. Centra-se na criação e edição de clusters utilizando a UI. Para outros métodos, consulte clusters CLI, Clusters API 2.0 e Databricks Terraform provider.

Para ajudar a decidir qual a combinação de opções de configuração que melhor se adequa às suas necessidades, consulte as melhores práticas de configuração do cluster.

Criar cluster

Política de clusters

Uma política de cluster limita a capacidade de configurar clusters com base num conjunto de regras. As regras de política limitam os atributos ou valores de atributos disponíveis para a criação de clusters. As políticas de cluster têm ACLs que limitam a sua utilização a utilizadores e grupos específicos e, assim, limitam quais as políticas que pode selecionar quando cria um cluster.

Para configurar uma política de cluster, selecione a política de cluster na redução da política .

Selecione a política de cluster

Nota

Se não tiverem sido criadas políticas no espaço de trabalho, a política de abandono não se apresenta.

Se tiver:

  • O Cluster cria permissão, pode selecionar a política sem restrições e criar clusters totalmente configuráveis. A política sem restrições não limita quaisquer atributos de cluster ou valores de atributos.
  • Tanto o cluster cria permissão como acesso às políticas de cluster, pode selecionar a política sem restrições e as políticas a que tem acesso.
  • Apenas acede às políticas de cluster, pode selecionar as políticas a que tem acesso.

Modo de clusters

Nota

Este artigo descreve o legado Clusters UI. Para mais detalhes sobre a UI de pré-visualização, consulte Criar um cluster. Isto inclui algumas alterações de terminologia dos tipos e modos de acesso ao cluster. Para uma comparação dos novos e legados tipos de cluster, consulte alterações de UI dos Clusters e modos de acesso ao cluster. Na pré-visualização da UI:

  • Os clusters de modo padrão são agora chamados clusters de modo de acesso compartilhados sem isolamento.
  • Alta Concurrency com Tabelas ACLs são agora chamadosclusters de modo de acesso compartilhado.

A azure Databricks suporta três modos de cluster: Standard, High Concurrency e Single Node. O modo de cluster predefinido é Standard.

Importante

  • Se o seu espaço de trabalho for atribuído a uma meta-loja do Catálogo de Unidade , os clusters de Alta Concurrency não estão disponíveis. Em vez disso, utiliza o modo de acesso para garantir a integridade dos controlos de acesso e impor fortes garantias de isolamento. Consulte também criar um cluster que possa aceder ao Catálogo de Unidade.
  • Não é possível alterar o modo de cluster após a criação de um cluster. Se quiser um modo de cluster diferente, tem de criar um novo cluster.

A configuração do cluster inclui uma definição de terminação automática cujo valor predefinido depende do modo cluster:

  • Os clusters standard e single nó terminam automaticamente após 120 minutos por defeito.
  • Os agrupamentos de alta concuência não terminam automaticamente por predefinição.

Aglomerados padrão

Aviso

Os clusters de modo padrão (por vezes chamados clusters Sem Isolamento Partilhado) podem ser partilhados por vários utilizadores, sem isolamento entre os utilizadores. Se utilizar o modo cluster High Concurrency sem definições de segurança adicionais, tais como TABLE ACLs ou Credential Passthrough, as mesmas definições são utilizadas como clusters de modo padrão. Os administradores de conta podem impedir que as credenciais internas sejam geradas automaticamente para administradores do espaço de trabalho databricks neste tipo de cluster. Para opções mais seguras, a Databricks recomenda alternativas como clusters de alta concordância com ACLs de tabela.

Recomenda-se apenas um cluster Standard para utilizadores individuais. Os clusters standard podem executar cargas de trabalho desenvolvidas em Python, SQL, R e Scala.

Aglomerados de Alta Concurrency

Um cluster de Alta Concurrency é um recurso de nuvem gerido. Os principais benefícios dos clusters de Alta Concurrency são o facto de fornecerem uma partilha de grãos finos para a máxima utilização dos recursos e latências mínimas de consulta.

Os clusters de alta concurrency podem executar cargas de trabalho desenvolvidas em SQL, Python e R. O desempenho e segurança dos clusters de Alta Concurrency é fornecido através da execução do código do utilizador em processos separados, o que não é possível em Scala.

Além disso, apenas os clusters high Concurrency suportam o controlo de acesso à mesa.

Para criar um cluster de alta concurrency, desconfiem do modo cluster para a Alta Concurrency.

Modo cluster de alta concurrency

Para um exemplo de como criar um cluster de Alta Concurrency usando a API clusters, consulte o exemplo do cluster high concurrency.

Aglomerados de nó único

Um único aglomerado de nó não tem trabalhadores e gere trabalhos de faísca no nó do motorista.

Em contrapartida, um cluster Standard requer pelo menos um nó de operário Spark, além do nó condutor para executar trabalhos de Faísca.

Para criar um único agrupamento de nó, desate o modo cluster para um único nó.

Modo de cluster de nó único

Para saber mais sobre trabalhar com clusters single nó, consulte os clusters single nó.

Linhagem de dados

Importante

A linhagem de dados está em Visualização Pública.

Para criar um cluster que capture a linhagem de dados, vá à página de configuração do cluster e use os seguintes passos:

Nota

Para capturar a linhagem como parte de um trabalho executado usando um cluster de trabalho, certifique-se de configurar o cluster de trabalho com a seguinte configuração.

  1. No modo Access, selecione Único utilizador ou Partilhado.

    • Utilizador único: Um cluster que suporta vários idiomas, mas que pode ser utilizado por um único utilizador designado.
    • Compartilhado: Um cluster que pode ser partilhado por vários utilizadores. Apenas as cargas de trabalho SQL e Python são suportadas.
  2. Na versão de tempo de execução databricks, selecione Databricks Runtime 11.1 ou maior.

  3. Clique nas Opções Avançadas para alternar.

  4. Clique no separador Faísca .

  5. Na caixa de texto Spark config , introduza a seguinte configuração:

    spark.databricks.dataLineage.enabled true
    
  6. Clique em Criar Cluster.

Conjuntos

Para reduzir a hora de início do cluster, pode anexar um cluster a um conjunto de instâncias ociosas predefinidas, para os nós do condutor e do trabalhador. O cluster é criado usando instâncias nas piscinas. Se um pool não tiver recursos suficientes para criar os nós de condutor ou trabalhador solicitados, a piscina expande-se atribuindo novas instâncias ao fornecedor de exemplos. Quando um cluster anexo é terminado, as instâncias que ele usou são devolvidas às piscinas e podem ser reutilizadas por um cluster diferente.

Se selecionar uma piscina para nós de trabalhador, mas não para o nó do condutor, o nó do condutor herda a piscina a partir da configuração do nó do trabalhador.

Importante

Se tentar selecionar uma piscina para o nó do condutor, mas não para os nós dos trabalhadores, ocorre um erro e o seu cluster não é criado. Esta exigência impede a criação de uma situação em que o nó condutor tem de esperar pela criação de nós de trabalhador, ou vice-versa.

Consulte pools para saber mais sobre como trabalhar com piscinas em Azure Databricks.

Databricks Runtime

Os tempos de execução de databricks são o conjunto de componentes centrais que funcionam nos seus clusters. Todos os tempos de execução de Databricks incluem Apache Spark e adicionam componentes e atualizações que melhoram a usabilidade, desempenho e segurança. Para mais detalhes, consulte databricks tempos de execução.

O Azure Databricks oferece vários tipos de tempos de execução e várias versões desses tipos de tempo de execução na versão runtime drop-down de Databricks quando cria ou edita um cluster.

Selecione versão Runtime

Aceleração do fotão

O fotão está disponível para clusters que executam databricks Runtime 9.1 LTS ou superior.

Para ativar a aceleração do Fotão, selecione a caixa de verificação de aceleração do photon use.

Se desejar, pode especificar o tipo de instância no Tipo de Trabalhador e no Tipo de Condutor.

Databricks recomenda os seguintes tipos de exemplo para o preço e desempenho ideais:

  • Standard_E4ds_v4
  • Standard_E8ds_v4
  • Standard_E16ds_v4

Pode ver a atividade do Fotão na UI Spark. A imagem que se segue mostra os detalhes da consulta DAG. Há duas indicações de Fotão no DAG. Em primeiro lugar, os operadores de fotões começam com "Fotão", por exemplo, PhotonGroupingAgg. Em segundo lugar, no DAG, os operadores de fotões e os estágios são pêssegos coloridos, enquanto os não-Fotões são azuis.

DAG fotão

Imagens de estivador

Para algumas versões databricks Runtime, pode especificar uma imagem do Docker quando criar um cluster. Os casos de uso de exemplo incluem a personalização da biblioteca, um ambiente de recipiente dourado que não muda, e a integração de CI/CD do Docker.

Também pode usar imagens Docker para criar ambientes de aprendizagem profunda personalizados em clusters com dispositivos GPU.

Para obter instruções, consulte personalizar os recipientes com serviços de contentores databricks e serviços de contentores de dados em clusters GPU.

Tipo de nó de cluster

Um aglomerado é composto por um nó condutor e zero ou mais nós de trabalhadores.

Pode escolher tipos de exemplo de fornecedor de nuvem separados para os nós do condutor e do trabalhador, embora por defeito o nó do condutor utilize o mesmo tipo de instância que o nó do trabalhador. Diferentes famílias de tipos de instâncias enquadram-se em diferentes casos de utilização, tais como cargas de trabalho intensivas em memória ou computacional.

Nota

Se os seus requisitos de segurança incluírem isolamento computacional, selecione uma Standard_F72s_V2 instância como o seu tipo de trabalhador. Estes tipos de instância representam máquinas virtuais isoladas que consomem todo o hospedeiro físico e fornecem o nível de isolamento necessário para suportar, por exemplo, cargas de trabalho do Departamento de Impacto do Departamento de Defesa dos EUA 5 (IL5).

Nó do condutor

O nó do condutor mantém informações estatais de todos os cadernos anexados ao cluster. O nó do condutor também mantém o Texto do SparkCon e interpreta todos os comandos que executa a partir de um caderno ou de uma biblioteca no cluster, e executa o mestre Apache Spark que coordena com os executores spark.

O valor predefinido do tipo de nó condutor é o mesmo que o tipo de nó do trabalhador. Pode escolher um nó maior com mais memória se estiver a collect() planear um monte de dados dos trabalhadores da Spark e analisá-los no caderno.

Dica

Uma vez que o nó condutor mantém todas as informações do estado dos cadernos anexos, certifique-se de retirar os cadernos não reutilizados do nó do condutor.

Nó do trabalhador

Os nós operários Azure Databricks gerem os executores Spark e outros serviços necessários para o bom funcionamento dos clusters. Quando distribui a sua carga de trabalho com a Spark, todo o processamento distribuído acontece nos nós dos trabalhadores. A Azure Databricks executa um executor por nó de trabalhador; portanto, os termos executor e trabalhador são usados intercambiavelmente no contexto da arquitetura Azure Databricks.

Dica

Para gerir um trabalho de Spark, precisa de pelo menos um nó de trabalhador. Se um cluster tiver zero trabalhadores, pode executar comandos não-Spark no nó do condutor, mas os comandos spark falharão.

Tipos de instâncias GPU

Para tarefas computacionalmente desafiantes que exigem um alto desempenho, como as associadas à aprendizagem profunda, a Azure Databricks suporta clusters acelerados com unidades de processamento gráficos (GPUs). Para obter mais informações, consulte os clusters habilitados para a GPU.

Instâncias à vista

Para economizar custos, pode optar por utilizar instâncias spot, também conhecidas como VMs Azure Spot , verificando a caixa de verificação de instâncias Spot .

Ponto de configuração

A primeira instância será sempre a pedido (o nó do condutor está sempre a pedido) e os casos subsequentes serão casos pontuais. Se as instâncias pontuais forem despejadas devido à indisponibilidade, são implementadas instâncias a pedido para substituir casos despejados.

Tamanho e dimensionamento automático dos clusters

Quando criar um cluster Azure Databricks, pode fornecer um número fixo de trabalhadores para o cluster ou fornecer um número mínimo e máximo de trabalhadores para o cluster.

Quando fornece um cluster de tamanho fixo, a Azure Databricks garante que o seu cluster tem o número especificado de trabalhadores. Quando fornece uma gama para o número de trabalhadores, a Databricks escolhe o número adequado de trabalhadores necessários para gerir o seu trabalho. Isto é referido como autoscaling.

Com a autoscalagem, a Azure Databricks reafecta dinamicamente os trabalhadores para explicar as características do seu trabalho. Algumas partes do seu oleoduto podem ser mais exigentes computacionalmente do que outras, e a Databricks adiciona automaticamente trabalhadores adicionais durante estas fases do seu trabalho (e remove-as quando já não são necessárias).

A autoscalização facilita a obtenção de uma elevada utilização do cluster, porque não é necessário providenciar o cluster para corresponder a uma carga de trabalho. Isto aplica-se especialmente às cargas de trabalho cujos requisitos mudam ao longo do tempo (como explorar um conjunto de dados durante um dia), mas também pode aplicar-se a uma carga de trabalho única mais curta cujos requisitos de provisionamento são desconhecidos. A autoscalagem oferece assim duas vantagens:

  • As cargas de trabalho podem ser mais rápidas em comparação com um cluster de tamanho constante sub-aprovisionado.
  • Os aglomerados de autoscalagem podem reduzir os custos globais em comparação com um cluster de tamanhoest estático.

Dependendo do tamanho constante do cluster e da carga de trabalho, a autoscalagem dá-lhe um ou ambos estes benefícios ao mesmo tempo. O tamanho do cluster pode ir abaixo do número mínimo de trabalhadores selecionados quando o provedor de nuvem encerra casos. Neste caso, a Azure Databricks continuamente retrifica para re-provisão de instâncias, a fim de manter o número mínimo de trabalhadores.

Nota

O autoscaling não está disponível para spark-submit empregos.

How autoscaling behaves (Como se comporta o dimensionamento automático)

  • Escala de min a máximo em 2 passos.
  • Pode reduzir mesmo que o cluster não esteja inativo olhando para o estado do ficheiro baralhado.
  • Reduz-se com base numa percentagem de nós atuais.
  • Nos aglomerados de trabalho, reduz-se se o cluster for subutilizado ao longo dos últimos 40 segundos.
  • Em aglomerados para todos os fins, reduz-se se o cluster for subutilizado ao longo dos últimos 150 segundos.
  • A spark.databricks.aggressiveWindowDownS propriedade de configuração Spark especifica em segundos quantas vezes um cluster toma decisões de down-scaling. Aumentar o valor faz com que um cluster diminua mais lentamente. O valor máximo é de 600.

Permitir e configurar a autoscalagem

Para permitir que o Azure Databricks redimensione o seu cluster automaticamente, ativa a autoscalagem para o cluster e fornece a gama de trabalhadores min e max.

  1. Ative o dimensionamento automático.

    • All-Purpose cluster - Na página 'Criar Cluster', selecione a caixa de verificação de autoescalação ativa na caixa de opções de piloto automático :

      Permitir a autoscalagem para clusters interativos

    • Cluster de trabalho - Na página Configure Cluster, selecione a caixa de verificação de autoescalagem ativa na caixa de opções de piloto automático :

      Permitir a autoscalagem para clusters de emprego

  2. Configure os trabalhadores min e max.

    Configure os trabalhadores min e max

    Quando o cluster está em funcionamento, a página de detalhe do cluster apresenta o número de trabalhadores alocados. Pode comparar o número de trabalhadores alocados com a configuração do trabalhador e fazer ajustes conforme necessário.

Importante

Se estiver a usar uma piscina de exemplo:

  • Certifique-se de que o tamanho do cluster solicitado é inferior ou igual ao número mínimo de casos ociosos na piscina. Se for maior, o tempo de arranque do cluster será equivalente a um cluster que não utiliza um conjunto.
  • Certifique-se de que o tamanho máximo do cluster é inferior ou igual à capacidade máxima da piscina. Se for maior, a criação do cluster falhará.

Exemplo auto-caling

Se reconfigurar um cluster estático para ser um cluster autoscalante, o Azure Databricks redimensiona imediatamente o cluster dentro dos limites mínimos e máximos e, em seguida, começa a autoscalar. Como exemplo, a tabela seguinte demonstra o que acontece aos agrupamentos com um determinado tamanho inicial se reconfigurar um cluster para autoescalar entre 5 e 10 nós.

Tamanho inicial Tamanho após reconfiguração
6 6
12 10
3 5

Autoscaling armazenamento local

Muitas vezes pode ser difícil estimar quanto espaço em disco um determinado trabalho irá ocupar. Para evitar que tenha de estimar quantos gigabytes de disco gerido para anexar ao seu cluster no momento da criação, a Azure Databricks ativa automaticamente o armazenamento local em todos os clusters Azure Databricks.

Com o armazenamento local autoescalando, a Azure Databricks monitoriza a quantidade de espaço de disco gratuito disponível nos trabalhadores do seu cluster Spark. Se um trabalhador começar a esgotar-se demasiado no disco, o Databricks liga automaticamente um novo disco gerido ao trabalhador antes que fique sem espaço no disco. Os discos são anexados a um limite de 5 TB do espaço total do disco por máquina virtual (incluindo o armazenamento local inicial da máquina virtual).

Os discos geridos ligados a uma máquina virtual só são desligados quando a máquina virtual é devolvida ao Azure. Ou seja, os discos geridos nunca são separados de uma máquina virtual, desde que faça parte de um cluster de corrida. Para reduzir a utilização do disco gerido, a Azure Databricks recomenda a utilização desta funcionalidade num cluster configurado com instâncias spot ou terminação automática.

Encriptação de disco local

Importante

Esta funcionalidade está em Pré-visualização Pública.

Alguns tipos de exemplo que usa para executar clusters podem ter discos ligados localmente. A Azure Databricks pode armazenar dados de baralhar ou dados efémeros nestes discos anexados localmente. Para garantir que todos os dados em repouso são encriptados para todos os tipos de armazenamento, incluindo dados de baralhar que são armazenados temporariamente nos discos locais do seu cluster, pode ativar a encriptação do disco local.

Importante

As suas cargas de trabalho podem ser executadas mais lentamente devido ao impacto de desempenho da leitura e da escrita de dados encriptados de e para volumes locais.

Quando a encriptação do disco local está ativada, o Azure Databricks gera uma chave de encriptação localmente que é única em cada nó de cluster e é usada para encriptar todos os dados armazenados em discos locais. O âmbito da chave é local para cada nó de cluster e é destruído juntamente com o próprio nó de cluster. Durante a sua vida útil, a chave reside na memória para encriptação e desencriptação e é armazenada encriptada no disco.

Para ativar a encriptação do disco local, tem de utilizar o Clusters API 2.0. Durante a criação ou edição do cluster, conjunto:

{
  "enable_local_disk_encryption": true
}

Consulte Criar e Editar na referência API dos Clusters por exemplos de como invocar estas APIs.

Aqui está um exemplo de uma chamada de criação de cluster que permite encriptação de disco local:

{
  "cluster_name": "my-cluster",
  "spark_version": "7.3.x-scala2.12",
  "node_type_id": "Standard_D3_v2",
  "enable_local_disk_encryption": true,
  "spark_conf": {
    "spark.speculation": true
  },
  "num_workers": 25
}

Modo de segurança

Se o seu espaço de trabalho for atribuído a uma metástore do Catálogo de Unidade , utilize o modo de segurança em vez do modo de cluster High Concurrency para garantir a integridade dos controlos de acesso e impor garantias de isolamento fortes. O modo de cluster High Concurrency não está disponível com o Catálogo de Unidade.

Nas opções Avançadas, selecione dos seguintes modos de segurança do cluster:

  • Nenhum: sem isolamento. Não impõe controlo de acesso à mesa local de trabalho ou passagem credencial. Não é possível aceder aos dados do Catálogo de Unidade.
  • Utilizador único: Só pode ser utilizado por um único utilizador (por padrão, o utilizador que criou o cluster). Outros utilizadores não podem anexar-se ao cluster. Ao aceder a uma vista de um cluster com o modo de segurança do Utilizador Único , a vista é executada com as permissões do utilizador. Os clusters de suporte de um único utilizador suportam cargas de trabalho utilizando scripts Python, Scala e R. Init, instalação de biblioteca e suportes DBFS são suportados em clusters de um único utilizador. Os trabalhos automatizados devem utilizar clusters de um único utilizador.
  • Isolamento do utilizador: Pode ser partilhado por vários utilizadores. Apenas as cargas de trabalho SQL são suportadas. A instalação da biblioteca, os scripts init e os suportes DBFS são desativados para impor o isolamento rigoroso entre os utilizadores do cluster.
  • Tabela ACL apenas (Legado): Aplica o controlo de acesso à mesa local do espaço de trabalho, mas não pode aceder aos dados do Catálogo de Unidade.
  • Passthrough apenas (Legado): Aplica o espaço de trabalho-espaço de credencial local passa, mas não pode aceder aos dados do Catálogo de Unidade.

Os únicos modos de segurança suportados para as cargas de trabalho do Catálogo de Unidade são o Único Utilizador e o Isolamento do Utilizador.

Para mais informações, consulte o modo de acesso ao cluster?

Configuração do Spark

Para afinar os trabalhos da Spark, pode fornecer propriedades de configuração personalizadas de Spark numa configuração de cluster.

  1. Na página de configuração do cluster, clique nas opções avançadas para alternar.

  2. Clique no separador Faísca .

    Configuração do Spark

    Em Spark config, insira as propriedades de configuração como um par de valor chave por linha.

Quando configurar um cluster utilizando o Clusters API 2.0, desconfie as propriedades Spark no spark_conf campo no pedido de cluster Create ou no pedido de cluster editar.

Para definir propriedades Spark para todos os clusters, crie um script global init:

dbutils.fs.put("dbfs:/databricks/init/set_spark_params.sh","""
  |#!/bin/bash
  |
  |cat << 'EOF' > /databricks/driver/conf/00-custom-spark-driver-defaults.conf
  |[driver] {
  |  "spark.sql.sources.partitionOverwriteMode" = "DYNAMIC"
  |}
  |EOF
  """.stripMargin, true)

Recupere uma propriedade de configuração spark de um segredo

Databricks recomenda armazenar informações sensíveis, como palavras-passe, em segredo em vez de texto simples. Para fazer referência a um segredo na configuração Spark, utilize a seguinte sintaxe:

spark.<property-name> {{secrets/<scope-name>/<secret-name>}}

Por exemplo, para definir uma propriedade de configuração Spark chamada password ao valor do segredo armazenado em secrets/acme_app/password:

spark.password {{secrets/acme-app/password}}

Para obter mais informações, consulte Sintaxe para fazer referência a segredos numa propriedade de configuração spark ou variável ambiental.

Variáveis ambientais

Você pode configurar variáveis de ambiente personalizado que você pode aceder a partir de scripts init executando em um cluster. Databricks também fornece variáveis ambientais predefinidas que você pode usar em scripts init. Não se pode sobrepor a estas variáveis ambientais predefinidas.

  1. Na página de configuração do cluster, clique nas opções avançadas para alternar.

  2. Clique no separador Faísca .

  3. Definir as variáveis ambientais no campo Variáveis Ambientais .

    Campo de variáveis de ambiente

Também pode definir variáveis ambientais usando o spark_env_vars campo no pedido de cluster Create ou editar clusters API pontos finais.

Etiquetas de cluster

As tags de cluster permitem monitorizar facilmente o custo dos recursos em nuvem utilizados por vários grupos na sua organização. Pode especificar as etiquetas como pares de valor-chave quando cria um cluster, e a Azure Databricks aplica estas tags em recursos em nuvem como VMs e volumes de discos, bem como relatórios de utilização de DBU.

Para os clusters lançados a partir de piscinas, as tags de cluster personalizadas são aplicadas apenas aos relatórios de utilização da DBU e não se propagam aos recursos em nuvem.

Para obter informações detalhadas sobre como os tipos de pool e tags de cluster funcionam em conjunto, consulte a utilização do Monitor utilizando etiquetas de cluster, piscina e espaço de trabalho.

Por conveniência, a Azure Databricks aplica quatro etiquetas predefinidas em cada cluster: Vendor, Creatore ClusterNameClusterId.

Além disso, em agrupamentos de emprego, a Azure Databricks aplica duas etiquetas predefinidas: RunName e JobId.

Nos recursos utilizados pela Databricks SQL, a Azure Databricks também aplica a etiqueta SqlWarehouseIdpadrão .

Aviso

Não atribua uma etiqueta personalizada com a chave Name de um cluster. Cada cluster tem uma etiqueta Name cujo valor é definido por Azure Databricks. Se alterar o valor associado à chave Name, o cluster já não pode ser rastreado por Azure Databricks. Como consequência, o cluster pode não ser encerrado depois de ficar inativo e continuará a incorrer em custos de utilização.

Pode adicionar tags personalizadas quando criar um cluster. Para configurar etiquetas de cluster:

  1. Na página de configuração do cluster, clique nas opções avançadas para alternar.

  2. Na parte inferior da página, clique no separador Tags .

    Separador de etiquetas

  3. Adicione um par de valor-chave para cada etiqueta personalizada. Pode adicionar até 43 etiquetas personalizadas.

Para obter mais detalhes, consulte a utilização do Monitor utilizando etiquetas de cluster, piscina e espaço de trabalho.

Acesso SSH a clusters

Por razões de segurança, em Azure Databricks a porta SSH é fechada por defeito. Se pretender ativar o acesso da SSH aos seus clusters Spark, contacte o suporte da Azure Databricks.

Nota

O SSH só pode ser ativado se o seu espaço de trabalho for implantado na sua própria rede virtual Azure.

Entrega de registos de clusters

Quando criar um cluster, pode especificar um local para entregar os registos do nó do condutor spark, nó do trabalhador e eventos. Os registos são entregues a cada cinco minutos para o seu destino escolhido. Quando um cluster é terminado, a Azure Databricks garante entregar todos os registos gerados até ao fim do cluster.

O destino dos registos depende da identificação do cluster. Se o destino especificado for dbfs:/cluster-log-delivery, os registos de cluster para 0630-191345-leap375 serem entregues a dbfs:/cluster-log-delivery/0630-191345-leap375.

Para configurar o local de entrega de registos:

  1. Na página de configuração do cluster, clique nas opções avançadas para alternar.

  2. Clique no separador Registar .

    Entrega de registos de clusters

  3. Selecione um tipo de destino.

  4. Introduza o caminho do log de cluster.

Nota

Esta funcionalidade também está disponível na API REST. Consulte os exemplos de entrega de registos API 2.0 e Cluster.

Scripts init

Um script de inicialização de nó de cluster - ou init - é um script de concha que funciona durante o arranque para cada nó de cluster antes do início do condutor ou trabalhador JVM. Pode utilizar scripts init para instalar pacotes e bibliotecas não incluídos no tempo de execução de Databricks, modificar o classpath do sistema JVM, definir propriedades do sistema e variáveis ambientais usadas pelo JVM, ou modificar parâmetros de configuração de Faíscas, entre outras tarefas de configuração.

Pode anexar scripts init a um cluster, expandindo a secção Opções Avançadas e clicando no separador Scripts Init .

Para obter instruções detalhadas, consulte os scripts de inicialização do nó de cluster.