Referência de configuração de pools

Este artigo descreve as configurações disponíveis ao criar um pool usando a interface do usuário. Para saber como fazer para utilizar a CLI do Databricks para criar um pool, consulte CLI de Pools de Instâncias (herdado). Para saber como utilizar a API REST para criar um pool, consulte API de Pools de Instâncias.

Tamanho do pool e encerramento automático

Ao criar um pool, a fim de controlar o tamanho dele, você pode definir três parâmetros: número mínimo de instâncias ociosas, capacidade máxima e encerramento automático de instâncias ociosas.

Mínimo de Instâncias Ociosas

O número mínimo de instâncias que o pool mantém ociosas. Essas instâncias não são encerradas, independentemente das configurações do encerramento automático. Se um cluster consumir instâncias ociosas do pool, o Azure Databricks provisionará instâncias adicionais para manter o mínimo.

Capacidade Máxima

O número máximo de instâncias que o pool pode provisionar. Se ele for definido, esse valor restringirá todas as instâncias (ociosas e usadas). Se um cluster que estiver usando o pool solicitar mais instâncias do que esse número durante o dimensionamento automático, a solicitação falhará com um erro INSTANCE_POOL_MAX_CAPACITY_FAILURE.

Essa configuração é opcional. O Azure Databricks recomenda definir um valor somente nas seguintes circunstâncias:

  • Você tem uma cota de instância na qual precisa permanecer.
  • Você deseja impedir que um conjunto de trabalho afete outro. Por exemplo, suponha que sua cota de instância seja 100 e você tenha as equipes A e B que precisam executar trabalhos. Você pode criar o pool A com, no máximo, 50 e o pool B com, no máximo, 50 para que as duas equipes compartilhem a cota de 100 de maneira justa.
  • Você precisa ter um limite de custo.

Encerramento Automático de Instâncias Ociosas

O tempo em minutos acima do valor definido em Instâncias ociosas mínimas que as instâncias podem ficar ociosas antes de serem encerradas pelo pool.

Tipos de Instância

Um pool consiste em instâncias ociosas mantidas prontas para novos clusters e instâncias em uso executando clusters. Todas essas instâncias são do mesmo tipo de provedor de instância, selecionadas quando um pool é criado.

O tipo de instância de um pool não pode ser editado. Os clusters anexados a um pool usam o mesmo tipo de instância para os nós de driver e de trabalho. Diferentes famílias de tipos de instância se ajustam a diferentes casos de uso, como cargas de trabalho com uso intensivo de memória ou com uso intensivo de computação.

O Azure Databricks sempre fornece um aviso de reprovação de um ano antes de deixar de dar suporte a um tipo de instância.

Observação

Se os requisitos de segurança incluírem isolamento de computação, selecione uma instância Standard_F72s_V2 como o tipo de trabalho. Esses tipos de instância representam as máquinas virtuais isoladas que consomem todo o host físico e fornecem o nível necessário de isolamento necessário para dar suporte, por exemplo, às cargas de trabalho IL5 (Nível de Impacto 5) do Departamento de Defesa dos EUA.

Versão pré-carregada do Databricks Runtime

Você pode acelerar as inicializações do cluster selecionando uma versão do Databricks Runtime a ser carregada em instâncias ociosas no pool. Se um usuário selecionar esse runtime ao criar um cluster com suporte do pool, esse cluster será inicializado ainda mais rapidamente do que um cluster com suporte do pool que não usa uma versão pré-carregada do Databricks Runtime.

Se você definir essa opção como Nenhum, isso retardará o início do cluster, pois faz com que a versão do Databricks Runtime seja baixada sob demanda nas instâncias ociosas do pool. Quando o cluster libera as instâncias no pool, a versão do Databricks Runtime permanece armazenada em cache nessas instâncias. A próxima operação de criação de cluster que usa a mesma versão do Databricks Runtime pode se beneficiar desse comportamento do cache, mas isso não é garantido.

Imagem pré-carregada do Docker

Há suporte para imagens do Docker com pools se você usar a API de pools da instância para criar o pool.

Marcas do pool

As marcas de cluster permitem monitorar com facilidade o custo dos recursos de nuvem usados por vários grupos na sua organização. Você pode especificar marcas como pares de chave-valor ao criar um pool e o Azure Databricks aplica essas marcas a recursos de nuvem, como VMs e volumes de disco, além de relatórios de uso da DBU.

Para sua conveniência, o Azure Databricks aplica três marcas padrão a cada pool: Vendor, DatabricksInstancePoolId e DatabricksInstancePoolCreatorId. Você também pode adicionar marcas personalizadas ao criar um pool. Adicione até 41 marcas personalizadas.

Marcas personalizadas

Para adicionar outras marcas ao pool, navegue até a guia Tabelas na parte inferior da página Criar Pool. Clique no botão + Adicionar e insira o par de chave-valor.

Os clusters com suporte do pool herdam marcas padrão e personalizadas da configuração do pool. Para obter informações detalhadas sobre como marcas de pool e marcas de cluster funcionam juntas, confira Monitorar o uso usando marcas.

Dimensionamento automático do armazenamento local

Em geral, pode ser difícil estimar quanto espaço em disco um trabalho específico usará. Para poupar você de precisar estimar quantos gigabytes de disco gerenciado devem ser anexados ao pool no momento da criação, o Azure Databricks habilita automaticamente o armazenamento local com dimensionamento automático em todos os pools do Azure Databricks.

Com o armazenamento local com o dimensionamento automático, o Azure Databricks monitora a quantidade de espaço livre em disco disponível nas instâncias do pool. Se uma instância tiver pouco espaço em disco, um novo disco gerenciado será anexado automaticamente antes que ela fique sem espaço em disco. Os discos são anexados até um limite de 5 TB de espaço total em disco por máquina virtual (incluindo o armazenamento local inicial da máquina virtual).

Os discos gerenciados anexados a uma máquina virtual só são desanexados quando a máquina virtual é retornada ao Azure. Ou seja, os discos gerenciados nunca são desanexados de uma máquina virtual, desde que ela faça parte de um pool.

Instâncias spot

Para reduzir os custos, você pode optar por usar instâncias spot marcando o botão de opção Todas do Tipo Spot.

Os clusters do pool serão inicializados com instâncias spot para todos os nós, o driver e o trabalho (em vez do driver sob demanda híbrido e dos trabalhos de instância spot para clusters que não são de pool).

Se as instâncias spot são removidas devido à indisponibilidade, as instâncias sob demanda não substituem as instâncias removidas.