Referência de configuração do pool

Artigo
04/17/2024

Este artigo descreve as configurações disponíveis ao criar um pool usando a interface do usuário. Para saber como usar a CLI do Databricks para criar um pool, consulte CLI de pools de instâncias (legado). Para saber como usar a API REST para criar um pool, consulte a API de pools de instâncias.

Tamanho da piscina e terminação automática

Ao criar um pool, para controlar seu tamanho, você pode definir três parâmetros: instâncias ociosas mínimas, capacidade máxima e terminação automática de instância ociosa.

Instâncias ociosas mínimas

O número mínimo de instâncias que o pool mantém ocioso. Essas instâncias não são encerradas, independentemente das configurações de terminação automática. Se um cluster consome instâncias ociosas do pool, o Azure Databricks provisiona instâncias adicionais para manter o mínimo.

Capacidade Máxima

O número máximo de instâncias que o pool pode provisionar. Se definido, esse valor restringe todas as instâncias (ocioso + usado). Se um cluster que usa o pool solicitar mais instâncias do que esse número durante o dimensionamento automático, a solicitação falhará com um INSTANCE_POOL_MAX_CAPACITY_FAILURE erro.

Esta configuração é opcional. O Azure Databricks recomenda definir um valor somente nas seguintes circunstâncias:

Você tem uma cota de instância na qual deve permanecer.
Você deseja proteger um conjunto de trabalho de afetar outro conjunto de trabalho. Por exemplo, suponha que sua cota de instância seja 100 e você tenha as equipes A e B que precisam executar trabalhos. Você pode criar o pool A com um máximo de 50 e o pool B com um máximo de 50 para que as duas equipes dividam a cota de 100 de forma justa.
Você precisa limitar o custo.

Terminação automática de instância ociosa

O tempo, em minutos, acima do valor definido em Instâncias ociosas mínimas em que as instâncias podem ficar ociosas antes de serem encerradas pelo pool.

Tipos de instância

Um pool consiste em instâncias ociosas mantidas prontas para novos clusters e instâncias em uso pela execução de clusters. Todas essas instâncias são do mesmo tipo de provedor de instância, selecionadas ao criar um pool.

O tipo de instância de um pool não pode ser editado. Os clusters anexados a um pool usam o mesmo tipo de instância para os nós de driver e de trabalho. Diferentes famílias de tipos de instância se ajustam a diferentes casos de uso, como cargas de trabalho com uso intensivo de memória ou computação.

O Azure Databricks sempre fornece um aviso de descontinuação de um ano antes de cessar o suporte para um tipo de instância.

Nota

Se seus requisitos de segurança incluírem isolamento de computação, selecione uma instância Standard_F72s_V2 como seu tipo de trabalhador. Esses tipos de instância representam máquinas virtuais isoladas que consomem todo o host físico e fornecem o nível necessário de isolamento necessário para suportar, por exemplo, cargas de trabalho IL5 (US Department of Defense Impact Level 5).

Versão pré-carregada do Databricks Runtime

Você pode acelerar as execuções de cluster selecionando uma versão do Databricks Runtime a ser carregada em instâncias ociosas no pool. Se um usuário selecionar esse tempo de execução ao criar um cluster apoiado pelo pool, esse cluster será iniciado ainda mais rapidamente do que um cluster apoiado por pool que não use uma versão pré-carregada do Databricks Runtime.

Definir essa opção como Nenhum torna a inicialização do cluster mais lenta, pois faz com que a versão do Databricks Runtime seja baixada sob demanda para instâncias ociosas no pool. Quando o cluster libera as instâncias no pool, a versão do Databricks Runtime permanece armazenada em cache nessas instâncias. A próxima operação de criação de cluster que usa a mesma versão do Databricks Runtime pode se beneficiar desse comportamento de cache, mas não é garantida.

Imagem do Docker pré-carregada

As imagens do Docker são suportadas com pools se você usar a API de Pools de Instâncias para criar o pool.

Tags de piscina

As tags de pool permitem que você monitore facilmente o custo dos recursos de nuvem usados por vários grupos em sua organização. Você pode especificar tags como pares chave-valor ao criar um pool, e o Azure Databricks aplica essas tags a recursos de nuvem, como VMs e volumes de disco, bem como relatórios de uso de DBU.

Por conveniência, o Azure Databricks aplica três marcas padrão a cada pool: Vendor, DatabricksInstancePoolIde DatabricksInstancePoolCreatorId. Você também pode adicionar tags personalizadas ao criar um pool. Você pode adicionar até 41 tags personalizadas.

Tags personalizadas

Para adicionar tags adicionais ao pool, navegue até a guia Guias na parte inferior da página Criar pool . Clique no botão + Adicionar e insira o par chave-valor.

Os clusters apoiados por pool herdam marcas padrão e personalizadas da configuração do pool. Para obter informações detalhadas sobre como as tags de pool e as tags de cluster funcionam juntas, consulte Monitorar o uso usando tags.

Dimensionamento automático do armazenamento local

Muitas vezes, pode ser difícil estimar quanto espaço em disco um determinado trabalho ocupará. Para evitar que você precise estimar quantos gigabytes de disco gerenciado anexar ao seu pool no momento da criação, o Azure Databricks habilita automaticamente o dimensionamento automático do armazenamento local em todos os pools do Azure Databricks.

Com o dimensionamento automático do armazenamento local, o Azure Databricks monitora a quantidade de espaço livre em disco disponível nas instâncias do seu pool. Se uma instância estiver muito baixa no disco, um novo disco gerenciado será anexado automaticamente antes de ficar sem espaço em disco. Os discos são conectados até um limite de 5 TB de espaço total em disco por máquina virtual (incluindo o armazenamento local inicial da máquina virtual).

Os discos gerenciados anexados a uma máquina virtual são desanexados somente quando a máquina virtual é retornada ao Azure. Ou seja, os discos gerenciados nunca são desanexados de uma máquina virtual, desde que ela faça parte de um pool.

Instâncias spot

Para economizar custos, você pode optar por usar instâncias spot marcando o botão de opção Todos os spots .

Os clusters no pool serão iniciados com instâncias spot para todos os nós, driver e trabalhador (em oposição ao driver sob demanda híbrido e aos trabalhadores de instância spot para clusters que não são do pool).

Se as instâncias spot forem removidas devido à indisponibilidade, as instâncias sob demanda não substituirão as instâncias removidas.