Como criar pools personalizados do Spark no Microsoft Fabric
Nesse documento, explicamos como criar pools personalizados do Apache Spark no Microsoft Fabric para suas cargas de trabalho de análise. Os pools do Apache Spark permitem que os usuários criem ambientes de computação personalizados com base em seus requisitos específicos, garantindo o desempenho ideal e a utilização de recursos.
Você especifica os nós mínimo e máximo para dimensionamento automático. Com base nesses valores, o sistema adquire e desativa dinamicamente os nós à medida que os requisitos de computação do trabalho mudam, o que resulta em dimensionamento eficiente e melhor desempenho. A alocação dinâmica de executores em Pools do Spark também alivia a necessidade de configuração manual do executor. Em vez disso, o sistema ajusta o número de executores dependendo do volume de dados e das necessidades de computação no nível do trabalho. Esse processo permite que você se concentre em suas cargas de trabalho sem se preocupar com a otimização de desempenho e o gerenciamento de recursos.
Observação
Para criar um pool personalizado do Spark, você precisa de acesso de administrador ao workspace. O administrador de capacidade deve habilitar a opção Pools de workspace personalizados na seção Computação do Spark das Configurações de Capacidade Administração. Para saber mais, confira Configurações de Computação do Spark para Recursos do Fabric.
Criar pools personalizados do Spark
Para criar ou gerenciar o pool do Spark associado ao seu workspace:
Vá para o workspace e selecione Configurações do workspace.
Selecione a opção Engenharia/Ciência de Dados para expandir o menu e, em seguida, selecione Computação do Spark.
Selecione a opção Novo Pool . Na tela Criar Pool, nomeie o pool do Spark. Escolha também a Família do Nó e selecione um Tamanho do nó dos tamanhos disponíveis (Pequeno, Médio, Grande, Extra grande e Super extra grande), com base nos requisitos de computação para suas cargas de trabalho.
Você também pode definir a configuração mínima de nó para seus pools personalizados como 1. Como o Spark do Fabric fornece disponibilidade restaurável para clusters com um único nó, você não precisa se preocupar com falhas de trabalho, perda de sessão durante falhas ou sobre o pagamento em computação para trabalhos menores do Spark.
Você também pode habilitar ou desabilitar o dimensionamento automático para seus Pools do Spark personalizados. Quando o dimensionamento automático estiver habilitado, o pool adquirirá dinamicamente novos nós até o limite máximo de nós especificado pelo usuário e, em seguida, os desativará após a execução do trabalho. Esse recurso garante um melhor desempenho ajustando os recursos com base nos requisitos de trabalho. Você tem permissão para dimensionar os nós, que se ajustam às unidades de capacidade adquiridas como parte do SKU de capacidade do Fabric.
Você também pode optar por habilitar a alocação de executor dinâmico para o pool do Spark, que determina automaticamente o número ideal de executores dentro do limite máximo especificado pelo usuário. Esse recurso ajusta o número de executores com base no volume de dados, resultando em melhor desempenho e utilização de recursos.
Esses pools personalizados têm uma duração de uso automático padrão de 2 minutos. Depois que a duração da pausa automática for atingida, a sessão expirará e os clusters não serão alocados. Você é cobrado com base no número de nós e na duração pela qual os pools personalizados do Spark são usados.
Conteúdo relacionado
- Saiba mais na documentação pública do Spark do Apache.
- Introdução às Configurações de administração do workspace do Spark no Microsoft Fabric.