Como criar pools Spark personalizados no Microsoft Fabric

Artigo
10/25/2023

Neste documento, explicamos como criar pools personalizados do Apache Spark no Microsoft Fabric para suas cargas de trabalho de análise. Os pools do Apache Spark permitem que os usuários criem ambientes de computação personalizados com base em seus requisitos específicos, garantindo o desempenho ideal e a utilização de recursos.

Você especifica os nós mínimo e máximo para dimensionamento automático. Com base nesses valores, o sistema adquire e desativa dinamicamente nós à medida que os requisitos de computação do trabalho mudam, o que resulta em escalabilidade eficiente e melhor desempenho. A alocação dinâmica de executores em pools Spark também alivia a necessidade de configuração manual do executor. Em vez disso, o sistema ajusta o número de executores dependendo do volume de dados e das necessidades de computação no nível do trabalho. Esse processo permite que você se concentre em suas cargas de trabalho sem se preocupar com otimização de desempenho e gerenciamento de recursos.

Nota

Para criar um pool do Spark personalizado, você precisa de acesso de administrador ao espaço de trabalho. O administrador de capacidade deve habilitar a opção Pools de espaços de trabalho personalizados na seção Computação de faísca das configurações do administrador de capacidade. Para saber mais, consulte Configurações de computação do Spark para capacidades de malha.

Criar pools de faíscas personalizados

Para criar ou gerenciar o pool do Spark associado ao seu espaço de trabalho:

Vá para o seu espaço de trabalho e selecione Configurações do espaço de trabalho.
Selecione a opção Data Engineering/Science para expandir o menu e, em seguida, selecione Spark Compute.
Selecione a opção Novo pool . Na tela Criar pool, nomeie seu pool Spark. Escolha também a família de nós e selecione um tamanho de nó entre os tamanhos disponíveis (Pequeno, Médio, Grande, X-Grande e XX-Grande) com base nos requisitos de computação para suas cargas de trabalho.
Você pode definir a configuração mínima do nó para seus pools personalizados como 1. Como o Fabric Spark fornece disponibilidade restaurável para clusters com um único nó, você não precisa se preocupar com falhas de trabalho, perda de sessão durante falhas ou pagamento excessivo em computação para trabalhos menores do Spark.
Você pode habilitar ou desabilitar o dimensionamento automático para seus pools Spark personalizados. Quando o dimensionamento automático estiver habilitado, o pool adquirirá dinamicamente novos nós até o limite máximo de nós especificado pelo usuário e, em seguida, os desativará após a execução do trabalho. Esse recurso garante um melhor desempenho ajustando os recursos com base nos requisitos do trabalho. Você tem permissão para dimensionar os nós, que se encaixam nas unidades de capacidade adquiridas como parte da SKU de capacidade de malha.
Você também pode optar por habilitar a alocação dinâmica de executores para seu pool do Spark, que determina automaticamente o número ideal de executores dentro do limite máximo especificado pelo usuário. Esse recurso ajusta o número de executores com base no volume de dados, resultando em melhor desempenho e utilização de recursos.

Esses pools personalizados têm uma duração de pausa automática padrão de 2 minutos. Quando a duração da pausa automática é atingida, a sessão expira e os clusters não são alocados. Você é cobrado com base no número de nós e na duração durante a qual os pools Spark personalizados são usados.

Saiba mais na documentação pública do Apache Spark.
Introdução às configurações de administração do espaço de trabalho do Spark no Microsoft Fabric.

Partilhar via

Como criar pools Spark personalizados no Microsoft Fabric

Criar pools de faíscas personalizados

Comentários

Recursos adicionais

Partilhar via

Como criar pools Spark personalizados no Microsoft Fabric

Criar pools de faíscas personalizados

Conteúdos relacionados

Comentários

Recursos adicionais