Configurações da piscina Apache Spark em Azure Synapse Analytics

Um pool spark é um conjunto de metadados que define os requisitos de recursos computatórios e características de comportamento associadas quando um exemplo de Faísca é instantâneo. Estas características incluem, mas não se limitam ao nome, número de nós, tamanho do nó, comportamento de escala e tempo de vida. Uma piscina de faíscas por si só não consome nenhum recursos. Não há custos incorridos com a criação de piscinas Spark. As cargas só são incorridas quando um trabalho de Spark é executado na piscina de spark alvo e a instância Spark é instantânea a pedido.

Você pode ler como criar uma piscina de faíscas e ver todas as suas propriedades aqui Começar com piscinas Spark em Synapse Analytics

Cálculo Isolado

A opção De Computação Isolada proporciona mais segurança aos recursos de cálculo spark de serviços não fidedquisicos, dedicando o recurso de computação física a um único cliente. A opção de computação isolada é mais adequada para cargas de trabalho que requerem um alto grau de isolamento das cargas de trabalho de outros clientes por razões que incluem o cumprimento dos requisitos de conformidade e regulamentação. A opção Isolar Compute só está disponível com o tamanho do nó XXXLarge (80 vCPU / 504 GB) e só está disponível nas seguintes regiões. A opção de computação isolada pode ser ativada ou desativada após a criação da piscina, embora a instância possa ter de ser reiniciada. Se espera ativar esta funcionalidade no futuro, certifique-se de que o seu espaço de trabalho Synapse é criado numa região isolada suportada por computação.

  • E.U.A. Leste
  • E.U.A. Oeste 2
  • E.U.A. Centro-Sul
  • US Gov - Arizona
  • US Gov - Virginia

Nós

A instância da piscina Apache Spark consiste num nó de cabeça e dois ou mais nós de trabalhador com um mínimo de três nós num exemplo de Faísca. O nó de cabeça tem serviços de gestão extra, como Livy, Yarn Resource Manager, Zookeeper e o motorista da Spark. Todos os nós gerem serviços como o Node Agent e o Yarn Node Manager. Todos os nós operários dirigem o serviço de Executor de Faíscas.

Tamanhos dos nódoas

Uma piscina spark pode ser definida com tamanhos de nó que variam de um nó de computação pequeno com 4 vCore e 32 GB de memória até um nó de computação XXLarge com 64 vCore e 512 GB de memória por nó. Os tamanhos dos nós podem ser alterados após a criação da piscina, embora o caso possa ter de ser reiniciado.

Tamanho vCore Memória
Pequeno 4 32 GB
Médio 8 64 GB
Grande 16 128 GB
XLarge 32 256 GB
XXLarge 64 512 GB
XXX Grande (Computação Isolada) 80 504 GB

Dimensionamento Automático

A autoescala para piscinas Apache Spark permite uma escala automática para cima e para baixo de recursos computacional com base na quantidade de atividade. Quando a função de autoescalação estiver ativada, define o mínimo e o número máximo de nós à escala. Quando a função de autoescalação estiver desativada, o número de nós definidos permanecerá fixo. Esta definição pode ser alterada após a criação da piscina, embora o caso possa ter de ser reiniciado.

Armazenamento elástico da piscina

As piscinas Apache Spark suportam agora o armazenamento elástico da piscina. O armazenamento elástico da piscina permite ao motor Spark monitorizar o armazenamento temporário do nó do trabalhador e anexar discos extras, se necessário. As piscinas Apache Spark utilizam o armazenamento temporário do disco enquanto a piscina é instantânea. Os trabalhos de faísca escrevem saídas de mapas baralhados, baralham dados e derramam dados para discos VM locais. Exemplos de operações que podem utilizar o disco local são classificar, cache e persistir. Quando o espaço temporário do disco VM se esgotar, os trabalhos de faísca podem falhar devido ao erro "out of Disk Space" (java.io.IOExcepção: Não há espaço no dispositivo). Com erros de "out of Disk Space", grande parte do fardo para evitar que os empregos falhem deslocações ao cliente para reconfigurar os postos de trabalho spark (por exemplo, ajustar o número de divisórias) ou clusters (por exemplo, adicionar mais nós ao cluster). Estes erros podem não ser consistentes e o utilizador pode acabar por experimentar fortemente através da execução de trabalhos de produção. Este processo pode ser caro para o utilizador em múltiplas dimensões:

  • Tempo desperdiçado. Os clientes são obrigados a experimentar fortemente com configurações de trabalho através de tentativa e erro e espera-se que compreendam as métricas internas da Spark para tomar a decisão correta.
  • Recursos desperdiçados. Uma vez que os trabalhos de produção podem processar uma quantidade variada de dados, os empregos da Spark podem falhar não deterministicamente se os recursos não forem sobre-abastados. Por exemplo, considere o problema da distorção de dados, o que pode resultar em alguns nós que requerem mais espaço em disco do que outros. Atualmente em Synapse, cada nó em um cluster obtém o mesmo tamanho de espaço em disco e aumentar o espaço do disco em todos os nós não é uma solução ideal e leva a um tremendo desperdício.
  • Abrandamento na execução de emprego. No cenário hipotético em que resolvemos o problema através de nós de autoscalagem (assumindo que os custos não são um problema para o cliente final), adicionar um nó de cálculo ainda é caro (demora alguns minutos) em vez de adicionar armazenamento (demora alguns segundos).

Não é necessária nenhuma ação por si, além de que deverá ver menos falhas de emprego como resultado.

Nota

Azure Synapse armazenamento de piscina elástica está atualmente em Visualização Pública. Durante a visualização pública não há qualquer custo para a utilização de armazenamento de piscina elástica.

Pausa automática

A função de pausa automática liberta recursos após um período de inatividade, reduzindo o custo global de uma piscina Apache Spark. O número de minutos de tempo inativo pode ser definido uma vez que esta função esteja ativada. A função de pausa automática é independente da função de autoescala. Os recursos podem ser interrompidos quer a autoescalação esteja ativada ou desativada. Esta definição pode ser alterada após a criação da piscina, embora as sessões ativas precisem de ser reiniciadas.

Passos seguintes