Modo de alta simultaneidade no Apache Spark para o Fabric

O modo de alta simultaneidade permite que cargas de trabalho do Spark compatíveis compartilhem uma sessão do Spark em execução em vez de iniciar uma sessão separada para cada carga de trabalho. Esse modo geralmente é usado para cenários de notebook e pipeline no Fabric.

Este artigo ajuda você a entender:

Qual é o modo de alta simultaneidade e quando usá-lo.
Requisitos para compartilhamento de sessão.
Como a cobrança funciona para sessões compartilhadas.

No modo padrão, cada atividade de notebook ou pipeline inicia sua própria sessão do Spark. No modo de alta simultaneidade, um aplicativo Spark hospeda várias cargas de trabalho, atribuindo a cada uma delas seu próprio núcleo REPL (loop de leitura-avaliação-impressão). Cada núcleo REPL isola o estado de execução, de modo que as variáveis locais em uma carga de trabalho não substituam variáveis em outra carga de trabalho.

Como a sessão compartilhada já está em execução, as cargas de trabalho subsequentes podem começar muito mais rapidamente.

Observação

Para pools personalizados com modo de alta simultaneidade, o início da sessão pode ser até 36x mais rápido do que uma sessão do Spark padrão.

Principais funcionalidades

O diagrama realça três características principais do modo de alta simultaneidade:

Segurança: o compartilhamento de sessão permanece dentro de um limite de usuário único.
Multitarefa: você pode alternar entre notebooks e continuar o trabalho sem esperar que uma nova sessão do Spark seja criada ou inicializada.
Eficiência de custo: as sessões compartilhadas melhoram a utilização de recursos e reduzem o custo de computação para cargas de trabalho de engenharia de dados e ciência de dados.

O compartilhamento de sessão se aplica quando essas condições são atendidas:

As sessões estão dentro de um limite de usuário único.
As sessões usam a mesma configuração padrão do Lakehouse.
As sessões usam as mesmas configurações de computação do Spark.

Se algum requisito for diferente, o Fabric iniciará uma sessão separada do Spark.

Durante a inicialização da sessão, o Fabric cria um núcleo REPL. À medida que novas cargas de trabalho ingressam na sessão compartilhada, os executores são alocados usando o agendamento FAIR entre esses núcleos de REPL para reduzir o risco de fome.

Comportamento de cobrança

Quando você usa o modo de alta simultaneidade, somente a atividade de início do notebook ou do pipeline que inicia o aplicativo Spark compartilhado é cobrada. As sessões subsequentes que compartilham a mesma sessão do Spark não incorrem em cobrança separada.

Example

Um usuário inicia o Notebook 1, que inicia uma sessão do Spark no modo de alta simultaneidade.
A mesma sessão é compartilhada pelo Bloco de Anotações 2, Bloco de Anotações 3, Bloco de Anotações 4 e Bloco de Anotações 5.
Nesse caso, somente o Notebook 1 é cobrado pela computação do Spark.
Blocos de anotações compartilhados (2 a 5) não são cobrados individualmente.

Esse comportamento também se reflete nas Métricas de Capacidade, onde o uso é relatado em relação ao notebook que iniciou a ação.

Observação

O mesmo comportamento de cobrança se aplica às atividades de pipeline. Somente o notebook ou a atividade que inicia a sessão do Spark é cobrada.

Por padrão, uma sessão de alta simultaneidade dá suporte a até cinco notebooks que compartilham a mesma sessão do Spark. Para cargas de trabalho que exigem densidade de notebooks mais alta, como pipelines paralelos em larga escala ou análises corporativas nos momentos de pico de carga, você pode aumentar esse limite para até 50 notebooks por sessão.

Observação

Essa atualização não altera o limite padrão de cinco. Você deve definir spark.highConcurrency.max explicitamente para aumentá-lo.

Defina o limite de compartilhamento de sessão no item Ambiente que seus notebooks ou notebooks acionados por pipeline usam.

Vá para seu workspace e abra Ambientes.
Selecione o ambiente anexado ao seu notebook ou pipeline.
Abra propriedades do Spark.
Adicione a seguinte propriedade e defina um valor entre 2 e 50:
```
spark.highConcurrency.max = <value>
```
Por exemplo, para permitir até 20 notebooks por sessão:
```
spark.highConcurrency.max = 20
```
Salve e publique o Ambiente.

Todos os notebooks e atividades de pipeline que usam esse Ambiente herdam o limite atualizado automaticamente.

Scenario	Ação recomendada
Pipelines paralelos em larga escala com muitas atividades de notebook	Aumentar `spark.highConcurrency.max` para reduzir a fragmentação da sessão
Cargas de trabalho interativas de pico com muitos usuários simultâneos	Aumentar o limite para melhorar os tempos de aquisição de sessão
Cargas de trabalho sensíveis a custos em que o empacotamento denso reduz os gastos de computação	Ajuste o limite para atender aos requisitos de simultaneidade
Cargas de trabalho com requisitos de isolamento estritos	Manter o limite padrão de 5 ou inferior

O aumento do limite de compartilhamento de sessão permite:

Aquisição de sessão mais rápida durante o pico de carga, reduzindo o tempo de espera para uma nova sessão.
Maior densidade do bloco de anotações sem fragmentação em muitas sessões separadas.
Ajuste dinâmico alinhado à intensidade da carga de trabalho, ao custo e às metas de preço-desempenho.
Melhor eficiência entre custo e desempenho, preservando o isolamento e a imparcialidade entre as tarefas.

Computação do Apache Spark no Microsoft Fabric
Para começar a usar o modo de alta simultaneidade em notebooks, confira Configurar o modo de alta simultaneidade para notebooks do Fabric.
Para obter o comportamento de carregamento e visualização do Lakehouse, consulte Modo de alta concorrência para operações do Lakehouse no Microsoft Fabric.

Comentários

Esta página foi útil?

Last updated on 2026-03-18

Modo de alta simultaneidade no Apache Spark para o Fabric

Principais funcionalidades

Requisitos de compartilhamento de sessão

Comportamento de cobrança

Example

Limite de compartilhamento de sessão dinâmica

Configurar o limite de compartilhamento de sessão

Quando aumentar o limite de compartilhamento de sessão

Conteúdo relacionado

Comentários

Recursos adicionais