Compartilhar via


Modo de alta simultaneidade no Spark do Fabric

O modo de alta simultaneidade permite que os usuários compartilhem as mesmas sessões do Spark no Spark do Fabric para cargas de trabalho de engenharia de dados e ciência de dados. Um item como um notebook utiliza uma sessão padrão do Spark para sua execução. No modo de alta simultaneidade, a sessão Spark pode dar suporte a execução independente de vários itens dentro de núcleos individuais de loop de leitura-avaliação-impressão (REPL) que existem dentro do aplicativo Spark. Esses núcleos REPL fornecem isolamento para cada item e impedem que as variáveis locais do notebook sejam substituídas por variáveis com o mesmo nome de outros notebooks que compartilham a mesma sessão.

Como a sessão já está em execução, isso fornece aos usuários uma experiência de execução instantânea ao reutilizar a sessão em vários notebooks.

Observação

No caso de pools personalizados com modo de alta simultaneidade, os usuários obtêm uma experiência de início de sessão 36 vezes mais rápida em comparação com uma sessão padrão do Spark.

Diagram showing the working of high concurrency mode in Fabric.

Importante

As condições de compartilhamento de sessão incluem:

  • As sessões devem estar dentro de um limite de usuário único.
  • As sessões devem ter a mesma configuração padrão de lakehouse.
  • As sessões devem ter as mesmas propriedades de computação do Spark.

Como parte da inicialização da sessão do Spark, um núcleo REPL é criado. Toda vez que um novo item começa a compartilhar a mesma sessão e os executores são alocados de maneira baseada em FAIR para esses notebooks em execução nesses núcleos REPL dentro do aplicativo Spark, prevenindo cenários de inanição.