Modo de alta simultaneidade no Apache Spark para o Fabric
O modo de alta simultaneidade permite que os usuários compartilhem as mesmas sessões do Spark no Spark para Fabric nas cargas de trabalho da engenharia de dados e ciência de dados. Um item como um notebook utiliza uma sessão padrão do Spark para sua execução. No modo de alta simultaneidade, a sessão Spark pode dar suporte a execução independente de vários itens dentro de núcleos individuais de loop de leitura-avaliação-impressão (REPL) que existem dentro do aplicativo Spark. Esses núcleos REPL fornecem isolamento para cada item e impedem que as variáveis locais do notebook sejam substituídas por variáveis com o mesmo nome de outros notebooks que compartilham a mesma sessão.
Como a sessão já está em execução, isso fornece aos usuários uma experiência de execução instantânea ao reutilizar a sessão em vários notebooks.
Observação
No caso de pools personalizados com modo de alta simultaneidade, os usuários obtêm uma experiência de início de sessão 36 vezes mais rápida em comparação com uma sessão padrão do Spark.
Importante
As condições de compartilhamento de sessão incluem:
- As sessões devem estar dentro de um limite de usuário único.
- As sessões devem ter a mesma configuração padrão de lakehouse.
- As sessões devem ter as mesmas propriedades de computação do Spark.
Como parte da inicialização da sessão do Spark, um núcleo REPL é criado. Toda vez que um novo item começa a compartilhar a mesma sessão e os executores são alocados de maneira baseada em FAIR para esses notebooks em execução nesses núcleos REPL dentro do aplicativo Spark, prevenindo cenários de inanição.
Conteúdo relacionado
- Para começar a usar o modo de alta simultaneidade em notebooks, confira Configurar o modo de alta simultaneidade para notebooks do Fabric.