O que é a computação do Apache Spark no Microsoft Fabric?

Aplica-se a:✅ Engenharia e Ciência de Dados no Microsoft Fabric

As experiências de engenharia de dados e ciência de dados do Microsoft Fabric operam em uma plataforma de computação do Apache Spark totalmente gerenciada. Essa plataforma foi projetada para fornecer velocidade e eficiência incomparáveis. Com os pools iniciais, você pode esperar a inicialização rápida da sessão do Apache Spark, normalmente dentro de 5 a 10 segundos, e nenhuma necessidade de configuração manual. Além disso, você obtém a flexibilidade de personalizar os pools do Apache Spark de acordo com os requisitos específicos de engenharia de dados e ciência de dados. A plataforma permite uma experiência de análise otimizada e personalizada. Em suma, um pool inicial é uma maneira rápida de usar o Spark pré-configurado, enquanto um pool do Spark oferece personalização e flexibilidade.

Pools iniciais

Os pools iniciais são uma maneira rápida e fácil de usar o Spark na plataforma do Microsoft Fabric em segundos. Você pode usar as sessões do Spark imediatamente, em vez de esperar que o Spark configure os nós para você, o que ajuda você a fazer mais com os dados e obter insights mais rapidamente.

Os pools de início têm clusters do Apache Spark com sessões sempre ativas e prontas para suas solicitações. Eles usam nós médios que escalam verticalmente dinamicamente com base nas suas necessidades de trabalho do Spark.

Quando você usa um Pool de Início sem nenhuma dependência de biblioteca extra ou propriedades personalizadas do Spark, sua sessão normalmente começa em 5 a 10 segundos. Essa inicialização rápida é possível porque o cluster já está em execução e não requer tempo de provisionamento.

Observação

Os pools iniciais têm suporte apenas para tamanhos médios de nó e selecionar quaisquer outros tamanhos de nó ou personalizar configurações de computação resultará em uma experiência de início de sessão sob demanda que pode levar de 2 a 5 minutos

No entanto, há vários cenários em que sua sessão pode levar mais tempo para começar:

Você tem bibliotecas personalizadas ou propriedades do Spark
Se você tiver configurado bibliotecas ou configurações personalizadas em seu ambiente, o Spark precisará personalizar a sessão depois que ela for criada. Esse processo pode adicionar cerca de 30 segundos a 5 minutos ao tempo de inicialização, dependendo do número e do tamanho das dependências da biblioteca.
Os Pools Iniciais na sua região estão totalmente usados
Em casos raros, os Pools Iniciais de uma região podem estar temporariamente esgotados devido ao alto tráfego. Quando isso acontece, o Fabric cria um novo cluster para acomodar sua solicitação, o que leva cerca de 2 a 5 minutos. Depois que o novo cluster estiver disponível, sua sessão será iniciada. Se você também tiver bibliotecas personalizadas para instalar, precisará adicionar os 30 segundos adicionais a 5 minutos necessários para personalização.
Recursos avançados de rede ou segurança (Links Privados ou VNets Gerenciadas)
Quando o workspace tiver recursos de rede, como Links Privados do Locatário ou VNets Gerenciadas, os Pools Iniciais não terão suporte. Nessa situação, o Fabric deve criar um cluster sob demanda, o que adiciona de 2 a 5 minutos à hora de início da sessão. Se você também tiver dependências de biblioteca, essa etapa de personalização poderá adicionar novamente mais 30 segundos a 5 minutos.

Aqui estão alguns cenários de exemplo para ilustrar possíveis horários de início:

Cenário	Hora típica de inicialização
Configurações padrão, sem bibliotecas	5 a 10 segundos
Configurações padrão + dependências de biblioteca	5 – 10 segundos + 30 segundos – 5 minutos (para instalação da biblioteca)
Tráfego alto na região, sem bibliotecas	2 a 5 minutos
Tráfego alto + dependências de biblioteca	2 – 5 minutos + 30 segundos – 5 minutos (para bibliotecas)
Segurança de rede (Links Privados/VNet), sem bibliotecas	2 a 5 minutos
Segurança de rede + dependências de biblioteca	2 – 5 minutos + 30 segundos – 5 minutos (para bibliotecas)

Quando se trata de cobrança e consumo de capacidade, a cobrança é feita pelo consumo de capacidade ao começar a executar o Notebook ou a definição de trabalho do Apache Spark. Você não será cobrado pelo tempo em que os clusters estiverem ociosos no pool.

Por exemplo, se você enviar um trabalho de notebook para um pool inicial, será cobrado apenas pelo período em que a sessão do notebook estiver ativa. O tempo cobrado não inclui o tempo ocioso ou o tempo necessário para personalizar a sessão com o contexto do Spark. Para saber mais, veja como configurar pools iniciais no Fabric.

Pools do Spark

Um pool do Spark é uma maneira de dizer ao Spark que tipo de recursos você precisa para suas tarefas de análise de dados. Você pode dar um nome ao pool do Spark e escolher quantos e quão grandes são os nós (os computadores que fazem o trabalho). Você também pode informar ao Spark como ajustar o número de nós, dependendo de quanto trabalho você tem. A criação de um pool do Spark é gratuita; você só paga quando executa um trabalho do Spark no pool e, em seguida, o Spark configura os nós para você.

Se você não usar o pool do Spark por dois minutos após a expiração da sessão, o pool do Spark será desalocado. Esse período de tempo de expiração de sessão padrão é definido como 20 minutos e você pode alterá-lo se desejar. Se você for um administrador de workspace, também poderá criar pools personalizados do Spark para seu workspace e torná-los a opção padrão para outros usuários. Dessa forma, você pode economizar tempo e evitar configurar um novo pool do Spark sempre que executar um notebook ou um trabalho do Spark. Os pools personalizados do Spark levam cerca de três minutos para serem iniciados, pois o Spark precisa obter os nós do Azure.

Você pode até mesmo criar Pools do Spark de nó único, definindo o número mínimo de nós como 1, nesse caso, o driver e o executor seriam executados em um único nó que vem com HA restaurável e é adequado para cargas de trabalho pequenas.

O tamanho e o número de nós que você pode ter em seu pool personalizado do Spark depende da capacidade do Microsoft Fabric. A capacidade é uma medida de quanto poder de computação você pode usar no Azure. Uma maneira de pensar nisso é que dois VCores do Apache Spark (uma unidade de potência de computação do Spark) são iguais a uma unidade de capacidade.

Observação

No Apache Spark, os usuários obtêm dois VCores do Apache Spark para cada unidade de capacidade que reservam como parte de seu SKU. Uma unidade de capacidade = dois VCores Spark, então F64 => 128 VCores Spark, sobre os quais é aplicado um multiplicador de intermitência de 3x, resultando em um total de 384 VCores Spark

Por exemplo, um SKU F64 de capacidade do Fabric tem 64 unidades de capacidade, o que equivale a 384 VCores do Spark (64 * 2 * multiplicador de intermitência 3X). Você pode usar esses VCores do Spark para criar nós de tamanhos diferentes no seu Pool do Spark personalizado, desde que o número total de VCores do Spark não exceda 384.

A cobrança de pools do Spark é semelhante à dos pools iniciais em que você não paga pelos pools personalizados do Spark criados, a menos que tenha uma sessão ativa do Spark criada para executar uma definição de trabalho do Spark ou notebook. Você só é cobrado pela duração das execuções do trabalho. Você não é cobrado por estágios como a criação e a desalocação do cluster após a conclusão do trabalho.

Por exemplo, se você enviar um trabalho de notebook para um pool personalizado do Spark, será cobrado apenas pelo período de tempo em que a sessão estiver ativa. A cobrança dessa sessão do notebook é interrompida depois que a sessão do Spark for interrompida ou expirada. Você não será cobrado pelo tempo necessário para adquirir instâncias de cluster da nuvem e pelo tempo necessário para inicializar o contexto do Spark.

Possíveis configurações de pool personalizado para F64 com base no exemplo anterior. Tamanhos de nó menores têm capacidade distribuída por mais nós, portanto, o número máximo de nós é maior. Enquanto nós maiores são ricos em recursos, portanto, menos nós são necessários:

SKU de capacidade do Fabric	Unidades de capacidade	Máx. de VCores Spark com fator de disparo contínuo	Tamanho do nó	Número máximo de nós
F64	64	384	Pequeno	96
F64	64	384	Médio	48
F64	64	384	Grande	24
F64	64	384	Extragrande	12
F64	64	384	XX-Grande	6

Observação

Para criar pools personalizados, você precisa de permissões de administrador para o workspace. E o administrador de capacidade do Microsoft Fabric deve conceder permissões para permitir que os administradores do workspace dimensionem seus pools personalizados do Spark. Para saber mais, confira Introdução aos pools personalizados do Spark no Fabric.

Nós

A instância do Pool do Apache Spark consiste em um nó de cabeçalho e dois ou mais nós de trabalho com um mínimo de três nós em uma instância do Spark. O nó de cabeçalho executa serviços de gerenciamento extras, como Livy, Yarn Resource Manager, Zookeeper e o driver do Apache Spark. Todos os nós executam serviços como o Node Agent e o Gerenciador de nó do Yarn. Todos os nós de trabalho executam o serviço de executor do Apache Spark.

Observação

No Fabric, a proporção de nós para executores é sempre 1:1. Quando você configura um pool, um nó é dedicado ao driver e os nós restantes são usados para os executores. A única exceção está em uma configuração de nó único, em que os recursos para o driver e o executor são reduzidos pela metade.

Tamanhos dos nós

Um pool Spark pode ser definido com tamanhos de nó que variam de um pequeno nó de computação (com 4 vCore e 32 GB de memória) a um nó de computação extragrande duplo (com 64 vCore e 512 GB de memória por nó). Os tamanhos de nó podem ser alterados após a criação do pool, embora a instância precise ser reiniciada.

Tamanho	vCore	Memória
Pequeno	4	32 GB
Médio	oito	64 GB
Grande	16	128 GB
Extragrande	32	256 GB
XX-Grande	64	512 GB

Observação

Os tamanhos de nós X-Large e XX-Large só são permitidos para SKUs do Fabric que não sejam de avaliação.

Escalonamento automático

O dimensionamento automático para pools do Apache Spark permite escalar e reduzir verticalmente de modo automático os recursos de computação com base na quantidade de atividade. Quando a funcionalidade de dimensionamento automático estiver habilitada, defina o número mínimo e máximo de nós a serem dimensionados. Quando o recurso de dimensionamento automático estiver desabilitado, o número de nós definido permanecerá fixo. Você pode alterar essa configuração após a criação do pool, embora talvez seja necessário reiniciar a instância.

Observação

Por padrão, spark.yarn.executor.decommission.enabled é definido como true, permitindo o desligamento automático de nós subutilizados para otimizar a eficiência da computação. Se a redução de escala menos agressiva for preferida, essa configuração pode ser definida como false

Alocação dinâmica

A alocação dinâmica permite que o aplicativo Apache Spark solicite mais executores se as tarefas excederem a carga que os executores atuais podem suportar. Ela também libera os executores quando os trabalhos são concluídos e se o aplicativo Spark está se movendo para o estado ocioso. Os usuários corporativos geralmente têm dificuldade em ajustar as configurações do executor porque são muito diferentes em diferentes estágios de um processo de execução de trabalho do Spark. Essas configurações também dependem do volume de dados processados, que muda de tempos em tempos. Os usuários podem habilitar a opção alocação dinâmica de executores como parte da configuração do pool, o que habilitaria a alocação automática de executores para o aplicativo do Spark com base nos nós disponíveis no Pool do Spark.

Ao habilitar as opções de alocação dinâmica para cada um dos aplicativos Spark enviados, o sistema reserva executores durante a etapa de envio do trabalho com base no número mínimo de nós. Os usuários especificam o máximo de nós para dar suporte a cenários de dimensionamento automático bem-sucedidos.

Comentários

Esta página foi útil?

Last updated on 2025-07-03

Compartilhar via

O que é a computação do Apache Spark no Microsoft Fabric?

Pools iniciais

Pools do Spark

Nós

Tamanhos dos nós

Escalonamento automático

Alocação dinâmica

Conteúdo relacionado

Comentários

Recursos adicionais