Ambientes de execução do Apache Spark no Fabric

O Microsoft Fabric Runtime é uma plataforma integrada ao Azure baseada no Apache Spark que permite a execução e o gerenciamento de experiências de engenharia de dados e ciência de dados. Ele combina os principais componentes de fontes internas e de software livre, fornecendo aos clientes uma solução abrangente. Para simplificar, nós nos referimos ao Microsoft Fabric Runtime da plataforma Apache Spark como Fabric Runtime.

Principais componentes do Fabric Runtime:

Apache Spark – Uma poderosa biblioteca de computação distribuída de código aberto que habilita tarefas de processamento e análise de dados em larga escala. O Apache Spark fornece uma plataforma versátil e de alto desempenho para experiências de engenharia de dados e ciência de dados.
Delta Lake – uma camada de armazenamento de software livre que traz transações ACID e outros recursos de confiabilidade de dados para o Apache Spark. Integrado no Microsoft Fabric Runtime, o Delta Lake aprimora os recursos de processamento de dados e garante a consistência dos dados em várias operações simultâneas.
O Mecanismo de Execução Nativo é um aprimoramento transformador para cargas de trabalho do Apache Spark, oferecendo ganhos de desempenho significativos ao executar consultas Spark diretamente na infraestrutura do lakehouse. Integrado de forma transparente, não requer alterações no código e evita a dependência de fornecedor, com suporte aos formatos Parquet e Delta nas APIs do Apache Spark no Runtime 1.3 (Spark 3.5) e no Runtime 2.0 (Spark 4.1).

Os operadores com suporte são transferidos do Spark baseado em JVM para um caminho de execução vetorizado em C++ por meio do Apache Gluten e do Velox, fornecendo processamento columnar acelerado por SIMD com suporte nativo para os formatos Parquet e Delta. Quando não há suporte para um operador, a execução volta automaticamente para o Spark baseado em JVM. Em testes comparativos representativos (TPC-DS no fator de escala 1000 usando o Delta), o mecanismo obteve um desempenho até seis vezes mais rápido em comparação com o Spark de software livre, traduzindo em uma economia de custo de computação de aproximadamente 83% em um cluster Fabric de tamanho fixo.

O caminho nativo preserva as otimizações de consulta do Fabric Spark, incluindo execução de consulta adaptável, regravações baseadas em custo, poda de coluna e pushdown de predicado. Você pode alternar a execução nativa por aplicativo usando a spark.native.enabled configuração. Durante a execução da célula do notebook, o Assistente do Spark do Fabric exibe alertas em tempo real quando a execução volta ao Spark baseado em JVM, ajudando você a diagnosticar quando a transferência nativa não é aplicada.
Pacotes de nível padrão para Java/Scala, Python e R – Pacotes que dão suporte a diversos ambientes e linguagens de programação. Esses pacotes são instalados e configurados automaticamente, permitindo que os desenvolvedores apliquem suas linguagens de programação preferenciais para tarefas de processamento de dados.
O Microsoft Fabric Runtime é criado com base em um sistema operacional de software livre robusto, garantindo compatibilidade com várias configurações de hardware e requisitos do sistema.

Abaixo, você pode conferir uma comparação abrangente entre os principais componentes, incluindo versões do Apache Spark, sistemas operacionais com suporte, Java, Scala, Python, Delta Lake e R, para runtimes baseados no Apache Spark dentro da plataforma Microsoft Fabric.

Dica

Sempre use a versão de runtime mais recente e geralmente disponível (GA) para sua carga de trabalho de produção, que atualmente é o Runtime 1.3.

Componente	Runtime 1.3	Runtime 2.0
Fase de lançamento	GA	Visualização Pública
Versão do Apache Spark	3.5.5	4.1
Sistema operacional	Mariner 2.0	Mariner 3.0
Versão do Java	11	21
Versão do Scala	2.12.17	2.13.16
Versão do Python	3.11	3.13
Versão do Delta Lake	3.2	4.2

Visite o Runtime 1.3 ou o Runtime 2.0 para explorar detalhes, novos recursos, melhorias e cenários de migração para a versão de runtime específica.

Otimizações do Fabric

No Microsoft Fabric, tanto o mecanismo Spark quanto as implementações do Delta Lake incorporam otimizações e recursos específicos da plataforma. Esses recursos são projetados para usar integrações nativas na plataforma. É importante observar que todos esses recursos podem ser desabilitados para alcançar a funcionalidade padrão do Spark e do Delta Lake. Os Runtimes do Fabric para Apache Spark abrangem:

A versão de software livre completa do Apache Spark.
Uma coleção de quase 100 aprimoramentos de desempenho de consulta embutidos e exclusivos. Esses aprimoramentos incluem recursos como cache de partição (habilitando o cache de partição do FileSystem para reduzir chamadas ao metastore) e Cross Join para Projeção da Subconsulta Escalar.
Cache inteligente integrado.

Dentro do Runtime do Fabric para Apache Spark e Delta Lake, existem capacidades nativas de escrita que atendem a duas finalidades principais:

Eles oferecem desempenho diferenciado para cargas de trabalho de gravação, otimizando o processo de gravação.
Eles adotam a otimização padrão V-Order para arquivos Delta Parquet. A otimização de V-Order do Delta Lake é crucial para fornecer desempenho de leitura superior em todos os mecanismos do Fabric. Para obter uma compreensão mais profunda de como ele opera e como gerenciá-lo, consulte o artigo dedicado sobre Otimização de tabela Delta Lake e V-Order.

Suporte a vários runtimes

O Fabric dá suporte a vários runtimes, oferecendo aos usuários a flexibilidade para alternar perfeitamente entre eles, minimizando o risco de incompatibilidades ou interrupções.

Por padrão, todos os novos workspaces usam a versão mais recente do runtime de GA, que atualmente é o Runtime 1.3.

Para alterar a versão do runtime no nível do workspace, acesse Configurações do Workspace>Engenharia/Ciência de Dados>Configurações do Spark. Na guia Ambiente, selecione a versão do runtime desejada nas opções disponíveis. Selecione Salvar para confirmar sua seleção.

Depois de fazer essa alteração, todos os itens criados pelo sistema no espaço de trabalho, incluindo Lakehouses, SJDs e Notebooks, funcionarão usando a versão de runtime selecionada para o nível do espaço de trabalho a partir da próxima Sessão Spark. Se você estiver usando um notebook com uma sessão existente para um trabalho ou qualquer atividade relacionada ao lakehouse, aquela sessão do Spark continuará inalterada. No entanto, a partir da próxima sessão ou trabalho, a versão de runtime selecionada será aplicada.

Além disso, para alterar o tempo de execução no nível do Environment item, crie um novo item de Ambiente ou abra um existente; na lista suspensa Runtime, selecione a versão desejada de tempo de execução nas opções disponíveis, execute Save e depois Publish suas alterações. Em seguida, você pode usar este Environment item com o seu Notebook ou Spark Job Definition.

Consequências das alterações de runtime nas Configurações do Spark

Em geral, pretendemos migrar todas as configurações do Spark. No entanto, se identificarmos que a configuração do Spark não é compatível com o Runtime B, emitimos uma mensagem de aviso e evitamos implementar a configuração.

Consequências das alterações de runtime no gerenciamento de bibliotecas

Em geral, nossa abordagem é migrar todas as bibliotecas do Runtime A para o Runtime B, incluindo runtimes públicos e personalizados. Se as versões do Python e do R permanecerem inalteradas, as bibliotecas deverão funcionar corretamente. No entanto, para Jars, há uma probabilidade significativa de que eles não funcionem devido a alterações nas dependências e outros fatores, como alterações no Scala, Java, Spark e no sistema operacional.

O usuário é responsável por atualizar ou substituir as bibliotecas que não funcionam com o Runtime B. Se houver um conflito, o que significa que o Runtime B inclui uma biblioteca originalmente definida no Runtime A, nosso sistema de gerenciamento de biblioteca tenta criar a dependência necessária para o Runtime B com base nas configurações do usuário. No entanto, o processo de construção falhará se ocorrer um conflito. No log de erros, os usuários podem observar quais bibliotecas estão causando conflitos e fazer ajustes em suas versões ou especificações.

Atualizar o protocolo Delta Lake

Os recursos do Delta Lake são sempre compatíveis com versões anteriores, garantindo que as tabelas criadas em uma versão inferior do Delta Lake possam interagir perfeitamente com versões mais altas. No entanto, quando determinados recursos são habilitados (por exemplo, usando o método delta.upgradeTableProtocol(minReaderVersion, minWriterVersion)), a compatibilidade com versões inferiores do Delta Lake pode ser comprometida. Nesses casos, é essencial modificar cargas de trabalho que fazem referência às tabelas atualizadas para se alinharem a uma versão do Delta Lake que mantenha a compatibilidade.

Cada tabela Delta está associada a uma especificação de protocolo, definindo os recursos compatíveis. Os aplicativos que interagem com a tabela, para leitura ou gravação, dependem dessa especificação de protocolo para determinar se são compatíveis com o conjunto de recursos da tabela. Se um aplicativo não tiver a capacidade de lidar com um recurso listado como compatível com o protocolo da tabela, ele não poderá ler ou gravar nessa tabela.

A especificação do protocolo é dividida em dois componentes distintos: o protocolo de "leitura" e o protocolo de "gravação". Para obter mais informações, visite a página "Como o Delta Lake gerencia a compatibilidade de recursos?".

Os usuários podem executar o comando delta.upgradeTableProtocol(minReaderVersion, minWriterVersion) dentro do ambiente do PySpark e no Spark SQL e Scala. Esse comando permite que eles iniciem uma atualização na tabela Delta.

É essencial observar que, ao executar essa atualização, os usuários recebem um aviso indicando que atualizar para uma versão superior do protocolo Delta é um processo irreversível. Isso significa que, depois que a atualização é executada, ela não pode ser desfeita.

As atualizações de versão do protocolo podem afetar potencialmente a compatibilidade de leitores de tabela, gravadores ou ambos existentes do Delta Lake. Portanto, é aconselhável continuar com cuidado e atualizar a versão do protocolo somente quando necessário, como ao adotar novos recursos no Delta Lake.

Importante

Para saber mais sobre quais versões de protocolo e recursos são compatíveis em todas as experiências do Microsoft Fabric, leia Interoperabilidade do Formato de Tabela Delta Lake.

Além disso, os usuários devem verificar se todas as cargas de trabalho e processos de produção atuais e futuros são compatíveis com tabelas delta lake usando a nova versão de protocolo para garantir uma transição perfeita e evitar possíveis interrupções.

Comentários

Esta página foi útil?

Last updated on 2026-04-24