Partilhar via


Fabric Runtime 2.0 (Pré-visualização)

Importante

Este recurso está em pré-visualização.

O Fabric Runtime proporciona uma integração fluida dentro do ecossistema Microsoft Fabric, proporcionando um ambiente robusto para projetos de engenharia de dados e ciência de dados alimentados pelo Apache Spark.

Este artigo apresenta o Fabric Runtime 2.0 Public Preview, o mais recente runtime concebido para cálculos de big data no Microsoft Fabric. Destaca as principais funcionalidades e componentes que tornam este lançamento um avanço significativo para análises escaláveis e cargas de trabalho avançadas.

O Fabric Runtime 2.0 incorpora os seguintes componentes e atualizações concebidos para melhorar as suas capacidades de processamento de dados:

  • Apache Spark 4.0
  • Sistema operativo: Azure Linux 3.0 (Mariner 3.0)
  • Java: 21
  • Scala: 2.13
  • Python: 3.12
  • Delta Lake: 4.0
  • R: 4.5.2

Sugestão

O Fabric Runtime 2.0 inclui suporte para o Native Execution Engine, que pode melhorar significativamente o desempenho sem custos adicionais. Pode ativar o motor de execução nativo ao nível do ambiente para que todos os trabalhos e notebooks herdem automaticamente as capacidades de desempenho melhoradas.

Ativar o Runtime 2.0

Podes ativar o Runtime 2.0 tanto ao nível do workspace como ao nível do item do ambiente. Usa a definição workspace para aplicar o Runtime 2.0 como padrão para todas as cargas de trabalho do Spark no teu espaço de trabalho. Alternativamente, crie um item de ambiente com Runtime 2.0 para usar com notebooks específicos ou definições de jobs do Spark, substituindo o padrão do workspace.

Ativar o Runtime 2.0 nas definições do Workspace

Para definir o Runtime 2.0 como padrão para todo o seu espaço de trabalho:

  1. Navega para a página de definições do Workspace dentro do teu Fabric Workspace.

    Captura de ecrã que mostra onde selecionar a versão de runtime para as definições do Workspace.

  2. Seleciona o separador Engenharia de Dados/Ciência e depois seleciona as definições do Spark.

  3. Selecione o separador Ambiente.

  4. No menu suspenso Runtime version, selecione Pré-visualização Pública 2.0 (Spark 4.0, Delta 4.0) e salve as suas alterações.

  5. O tempo de execução 2.0 está definido como o tempo de execução padrão para o teu espaço de trabalho.

Ativar o Tempo de Execução 2.0 num item de Ambiente

Para usar o Runtime 2.0 com notebooks específicos ou definições de funções Spark:

  1. Crie um novo item de Ambiente ou abra um existente.

  2. No menu suspenso Runtime , selecione Pré-visualização Pública 2.0 (Spark 4.0, Delta 4.0) e SavePublish as suas alterações.

    Captura de ecrã a mostrar onde selecionar a versão de execução para o item Ambiente.

  3. De seguida, pode usar este item Ambiente com o seu Notebook ou Spark Job Definition.

Agora pode começar a experimentar as mais recentes melhorias e funcionalidades introduzidas no Fabric Runtime 2.0 (Spark 4.0 e Delta Lake 4.0).

Observação

O protocolo WASB para contas Azure Storage de Uso Geral v2 (GPv2) está obsoleto. Deves usar o protocolo ABFS mais recente para ler e escrever em contas de armazenamento GPv2.

Pré-visualização pública

A fase de pré-visualização pública do Fabric Runtime 2.0 dá-lhe acesso a novas funcionalidades e APIs tanto do Spark 4.0 como do Delta Lake 4.0. A pré-visualização permite-lhe utilizar imediatamente as mais recentes melhorias baseadas em Spark e Delta, além de garantir uma prontidão e transição suaves para mudanças mais avançadas, como as versões mais recentes em Java, Scala e Python.

Sugestão

Para obter informações atualizadas, uma lista detalhada de alterações e notas de versão específicas para o runtime do Fabric, verifique e subscreva Spark Runtimes Releases and Updates.

Destaques chave

Apache Spark 4.0

Apache Spark 4.0 marca um marco significativo como o lançamento inaugural da série 4.x, incorporando o esforço coletivo da vibrante comunidade open-source.

Nesta versão, o Spark SQL está significativamente enriquecido com novas funcionalidades poderosas concebidas para aumentar a expressividade e versatilidade para cargas de trabalho SQL, como suporte a tipos de dados VARIANT, funções definidas pelo utilizador SQL, variáveis de sessão, sintaxe de pipe e colação de strings. A PySpark demonstra dedicação contínua tanto à sua amplitude funcional como à experiência global dos programadores, trazendo uma API nativa de ploting, uma nova API de Fonte de Dados em Python, suporte para UDTFs em Python e perfilagem unificada para UDFs PySpark, juntamente com inúmeras outras melhorias. O Structured Streaming evolui com adições chave que proporcionam maior controlo e facilidade de depuração, nomeadamente a introdução da API de Estado Arbitrário v2 para uma gestão de estados mais flexível e da Fonte de Dados de Estado para facilitar a depuração.

Pode consultar a lista completa e as alterações detalhadas aqui: https://spark.apache.org/releases/spark-release-4-0-0.html.

Observação

No Spark 4.0, o SparkR está obsoleto e poderá ser removido numa versão futura.

Delta Lake 4.0

O Delta Lake 4.0 assinala um compromisso coletivo em tornar o Delta Lake interoperável em vários formatos, mais fácil de trabalhar e mais eficiente. O Delta 4.0 é um lançamento marcante repleto de novas funcionalidades poderosas, otimizações de desempenho e melhorias fundamentais para o futuro dos lagos de dados abertos.

Pode consultar a lista completa e as alterações detalhadas introduzidas com Delta Lake 3.3 e 4.0 aqui: https://github.com/delta-io/delta/releases/tag/v3.3.0. https://github.com/delta-io/delta/releases/tag/v4.0.0.

Importante

As funcionalidades específicas do Delta Lake 4.0 são experimentais e funcionam apenas em experiências Spark, como Cadernos e Definições de Funções Spark. Se precisares de usar as mesmas tabelas Delta Lake em várias cargas de trabalho do Microsoft Fabric, não atives essas funcionalidades. Para saber mais sobre quais as versões e funcionalidades dos protocolos são compatíveis em todas as experiências do Microsoft Fabric, leia interoperabilidade do formato de tabela Delta Lake.