Compartilhar via


Fabric Runtime 2.0 (versão prévia)

Importante

Esse recurso está na versão prévia.

O Fabric Runtime oferece integração perfeita no ecossistema do Microsoft Fabric, oferecendo um ambiente robusto para projetos de engenharia de dados e ciência de dados alimentados pelo Apache Spark.

Este artigo apresenta o Fabric Runtime 2.0 Public Preview, o runtime mais recente projetado para cálculos de Big Data no Microsoft Fabric. Ele destaca os principais recursos e componentes que fazem desta versão um passo significativo para análise escalonável e cargas de trabalho avançadas.

O Fabric Runtime 2.0 incorpora os seguintes componentes e atualizações projetados para aprimorar seus recursos de processamento de dados:

  • Apache Spark 4.0
  • Sistema operacional: Azure Linux 3.0 (Mariner 3.0)
  • Java: 21
  • Scala: 2.13
  • Python: 3.12
  • Delta Lake: 4.0
  • R: 4.5.2

Dica

O Fabric Runtime 2.0 inclui suporte para o Mecanismo de Execução Nativa, que pode melhorar significativamente o desempenho sem mais custos. Você pode habilitar o mecanismo de execução nativo no nível do ambiente para que todos os trabalhos e notebooks herdem automaticamente os recursos de desempenho aprimorados.

Habilitar o Runtime 2.0

Você pode habilitar o Runtime 2.0 no nível do workspace ou no nível do item de ambiente. Use a configuração do workspace para aplicar o Runtime 2.0 como o padrão para todas as cargas de trabalho do Spark em seu workspace. Como alternativa, crie um item de ambiente com o Runtime 2.0 para usar com notebooks específicos ou definições de trabalho do Spark, o que substitui o padrão do workspace.

Habilitar o Runtime 2.0 nas configurações do Workspace

Para definir o Runtime 2.0 como o padrão para todo o workspace:

  1. Navegue até a página de configurações do Workspace no workspace do Fabric.

    Captura de tela mostrando onde selecionar a versão do runtime para as configurações do Workspace.

  2. Selecione a guia Engenharia de Dados/Ciência e selecione as configurações do Spark.

  3. Selecione a guia Ambiente.

  4. Na lista suspensa versão do Runtime, selecione 2.0 Visualização Pública (Spark 4.0, Delta 4.0) e salve as alterações.

  5. O runtime 2.0 é definido como o runtime padrão para seu workspace.

Habilitar o Runtime 2.0 em um item de Ambiente

Para usar o Runtime 2.0 com notebooks específicos ou definições de trabalho do Spark:

  1. Crie um novo item de Ambiente ou abra um existente.

  2. Na lista suspensa Runtime, selecione 2.0 Visualização Pública (Spark 4.0, Delta 4.0)Save e Publish suas alterações.

    Captura de tela mostrando onde selecionar a versão do runtime para o item Ambiente.

  3. Em seguida, você pode usar este item de Ambiente com o seu Notebook ou Spark Job Definition.

Agora você pode começar a experimentar as melhorias e funcionalidades mais recentes introduzidas no Fabric Runtime 2.0 (Spark 4.0 e Delta Lake 4.0).

Observação

O protocolo WASB para contas de Armazenamento do Azure de Uso Geral v2 (GPv2) foi preterido. Em vez disso, você deve usar o protocolo ABFS mais recente para ler e gravar em contas de armazenamento GPv2.

Versão prévia pública

O estágio de visualização pública do Fabric Runtime 2.0 fornece acesso a novos recursos e APIs do Spark 4.0 e do Delta Lake 4.0. A versão prévia permite que você use os aprimoramentos mais recentes baseados em Spark e Delta imediatamente, assegurando também uma preparação e transição suaves para mudanças melhoradas e aprimoradas, como as versões mais recentes do Java, Scala e Python.

Dica

Para obter informações atualizadas, uma lista detalhada de alterações e as notas de versão específicas dos runtimes do Fabric, verifique e inscreva-se em Versões e Atualizações de Runtimes do Spark.

Principais destaques

Apache Spark 4.0

O Apache Spark 4.0 marca um marco significativo como o lançamento inaugural na série 4.x, incorporando o esforço coletivo da vibrante comunidade de software livre.

Nesta versão, o SPARK SQL é significativamente enriquecido com novos recursos avançados projetados para aumentar a expressividade e a versatilidade para cargas de trabalho SQL, como suporte a tipo de dados VARIANT, funções definidas pelo usuário do SQL, variáveis de sessão, sintaxe de pipe e ordenação de cadeia de caracteres. PySpark demonstra dedicação contínua à sua área de funcionalidade e à experiência geral do desenvolvedor, trazendo uma API de plotagem nativa, uma nova API de Fonte de Dados em Python, suporte para UDTFs do Python e criação de perfil unificada para UDFs do PySpark, juntamente com vários outros aprimoramentos. O Streaming Estruturado evolui com as principais adições que fornecem maior controle e facilidade de depuração, notadamente a introdução da API de Estado Arbitrário v2 para um gerenciamento de estado mais flexível e a Fonte de Dados de Estado para facilitar a depuração.

Você pode conferir a lista completa e as mudanças detalhadas aqui: https://spark.apache.org/releases/spark-release-4-0-0.html.

Observação

No Spark 4.0, o SparkR foi preterido e pode ser removido em uma versão futura.

Delta Lake 4.0

Delta Lake 4.0 marca um compromisso coletivo de tornar o Delta Lake interoperável entre formatos, mais fácil de trabalhar e com mais desempenho. O Delta 4.0 é um lançamento marco repleto de novos recursos avançados, otimizações de desempenho e aprimoramentos fundamentais para o futuro dos lakehouses de dados abertos.

Você pode verificar a lista completa e as alterações detalhadas introduzidas com o Delta Lake 3.3 e 4.0 aqui: https://github.com/delta-io/delta/releases/tag/v3.3.0. https://github.com/delta-io/delta/releases/tag/v4.0.0.

Importante

Os recursos específicos do Delta Lake 4.0 são experimentais e funcionam apenas em experiências do Spark, como Notebooks e Definições de Trabalho do Spark. Se você precisar usar as mesmas tabelas delta lake em várias cargas de trabalho do Microsoft Fabric, não habilite esses recursos. Para saber mais sobre quais versões de protocolo e recursos são compatíveis em todas as experiências do Microsoft Fabric, leia Interoperabilidade do Formato de Tabela Delta Lake.