Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Importante
Este recurso está em pré-visualização.
O Fabric Runtime proporciona uma integração fluida dentro do ecossistema Microsoft Fabric, proporcionando um ambiente robusto para projetos de engenharia de dados e ciência de dados alimentados pelo Apache Spark.
Este artigo apresenta o Fabric Runtime 2.0 Public Preview, o mais recente runtime concebido para cálculos de big data no Microsoft Fabric. Destaca as principais funcionalidades e componentes que tornam este lançamento um avanço significativo para análises escaláveis e cargas de trabalho avançadas.
O Fabric Runtime 2.0 incorpora os seguintes componentes e atualizações concebidos para melhorar as suas capacidades de processamento de dados:
- Apache Spark 4.0
- Sistema operativo: Azure Linux 3.0 (Mariner 3.0)
- Java: 21
- Scala: 2.13
- Python: 3.12
- Delta Lake: 4.0
- R: 4.5.2
Sugestão
O Fabric Runtime 2.0 inclui suporte para o Native Execution Engine, que pode melhorar significativamente o desempenho sem custos adicionais. Pode ativar o motor de execução nativo ao nível do ambiente para que todos os trabalhos e notebooks herdem automaticamente as capacidades de desempenho melhoradas.
Ativar o Runtime 2.0
Podes ativar o Runtime 2.0 tanto ao nível do workspace como ao nível do item do ambiente. Usa a definição workspace para aplicar o Runtime 2.0 como padrão para todas as cargas de trabalho do Spark no teu espaço de trabalho. Alternativamente, crie um item de ambiente com Runtime 2.0 para usar com notebooks específicos ou definições de jobs do Spark, substituindo o padrão do workspace.
Ativar o Runtime 2.0 nas definições do Workspace
Para definir o Runtime 2.0 como padrão para todo o seu espaço de trabalho:
Navega para a página de definições do Workspace dentro do teu Fabric Workspace.
Seleciona o separador Engenharia de Dados/Ciência e depois seleciona as definições do Spark.
Selecione o separador Ambiente.
No menu suspenso Runtime version, selecione Pré-visualização Pública 2.0 (Spark 4.0, Delta 4.0) e salve as suas alterações.
O tempo de execução 2.0 está definido como o tempo de execução padrão para o teu espaço de trabalho.
Ativar o Tempo de Execução 2.0 num item de Ambiente
Para usar o Runtime 2.0 com notebooks específicos ou definições de funções Spark:
Crie um novo item de Ambiente ou abra um existente.
No menu suspenso Runtime , selecione Pré-visualização Pública 2.0 (Spark 4.0, Delta 4.0) e
SavePublishas suas alterações.De seguida, pode usar este item Ambiente com o seu
NotebookouSpark Job Definition.
Agora pode começar a experimentar as mais recentes melhorias e funcionalidades introduzidas no Fabric Runtime 2.0 (Spark 4.0 e Delta Lake 4.0).
Observação
O protocolo WASB para contas Azure Storage de Uso Geral v2 (GPv2) está obsoleto. Deves usar o protocolo ABFS mais recente para ler e escrever em contas de armazenamento GPv2.
Pré-visualização pública
A fase de pré-visualização pública do Fabric Runtime 2.0 dá-lhe acesso a novas funcionalidades e APIs tanto do Spark 4.0 como do Delta Lake 4.0. A pré-visualização permite-lhe utilizar imediatamente as mais recentes melhorias baseadas em Spark e Delta, além de garantir uma prontidão e transição suaves para mudanças mais avançadas, como as versões mais recentes em Java, Scala e Python.
Sugestão
Para obter informações atualizadas, uma lista detalhada de alterações e notas de versão específicas para o runtime do Fabric, verifique e subscreva Spark Runtimes Releases and Updates.
Destaques chave
Apache Spark 4.0
Apache Spark 4.0 marca um marco significativo como o lançamento inaugural da série 4.x, incorporando o esforço coletivo da vibrante comunidade open-source.
Nesta versão, o Spark SQL está significativamente enriquecido com novas funcionalidades poderosas concebidas para aumentar a expressividade e versatilidade para cargas de trabalho SQL, como suporte a tipos de dados VARIANT, funções definidas pelo utilizador SQL, variáveis de sessão, sintaxe de pipe e colação de strings. A PySpark demonstra dedicação contínua tanto à sua amplitude funcional como à experiência global dos programadores, trazendo uma API nativa de ploting, uma nova API de Fonte de Dados em Python, suporte para UDTFs em Python e perfilagem unificada para UDFs PySpark, juntamente com inúmeras outras melhorias. O Structured Streaming evolui com adições chave que proporcionam maior controlo e facilidade de depuração, nomeadamente a introdução da API de Estado Arbitrário v2 para uma gestão de estados mais flexível e da Fonte de Dados de Estado para facilitar a depuração.
Pode consultar a lista completa e as alterações detalhadas aqui: https://spark.apache.org/releases/spark-release-4-0-0.html.
Observação
No Spark 4.0, o SparkR está obsoleto e poderá ser removido numa versão futura.
Delta Lake 4.0
O Delta Lake 4.0 assinala um compromisso coletivo em tornar o Delta Lake interoperável em vários formatos, mais fácil de trabalhar e mais eficiente. O Delta 4.0 é um lançamento marcante repleto de novas funcionalidades poderosas, otimizações de desempenho e melhorias fundamentais para o futuro dos lagos de dados abertos.
Pode consultar a lista completa e as alterações detalhadas introduzidas com Delta Lake 3.3 e 4.0 aqui: https://github.com/delta-io/delta/releases/tag/v3.3.0. https://github.com/delta-io/delta/releases/tag/v4.0.0.
Importante
As funcionalidades específicas do Delta Lake 4.0 são experimentais e funcionam apenas em experiências Spark, como Cadernos e Definições de Funções Spark. Se precisares de usar as mesmas tabelas Delta Lake em várias cargas de trabalho do Microsoft Fabric, não atives essas funcionalidades. Para saber mais sobre quais as versões e funcionalidades dos protocolos são compatíveis em todas as experiências do Microsoft Fabric, leia interoperabilidade do formato de tabela Delta Lake.
Conteúdo relacionado
- Ambientes de Execução do Apache Spark no Fabric - Visão Geral, Versionamento e Suporte a Múltiplos Ambientes de Execução
- Guia de migração do Spark Core
- Guias de migração SQL, Datasets e DataFrame
- Guia de migração do Streaming Estruturado
- Guia de migração MLlib (Machine Learning)
- Guia de migração do PySpark (Python on Spark)
- Guia de migração do SparkR (R on Spark)