Partilhar via


O que há de novo e planejado para o Synapse Data Engineering no Microsoft Fabric

Importante

Os planos de lançamento descrevem funcionalidades que podem ou não ter sido lançadas ainda. Os prazos de entrega e a funcionalidade projetada podem mudar ou podem não ser enviados. Consulte a política da Microsoft para obter mais informações.

A Synapse Data Engineering capacita os engenheiros de dados a serem capazes de transformar seus dados em escala usando o Spark e construir sua arquitetura lakehouse.

Lakehouse para todos os seus dados organizacionais: O lakehouse combina o melhor do data lake e do data warehouse em uma única experiência. Ele permite que os usuários ingestão, preparem e compartilhem dados organizacionais em um formato aberto no lago. Mais tarde, você pode acessá-lo por meio de vários mecanismos, como Spark, T-SQL e Power BI. Ele fornece várias opções de integração de dados, como fluxos de dados e pipelines, atalhos para fontes de dados externas e recursos de compartilhamento de produtos de dados.

Performant Spark engine & runtime: A engenharia Synapse Data fornece aos clientes um tempo de execução otimizado do Spark com as versões mais recentes do Spark, Delta e Python. Ele usa o Delta Lake como o formato de tabela comum para todos os mecanismos, permitindo fácil compartilhamento de dados e relatórios sem movimentação de dados. O tempo de execução vem com otimizações do Spark, melhorando o desempenho da sua consulta sem nenhuma configuração. Ele também oferece piscinas iniciais e modo de alta simultaneidade para acelerar e reutilizar suas sessões do Spark, economizando tempo e custo.

Configurações do Spark Admin: os administradores do espaço de trabalho com permissões apropriadas podem criar e configurar pools personalizados para otimizar o desempenho e o custo de suas cargas de trabalho do Spark. Os criadores podem configurar ambientes para instalar bibliotecas, selecionar a versão em tempo de execução e definir propriedades do Spark para seus blocos de anotações e trabalhos do Spark.

Experiência do desenvolvedor: os desenvolvedores podem usar blocos de anotações, trabalhos do Spark ou seu IDE preferido para criar e executar o código do Spark na malha. Eles podem acessar nativamente os dados da casa do lago, colaborar com outras pessoas, instalar bibliotecas, rastrear o histórico, fazer monitoramento on-line e obter recomendações do consultor do Spark. Eles também podem usar o Data Wrangler para preparar dados facilmente com uma interface do usuário low-code.

Integração de plataforma: Todos os itens de engenharia de dados da Sinapse, incluindo notebooks, trabalhos Spark, ambientes e lakehouses, são profundamente integrados à plataforma Fabric (recursos de gerenciamento de informações corporativas, linhagem, rótulos de sensibilidade e endossos).

Áreas de investimento

Caraterística Cronograma de lançamento estimado
Alta simultaneidade em oleodutos 3º trimestre de 2024
VS Code para a Web - suporte de depuração 3º trimestre de 2024
VSCode Core Extension para malha 3º trimestre de 2024
VSCode Satellite Extension para funções de dados do usuário na malha 3º trimestre de 2024
Capacidade de classificar e filtrar tabelas e pastas no Lakehouse 4º trimestre de 2024
APIs de monitoramento público 4º trimestre de 2024
Segurança de dados Lakehouse 4º trimestre de 2024
Suporte a esquema e espaço de trabalho no namespace no Lakehouse Enviado (3º trimestre de 2024)
Conector Spark para Data Warehouse de malha Enviado (Q2 2024)
Mecanismo de execução nativo do Spark Enviado (Q2 2024)
Criar e anexar ambientes Enviado (Q2 2024)
API do Microsoft Fabric para GraphQL Enviado (Q2 2024)
Fila de trabalhos para trabalhos de bloco de anotações Enviado (Q2 2024)
Admissão de emprego otimista para a Fabric Spark Enviado (Q2 2024)
Autotune de faísca Enviado (1º trimestre de 2024)

Alta simultaneidade em oleodutos

Cronograma estimado de lançamento: 3º trimestre de 2024

Tipo de versão: Disponibilidade geral

Além da alta simultaneidade em notebooks, também habilitaremos alta simultaneidade em pipelines. Esse recurso permitirá que você execute vários blocos de anotações em um pipeline com uma única sessão.

VS Code para a Web - suporte de depuração

Cronograma estimado de lançamento: 3º trimestre de 2024

Tipo de Lançamento: Pré-visualização pública

O Visual Studio Code for the Web é atualmente suportado na Pré-visualização para cenários de criação e execução. Adicionamos à lista de recursos a capacidade de depurar código usando esta extensão para notebook.

VSCode Core Extension para malha

Cronograma estimado de lançamento: 3º trimestre de 2024

Tipo de Lançamento: Pré-visualização pública

O Core VSCode Extension for Fabric fornecerá suporte de desenvolvedor comum para serviços de malha.

VSCode Satellite Extension para funções de dados do usuário na malha

Cronograma estimado de lançamento: 3º trimestre de 2024

Tipo de Lançamento: Pré-visualização pública

A extensão VSCode Satellite para funções de dados do usuário fornecerá suporte ao desenvolvedor (edição, construção, depuração, publicação) para funções de dados do usuário na malha.

Capacidade de classificar e filtrar tabelas e pastas no Lakehouse

Cronograma estimado de lançamento: 4º trimestre de 2024

Tipo de versão: Disponibilidade geral

Esse recurso permite que os clientes classifiquem e filtrem suas tabelas e pastas no Lakehouse por vários métodos diferentes, incluindo alfabeticamente, data de criação e muito mais.

APIs de monitoramento público

Cronograma estimado de lançamento: 4º trimestre de 2024

Tipo de versão: Disponibilidade geral

As APIs de monitoramento público permitem que você recupere programaticamente o status de trabalhos do Spark, resumos de trabalhos e os logs de driver e executor correspondentes.

Segurança de dados Lakehouse

Cronograma estimado de lançamento: 4º trimestre de 2024

Tipo de Lançamento: Pré-visualização pública

Você terá a capacidade de aplicar segurança de arquivo, pasta e tabela (ou nível de objeto) na casa do lago. Você também pode controlar quem pode acessar os dados na casa do lago e o nível de permissões que eles têm. Por exemplo, você pode conceder permissões de leitura em arquivos, pastas e tabelas. Depois que as permissões são aplicadas, elas são sincronizadas automaticamente em todos os mecanismos. O que significa que as permissões são consistentes no Spark, SQL, Power BI e mecanismos externos.

Recurso(s) enviado(s)

Suporte a esquema e espaço de trabalho no namespace no Lakehouse

Enviado (3º trimestre de 2024)

Tipo de Lançamento: Pré-visualização pública

Isso permitirá organizar tabelas usando esquemas e dados de consulta entre espaços de trabalho.

Conector Spark para Data Warehouse de malha

Enviado (Q2 2024)

Tipo de Lançamento: Pré-visualização pública

O Spark Connector for Fabric DW (Data Warehouse) permite que um desenvolvedor do Spark ou um cientista de dados acesse e trabalhe nos dados do Fabric Data Warehouse com uma API simplificada do Spark, que literalmente funciona com apenas uma linha de código. Ele oferece a capacidade de consultar os dados, em paralelo, do data warehouse do Fabric para que ele seja dimensionado com o aumento do volume de dados e honre o modelo de segurança (OLS/RLS/CLS) definido no nível do data warehouse ao acessar a tabela ou exibição. Esta primeira versão suportará apenas a leitura de dados e o suporte para gravar dados de volta estará disponível em breve.

Mecanismo de execução nativo do Spark

Enviado (Q2 2024)

Tipo de Lançamento: Pré-visualização pública

O mecanismo de execução nativo é um aprimoramento inovador para execuções de trabalho do Apache Spark no Microsoft Fabric. Esse mecanismo vetorizado otimiza o desempenho e a eficiência de suas consultas Spark, executando-as diretamente em sua infraestrutura lakehouse. A integração perfeita do mecanismo significa que ele não requer modificações de código e evita a dependência do fornecedor. Ele suporta APIs Apache Spark e é compatível com Runtime 1.2 (Spark 3.4), e funciona com os formatos Parquet e Delta. Independentemente da localização dos seus dados no OneLake, ou se você acessar os dados por meio de atalhos, o mecanismo de execução nativo maximiza a eficiência e o desempenho

Criar e anexar ambientes

Enviado (Q2 2024)

Tipo de versão: Disponibilidade geral

Para personalizar suas experiências do Spark em um nível mais granular, você pode criar e anexar ambientes aos seus blocos de anotações e trabalhos do Spark. Em um ambiente, você pode instalar bibliotecas, configurar um novo pool, definir propriedades do Spark e carregar scripts em um sistema de arquivos. Isso lhe dá mais flexibilidade e controle sobre suas cargas de trabalho do Spark, sem afetar as configurações padrão do espaço de trabalho. Como parte do GA, estamos fazendo várias melhorias nos ambientes, incluindo suporte a API e integração de CI/CD.

API do Microsoft Fabric para GraphQL

Enviado (Q2 2024)

Tipo de Lançamento: Pré-visualização pública

A API para GraphQL permitirá que engenheiros de dados de malha, cientistas e arquitetos de soluções de dados exponham e integrem dados de malha sem esforço, para aplicativos analíticos mais responsivos, eficientes e ricos, aproveitando o poder e a flexibilidade do GraphQL.

Fila de trabalhos para trabalhos de bloco de anotações

Enviado (Q2 2024)

Tipo de versão: Disponibilidade geral

Esse recurso permite que os Blocos de Anotações Spark agendados sejam enfileirados quando o uso do Spark estiver em seu número máximo de trabalhos que ele pode executar em paralelo e, em seguida, executar quando o uso voltar abaixo do número máximo de trabalhos paralelos permitidos.

Admissão de emprego otimista para a Fabric Spark

Enviado (Q2 2024)

Tipo de versão: Disponibilidade geral

Com o Optimistic Job Admission, o Fabric Spark reserva apenas o número mínimo de núcleos que um trabalho precisa iniciar, com base no número mínimo de nós para os quais o trabalho pode ser reduzido. Isto permite a admissão de mais postos de trabalho se existirem recursos suficientes para cumprir os requisitos mínimos. Se um trabalho precisar ser dimensionado posteriormente, as solicitações de expansão serão aprovadas ou rejeitadas com base nos núcleos disponíveis na capacidade.

Autotune de faísca

Enviado (1º trimestre de 2024)

Tipo de Lançamento: Pré-visualização pública

O Autotune usa aprendizado de máquina para analisar automaticamente execuções anteriores de seus trabalhos do Spark e ajusta as configurações para otimizar o desempenho. Ele configura como seus dados são particionados, unidos e lidos pelo Spark. Desta forma, irá melhorar significativamente o desempenho. Vimos os trabalhos dos clientes serem executados 2x mais rápido com essa capacidade.