Novidades e planos para a Engenharia de Dados do Fabric no Microsoft Fabric
Importante
Os planos de lançamento descrevem a funcionalidade que pode ou não ter sido lançada ainda. Os prazos de entrega e a funcionalidade projetada podem mudar ou não podem ser enviados. Consulte a política da Microsoft para obter mais informações.
A engenharia de dados de malha capacita os engenheiros de dados a transformar seus dados em escala usando o Spark e criar sua arquitetura de lakehouse.
Lakehouse para todos os seus dados organizacionais: o lakehouse combina o melhor do data lake e do data warehouse em uma única experiência. Ele permite que os usuários ingeram, preparem e compartilhem dados organizacionais em um formato aberto no lake. Posteriormente, você pode acessá-lo por meio de vários mecanismos, como Spark, T-SQL e Power BI. Ele fornece várias opções de integração de dados, como fluxos de dados e pipelines, atalhos para fontes de dados externas e recursos de compartilhamento de produtos de dados.
Mecanismo e tempo de execução do Spark de alto desempenho: A engenharia de dados do Fabric fornece aos clientes um tempo de execução otimizado do Spark com as versões mais recentes do Spark, Delta e Python. Ele usa o Delta Lake como o formato de tabela comum para todos os mecanismos, permitindo fácil compartilhamento de dados e relatórios sem movimentação de dados. O runtime vem com otimizações do Spark, aprimorando o desempenho da consulta sem nenhuma configuração. Ele também oferece pools iniciais e modo de alta simultaneidade para acelerar e reutilizar suas sessões do Spark, economizando tempo e custo.
Administrador e configurações do Spark: os administradores do workspace com permissões apropriadas podem criar e configurar pools personalizados para otimizar o desempenho e o custo de suas cargas de trabalho do Spark. Os criadores podem configurar ambientes para instalar bibliotecas, selecionar a versão do runtime e definir propriedades do Spark para seus notebooks e trabalhos do Spark.
Experiência do desenvolvedor: os desenvolvedores podem usar notebooks, trabalhos do Spark ou seu IDE preferido para criar e executar o código do Spark no Fabric. Eles podem acessar nativamente os dados do lakehouse, colaborar com outras pessoas, instalar bibliotecas, rastrear histórico, fazer monitoramento em linha e obter recomendações do consultor do Spark. Eles também podem usar o Data Wrangler para preparar facilmente os dados com uma interface de usuário de baixo código.
Integração de plataforma: todos os itens de engenharia de dados do Fabric, incluindo notebooks, trabalhos do Spark, ambientes e lakehouses, são integrados profundamente à plataforma do Fabric (recursos de gerenciamento de informações corporativas, linhagem, rótulos de confidencialidade e endossos).
Cronograma estimado de lançamento: 4º trimestre de 2024
Tipo de Versão: Visualização Pública
Os notebooks do Fabric dão suporte à experiência pura do Python. Esta nova solução é voltada para desenvolvedores de BI e cientistas de dados que trabalham com conjuntos de dados menores (até alguns GB) e usam Pandas e Python como linguagem principal. Por meio dessa nova experiência, eles poderão se beneficiar da linguagem nativa do Python e seus recursos e bibliotecas nativas prontos para uso, poderão mudar de uma versão do Python para outra (inicialmente duas versões serão suportadas) e, finalmente, se beneficiarão de uma melhor utilização de recursos usando uma máquina 2VCore menor.
Cronograma estimado de lançamento: 4º trimestre de 2024
Tipo de Versão: Visualização Pública
A Microsoft e a Esri fizeram uma parceria para trazer a análise espacial para o Microsoft Fabric. Essa colaboração apresenta uma nova biblioteca, ArcGIS GeoAnalytics for Microsoft Fabric, permitindo um amplo conjunto de análises espaciais diretamente nos notebooks do Microsoft Fabric Spark e nas definições de trabalho do Spark (em experiências/cargas de trabalho de Engenharia de Dados e Ciência de Dados).
Essa experiência de produto integrada capacita os desenvolvedores ou cientistas de dados do Spark a usar nativamente os recursos da Esri para executar funções e ferramentas do ArcGIS GeoAnalytics no Fabric Spark para transformação espacial, enriquecimento e análise de padrões/tendências de dados – até mesmo big data – em diferentes casos de uso sem a necessidade de instalação e configuração separadas.
Cronograma estimado de lançamento: 4º trimestre de 2024
Tipo de Versão: Visualização Pública
Suporte a uma nova fonte para os usuários instalarem bibliotecas. Por meio da criação de um canal conda/PyPI personalizado, que é hospedado em sua conta de armazenamento, os usuários podem instalar as bibliotecas de sua conta de armazenamento em seus ambientes de malha.
Cronograma estimado de lançamento: 1º trimestre de 2025
Tipo de Versão: Visualização Pública
Com o controle de versão ao vivo, os desenvolvedores do Fabric Notebook podem rastrear o histórico de alterações feitas em seus notebooks, comparar diferentes versões e restaurar versões anteriores, se necessário.
Cronograma estimado de lançamento: 1º trimestre de 2025
Tipo de Versão: Visualização Pública
A extensão VSCode Satellite para funções de dados do usuário fornecerá suporte ao desenvolvedor (edição, compilação, depuração, publicação) para funções de dados do usuário no Fabric.
Cronograma estimado de lançamento: 1º trimestre de 2025
Tipo de Versão: Visualização Pública
As funções de dados do usuário fornecerão um mecanismo poderoso para implementar e reutilizar lógica de negócios personalizada e especializada nos fluxos de trabalho de ciência de dados e engenharia de dados do Fabric, aumentando a eficiência e a flexibilidade.
Cronograma estimado de lançamento: 1º trimestre de 2025
Tipo de Versão: Visualização Pública
O recurso API de monitoramento público para o Fabric Spark visa expor as APIs de monitoramento do Spark, permitindo que os usuários monitorem o progresso do trabalho do Spark, visualizem tarefas de execução e acessem logs programaticamente. Esse recurso está alinhado com os padrões de API pública, fornecendo uma experiência de monitoramento perfeita para aplicativos Spark.
Cronograma estimado de lançamento: 1º trimestre de 2025
Tipo de Versão: Visualização Pública
Para fornecer uma história atraente de gerenciamento do ciclo de vida do aplicativo, é fundamental rastrear metadados de objetos no Git e oferecer suporte a pipelines de implantação. Nos módulos de Engenharia de Dados, as áreas de trabalho são integradas ao git.
Nesta primeira iteração, os atalhos do OneLake serão implantados automaticamente nos estágios e espaços de trabalho do pipeline. As conexões de atalho podem ser remapeadas entre estágios usando um novo item do Microsoft Fabric chamado biblioteca de variáveis, garantindo o isolamento adequado e a segmentação de ambiente que os clientes esperam.
Cronograma estimado de lançamento: 1º trimestre de 2025
Tipo de lançamento: Disponibilidade geral
Ter padrões adequados e alinhar-se com os padrões mais recentes são de extrema importância para os padrões do Delta Lake no Microsoft Fabric. INT64 será o novo tipo de codificação padrão para todos os valores de carimbo de data/hora. Isso se afasta das codificações INT96, que o Apache Parquet descontinuou anos atrás. As alterações não afetam nenhum recurso de leitura, são transparentes e compatíveis por padrão, mas garantem que todos os novos arquivos parquet em sua tabela do Delta Lake sejam gravados de maneira mais eficiente e preparada para o futuro.
Também estamos lançando uma implementação mais rápida do comando OPTIMIZE, fazendo com que ele ignore os arquivos já ordenados em V.
Cronograma estimado de lançamento: 1º trimestre de 2025
Tipo de Versão: Visualização Pública
Esse recurso permite que os usuários visualizem um instantâneo do Notebook enquanto ele ainda está em execução, o que é essencial para monitorar o progresso e solucionar problemas de desempenho. Os usuários podem ver o código-fonte original, os parâmetros de entrada e as saídas da célula para entender melhor o trabalho do Spark e podem acompanhar o progresso da execução do Spark no nível da célula. Os usuários também podem revisar a saída de células concluídas para validar a precisão do aplicativo Spark e estimar o trabalho restante. Além disso, quaisquer erros ou exceções de células já executadas são exibidos, ajudando os usuários a identificar e resolver problemas antecipadamente.
Cronograma estimado de lançamento: 1º trimestre de 2025
Tipo de Versão: Visualização Pública
O recurso permite que os usuários implementem políticas de segurança para acesso a dados no mecanismo do Spark. Os usuários podem definir a segurança no nível de Objeto, Linha ou Coluna, garantindo que os dados sejam protegidos conforme definido por essas políticas quando acessados por meio do Fabric Spark e estejam alinhados com a iniciativa OneSecurity que está sendo habilitada no Microsoft Fabric.
Cronograma estimado de lançamento: 1º trimestre de 2025
Tipo de lançamento: Disponibilidade geral
O conector do Spark para Microsoft Fabric Data Warehouse permite que desenvolvedores e cientistas de dados do Spark acessem e trabalhem com dados de um warehouse e do ponto de extremidade de análise SQL de um lakehouse. Ele oferece uma API simplificada do Spark, abstrai a complexidade subjacente e opera com apenas uma linha de código, mantendo modelos de segurança como OLS (segurança em nível de objeto), RLS (segurança em nível de linha) e CLS (segurança em nível de coluna).
Feição(ões) enviada(s)
Capacidade de classificar e filtrar tabelas e pastas no Lakehouse
Enviado (4º trimestre de 2024)
Tipo de lançamento: Disponibilidade geral
Esse recurso permite que os clientes classifiquem e filtrem suas tabelas e pastas no Lakehouse por vários métodos diferentes, incluindo em ordem alfabética, data de criação e muito mais.
Blocos de anotações em um aplicativo
Enviado (4º trimestre de 2024)
Tipo de Versão: Visualização Pública
Os aplicativos da organização estão disponíveis como um novo item no Fabric e você pode incluir blocos de anotações junto com relatórios e dashboards do Power BI nos aplicativos do Fabric e distribuí-los aos usuários corporativos. Os consumidores de aplicativos podem interagir com widgets e visuais no notebook, como um mecanismo alternativo de relatório e exploração de dados. Isso permite que você crie e compartilhe histórias ricas e envolventes com seus dados.
Extensão do núcleo do VSCode para malha
Enviado (3º trimestre de 2024)
Tipo de Versão: Visualização Pública
O Core VSCode Extension for Fabric fornecerá suporte comum ao desenvolvedor para serviços do Fabric.
Bloco de anotações T-SQL
Enviado (3º trimestre de 2024)
Tipo de Versão: Visualização Pública
Os notebooks do Fabric dão suporte à linguagem T-SQL para consumir dados no Data Warehouse. Ao adicionar um ponto de extremidade de análise de Data Warehouse ou SQL a um notebook, os desenvolvedores do T-SQL podem executar consultas diretamente no ponto de extremidade conectado. Os analistas de BI também podem executar consultas entre bancos de dados para coletar insights de vários warehouses e pontos de extremidade de análise de SQL. Os blocos de anotações T-SQL oferecem uma ótima alternativa de criação às ferramentas existentes para usuários do SQL e incluem recursos nativos do Fabric, como compartilhamento, integração GIT e colaboração.
VS Code para a Web – suporte à depuração
Enviado (3º trimestre de 2024)
Tipo de Versão: Visualização Pública
Atualmente, há suporte para o Visual Studio Code para a Web na versão prévia para cenários de criação e execução. Adicionamos à lista de recursos a capacidade de depurar código usando essa extensão para notebook.
Alta simultaneidade em pipelines
Enviado (3º trimestre de 2024)
Tipo de lançamento: Disponibilidade geral
Além da alta simultaneidade em notebooks, também habilitaremos a alta simultaneidade em pipelines. Essa funcionalidade permitirá que você execute vários notebooks em um pipeline com uma única sessão.
Suporte a esquema e espaço de trabalho no namespace no Lakehouse
Enviado (3º trimestre de 2024)
Tipo de Versão: Visualização Pública
Isso permitirá organizar tabelas usando esquemas e consultar dados em workspaces.
Mecanismo de execução nativo do Spark
Enviado (2º trimestre de 2024)
Tipo de Versão: Visualização Pública
O mecanismo de execução nativo é um aprimoramento inovador para execuções de trabalho do Apache Spark no Microsoft Fabric. Esse mecanismo vetorizado otimiza o desempenho e a eficiência de suas consultas do Spark, executando-as diretamente em sua infraestrutura de lakehouse. A integração perfeita do mecanismo significa que ele não requer modificações de código e evita o bloqueio do fornecedor. Ela oferece suporte a APIs do Apache Spark, é compatível com o Runtime 1.2 (Spark 3.4) e funciona com os formatos Parquet e Delta. Independentemente da localização de seus dados no OneLake ou se você acessar dados por meio de atalhos, o mecanismo de execução nativo maximiza a eficiência e o desempenho
Conector do Spark para data warehouse do Fabric
Enviado (2º trimestre de 2024)
Tipo de Versão: Visualização Pública
O Conector do Spark para Fabric DW (Data Warehouse) permite que um desenvolvedor do Spark ou um cientista de dados acesse e trabalhe em dados do Data Warehouse do Fabric com uma API simplificada do Spark, que literalmente funciona com apenas uma linha de código. Ele oferece a capacidade de consultar os dados, em paralelo, do data warehouse do Fabric para que ele seja dimensionado com o aumento do volume de dados e respeite o modelo de segurança (OLS/RLS/CLS) definido no nível do data warehouse ao acessar a tabela ou exibição. Esta primeira versão oferecerá suporte apenas à leitura de dados e o suporte para gravação de dados estará disponível em breve.
API do Microsoft Fabric para GraphQL
Enviado (2º trimestre de 2024)
Tipo de Versão: Visualização Pública
A API para GraphQL permitirá que engenheiros de dados, cientistas e arquitetos de soluções de dados do Fabric exponham e integrem facilmente os dados do Fabric, para aplicativos analíticos mais responsivos, de alto desempenho e ricos, aproveitando o poder e a flexibilidade do GraphQL.
Criar e anexar ambientes
Enviado (2º trimestre de 2024)
Tipo de lançamento: Disponibilidade geral
Para personalizar suas experiências do Spark em um nível mais granular, você pode criar e anexar ambientes aos seus notebooks e trabalhos do Spark. Em um ambiente, você pode instalar bibliotecas, configurar um novo pool, definir propriedades do Spark e carregar scripts em um sistema de arquivos. Isso oferece mais flexibilidade e controle sobre suas cargas de trabalho do Spark, sem afetar as configurações padrão do workspace. Como parte do GA, estamos fazendo várias melhorias nos ambientes, incluindo suporte a API e integração de CI/CD.
Enfileiramento de trabalhos para trabalhos de bloco de anotações
Enviado (2º trimestre de 2024)
Tipo de lançamento: Disponibilidade geral
Esse recurso permite que os Notebooks do Spark agendados sejam enfileirados quando o uso do Spark estiver em seu número máximo de trabalhos que ele pode executar em paralelo e, em seguida, executar quando o uso cair abaixo do número máximo de trabalhos paralelos permitidos.
Admissão de emprego otimista para Fabric Spark
Enviado (2º trimestre de 2024)
Tipo de lançamento: Disponibilidade geral
Com a admissão de trabalho otimista, o Fabric Spark reserva apenas o número mínimo de núcleos que um trabalho precisa para iniciar, com base no número mínimo de nós para os quais o trabalho pode ser reduzido. Isso permite que mais empregos sejam admitidos se houver recursos suficientes para atender aos requisitos mínimos. Se um trabalho precisar ser dimensionado posteriormente, as solicitações de expansão serão aprovadas ou rejeitadas com base nos núcleos disponíveis em capacidade.
Spark Autotune
Enviado (1º trimestre de 2024)
Tipo de Versão: Visualização Pública
O Autotune usa o aprendizado de máquina para analisar automaticamente as execuções anteriores de seus trabalhos do Spark e ajusta as configurações para otimizar o desempenho. Ele configura como seus dados são particionados, ingressados e lidos pelo Spark. Desta forma, melhorará significativamente o desempenho. Vimos trabalhos de clientes serem executados 2x mais rápido com esse recurso.