Dela via


Nyheter och planer för Synapse Data Engineering i Microsoft Fabric

Viktigt!

I lanseringsplanerna beskrivs funktioner som kanske eller kanske inte har släppts ännu. Leveranstidslinjen och den planerade funktionen kan ändras eller kanske inte skickas. Mer information finns i Microsoft-principen.

Synapse Data Engineering gör det möjligt för datatekniker att kunna transformera sina data i stor skala med hjälp av Spark och bygga ut sin lakehouse-arkitektur.

Lakehouse för alla dina organisationsdata: Lakehouse kombinerar det bästa av datasjön och informationslagret i en enda upplevelse. Det gör det möjligt för användare att mata in, förbereda och dela organisationsdata i ett öppet format i sjön. Senare kan du komma åt den via flera motorer som Spark, T-SQL och Power BI. Den innehåller olika alternativ för dataintegrering, till exempel dataflöden och pipelines, genvägar till externa datakällor och funktioner för delning av dataprodukter.

Performant Spark engine & runtime: Synapse Data Engineering ger kunderna en optimerad Spark-körning med de senaste versionerna av Spark, Delta och Python.. Den använder Delta Lake som det gemensamma tabellformatet för alla motorer, vilket möjliggör enkel datadelning och rapportering utan dataförflyttning. Körningen levereras med Spark-optimeringar, vilket förbättrar frågeprestandan utan några konfigurationer. Det erbjuder också startpooler och hög samtidighetsläge för att påskynda och återanvända spark-sessioner, vilket sparar tid och kostnad.

Spark Admin och konfigurationer: Arbetsyteadministratörer med lämpliga behörigheter kan skapa och konfigurera anpassade pooler för att optimera prestanda och kostnader för sina Spark-arbetsbelastningar. Skapare kan konfigurera miljöer för att installera bibliotek, välja körningsversion och ange Spark-egenskaper för sina notebook-filer och Spark-jobb.

Utvecklarupplevelse: Utvecklare kan använda notebook-filer, Spark-jobb eller önskad IDE för att skapa och köra Spark-kod i Fabric. De kan komma åt lakehouse-data internt, samarbeta med andra, installera bibliotek, spåra historik, utföra intern övervakning och få rekommendationer från Spark-rådgivaren. De kan också använda Data Wrangler för att enkelt förbereda data med ett lågkodsgränssnitt.

Plattformsintegrering: Alla Synapse-datateknikobjekt, inklusive notebook-filer, Spark-jobb, miljöer och sjöhus, är djupt integrerade i Fabric-plattformen (funktioner för hantering av företagsinformation, ursprung, känslighetsetiketter och godkännanden).

Investeringsområden

Funktion Uppskattad tidslinje för lansering
Hög samtidighet i pipelines Q3 2024
Användardatafunktioner i infrastrukturresurser Q3 2024
VSCode Core-tillägg för Infrastrukturresurser Q3 2024
VSCode-satellittillägg för användardatafunktioner i Infrastrukturresurser Q3 2024
VS Code för webben – felsökningsstöd Q3 2024
Möjlighet att sortera och filtrera tabeller och mappar i Lakehouse Q3 2024
Datasäkerhet i Lakehouse Q4 2024
API:er för offentlig övervakning Q4 2024
Schemastöd och arbetsyta i namnrymd i Lakehouse Levererad (Q3 2024)
Spark Connector för Fabric Data Warehouse Levererad (Q2 2024)
Inbyggd Spark-körningsmotor Levererad (Q2 2024)
Microsoft Fabric API för GraphQL Levererad (Q2 2024)
Skapa och koppla miljöer Levererad (Q2 2024)
Jobbkö för notebook-jobb Levererad (Q2 2024)
Optimistisk jobbinträde för Fabric Spark Levererad (Q2 2024)
Autotune för Spark Levererad (Q1 2024)

Hög samtidighet i pipelines

Uppskattad tidslinje för lansering: Q3 2024

Versionstyp: Allmän tillgänglighet

Förutom hög samtidighet i notebook-filer aktiverar vi även hög samtidighet i pipelines. Med den här funktionen kan du köra flera notebook-filer i en pipeline med en enda session.

Användardatafunktioner i infrastrukturresurser

Uppskattad tidslinje för lansering: Q3 2024

Versionstyp: Offentlig förhandsversion

Användardatafunktioner ger en kraftfull mekanism för att implementera och återanvända anpassad, specialiserad affärslogik i fabric-arbetsflöden för datavetenskap och datateknik, vilket ökar effektiviteten och flexibiliteten.

VSCode Core-tillägg för Infrastrukturresurser

Uppskattad tidslinje för lansering: Q3 2024

Versionstyp: Offentlig förhandsversion

Core VSCode-tillägget för Fabric ger vanligt utvecklarstöd för Fabric-tjänster.

VSCode-satellittillägg för användardatafunktioner i Infrastrukturresurser

Uppskattad tidslinje för lansering: Q3 2024

Versionstyp: Offentlig förhandsversion

VSCode Satellite-tillägget för Användardatafunktioner ger utvecklarstöd (redigering, skapande, felsökning, publicering) för användardatafunktioner i Infrastrukturresurser.

VS Code för webben – felsökningsstöd

Uppskattad tidslinje för lansering: Q3 2024

Versionstyp: Offentlig förhandsversion

Visual Studio Code för webben stöds för närvarande i förhandsversionen för redigerings- och körningsscenarier. Vi lägger till möjligheten att felsöka kod med hjälp av det här tillägget för notebook-filer i listan över funktioner.

Möjlighet att sortera och filtrera tabeller och mappar i Lakehouse

Uppskattad tidslinje för lansering: Q3 2024

Versionstyp: Allmän tillgänglighet

Med den här funktionen kan kunder sortera och filtrera sina tabeller och mappar i Lakehouse med flera olika metoder, inklusive alfabetiskt, skapat datum med mera.

Datasäkerhet i Lakehouse

Uppskattad tidslinje för lansering: Q4 2024

Versionstyp: Offentlig förhandsversion

Du har möjlighet att tillämpa fil-, mapp- och tabellsäkerhet (eller objektnivå) i lakehouse. Du kan också styra vem som kan komma åt data i lakehouse och vilken behörighetsnivå de har. Du kan till exempel bevilja läsbehörigheter för filer, mappar och tabeller. När behörigheterna har tillämpats synkroniseras de automatiskt över alla motorer. Det innebär att behörigheterna är konsekventa för Spark-, SQL-, Power BI- och externa motorer.

API:er för offentlig övervakning

Uppskattad tidslinje för lansering: Q4 2024

Versionstyp: Allmän tillgänglighet

Med API:erna för offentlig övervakning kan du programmatiskt hämta status för Spark-jobb, jobbsammanfattningar och motsvarande drivrutins- och körloggar.

Levererade funktioner

Schemastöd och arbetsyta i namnrymd i Lakehouse

Levererad (Q3 2024)

Versionstyp: Offentlig förhandsversion

Detta gör det möjligt att organisera tabeller med hjälp av scheman och köra frågor mot data mellan arbetsytor.

Spark Connector för Fabric Data Warehouse

Levererad (Q2 2024)

Versionstyp: Offentlig förhandsversion

Spark Connector för Fabric DW (Data Warehouse) ger en Spark-utvecklare eller en dataexpert åtkomst till och arbete med data från Fabric Data Warehouse med ett förenklat Spark-API, som bokstavligen bara fungerar med en enda kodrad. Det ger möjlighet att köra frågor mot data parallellt från Infrastruktur-informationslagret så att de kan skalas med ökande datavolym och respekterar säkerhetsmodellen (OLS/RLS/CLS) som definierats på informationslagernivå vid åtkomst till tabellen eller vyn. Den här första versionen stöder endast läsning av data och stödet för att skriva tillbaka data kommer snart.

Inbyggd Spark-körningsmotor

Levererad (Q2 2024)

Versionstyp: Offentlig förhandsversion

Den inbyggda körningsmotorn är en banbrytande förbättring för Apache Spark-jobbkörningar i Microsoft Fabric. Den här vektoriserade motorn optimerar prestanda och effektivitet för dina Spark-frågor genom att köra dem direkt på lakehouse-infrastrukturen. Motorns sömlösa integrering innebär att den inte kräver några kodändringar och undviker leverantörslåsning. Den stöder Apache Spark-API:er och är kompatibel med Runtime 1.2 (Spark 3.4) och fungerar med både Parquet- och Delta-format. Oavsett dina datas plats i OneLake, eller om du kommer åt data via genvägar, maximerar den interna körningsmotorn effektivitet och prestanda

Microsoft Fabric API för GraphQL

Levererad (Q2 2024)

Versionstyp: Offentlig förhandsversion

API för GraphQL gör det möjligt för Infrastrukturdatatekniker, forskare, datalösningsarkitekter att enkelt exponera och integrera Infrastrukturdata, för mer dynamiska, högpresterande och omfattande analysprogram, vilket utnyttjar kraften och flexibiliteten hos GraphQL.

Skapa och koppla miljöer

Levererad (Q2 2024)

Versionstyp: Allmän tillgänglighet

Om du vill anpassa Dina Spark-upplevelser på en mer detaljerad nivå kan du skapa och koppla miljöer till dina notebook-filer och Spark-jobb. I en miljö kan du installera bibliotek, konfigurera en ny pool, ange Spark-egenskaper och ladda upp skript till ett filsystem. Detta ger dig större flexibilitet och kontroll över dina Spark-arbetsbelastningar, utan att påverka standardinställningarna för arbetsytan. Som en del av GA gör vi olika förbättringar av miljöer, inklusive API-stöd och CI/CD-integrering.

Jobbkö för notebook-jobb

Levererad (Q2 2024)

Versionstyp: Allmän tillgänglighet

Med den här funktionen kan schemalagda Spark Notebook-filer placeras i kö när Spark-användningen är som högst antal jobb som kan köras parallellt och sedan köras när användningen har sjunkit tillbaka under det maximala antalet parallella jobb som tillåts.

Optimistisk jobbinträde för Fabric Spark

Levererad (Q2 2024)

Versionstyp: Allmän tillgänglighet

Med optimistisk jobbinträde reserverar Fabric Spark bara det minsta antal kärnor som ett jobb behöver starta, baserat på det minsta antalet noder som jobbet kan skala ned till. Detta gör att fler jobb kan antas om det finns tillräckligt med resurser för att uppfylla minimikraven. Om ett jobb behöver skalas upp senare godkänns eller avvisas uppskalningsbegäranden baserat på tillgängliga kärnor i kapacitet.

Autotune för Spark

Levererad (Q1 2024)

Versionstyp: Offentlig förhandsversion

Autotune använder maskininlärning för att automatiskt analysera tidigare körningar av dina Spark-jobb och justera konfigurationerna för att optimera prestandan. Den konfigurerar hur dina data partitioneras, kopplas och läss av Spark. På så sätt förbättras prestanda avsevärt. Vi har sett kundjobb köras 2 gånger snabbare med den här funktionen.