Nyheter och planer för Synapse Data Engineering i Microsoft Fabric
Viktigt!
I lanseringsplanerna beskrivs funktioner som kanske eller kanske inte har släppts ännu. Leveranstidslinjen och den planerade funktionen kan ändras eller kanske inte skickas. Mer information finns i Microsoft-principen.
Synapse Data Engineering gör det möjligt för datatekniker att kunna transformera sina data i stor skala med hjälp av Spark och bygga ut sin lakehouse-arkitektur.
Lakehouse för alla dina organisationsdata: Lakehouse kombinerar det bästa av datasjön och informationslagret i en enda upplevelse. Det gör det möjligt för användare att mata in, förbereda och dela organisationsdata i ett öppet format i sjön. Senare kan du komma åt den via flera motorer som Spark, T-SQL och Power BI. Den innehåller olika alternativ för dataintegrering, till exempel dataflöden och pipelines, genvägar till externa datakällor och funktioner för delning av dataprodukter.
Performant Spark engine & runtime: Synapse Data Engineering ger kunderna en optimerad Spark-körning med de senaste versionerna av Spark, Delta och Python.. Den använder Delta Lake som det gemensamma tabellformatet för alla motorer, vilket möjliggör enkel datadelning och rapportering utan dataförflyttning. Körningen levereras med Spark-optimeringar, vilket förbättrar frågeprestandan utan några konfigurationer. Det erbjuder också startpooler och hög samtidighetsläge för att påskynda och återanvända spark-sessioner, vilket sparar tid och kostnad.
Spark Admin och konfigurationer: Arbetsyteadministratörer med lämpliga behörigheter kan skapa och konfigurera anpassade pooler för att optimera prestanda och kostnader för sina Spark-arbetsbelastningar. Skapare kan konfigurera miljöer för att installera bibliotek, välja körningsversion och ange Spark-egenskaper för sina notebook-filer och Spark-jobb.
Utvecklarupplevelse: Utvecklare kan använda notebook-filer, Spark-jobb eller önskad IDE för att skapa och köra Spark-kod i Fabric. De kan komma åt lakehouse-data internt, samarbeta med andra, installera bibliotek, spåra historik, utföra intern övervakning och få rekommendationer från Spark-rådgivaren. De kan också använda Data Wrangler för att enkelt förbereda data med ett lågkodsgränssnitt.
Plattformsintegrering: Alla Synapse-datateknikobjekt, inklusive notebook-filer, Spark-jobb, miljöer och sjöhus, är djupt integrerade i Fabric-plattformen (funktioner för hantering av företagsinformation, ursprung, känslighetsetiketter och godkännanden).
Investeringsområden
Funktion | Uppskattad tidslinje för lansering |
---|---|
Hög samtidighet i pipelines | Q3 2024 |
Användardatafunktioner i infrastrukturresurser | Q3 2024 |
VSCode Core-tillägg för Infrastrukturresurser | Q3 2024 |
VSCode-satellittillägg för användardatafunktioner i Infrastrukturresurser | Q3 2024 |
VS Code för webben – felsökningsstöd | Q3 2024 |
Möjlighet att sortera och filtrera tabeller och mappar i Lakehouse | Q3 2024 |
Datasäkerhet i Lakehouse | Q4 2024 |
API:er för offentlig övervakning | Q4 2024 |
Schemastöd och arbetsyta i namnrymd i Lakehouse | Levererad (Q3 2024) |
Spark Connector för Fabric Data Warehouse | Levererad (Q2 2024) |
Inbyggd Spark-körningsmotor | Levererad (Q2 2024) |
Microsoft Fabric API för GraphQL | Levererad (Q2 2024) |
Skapa och koppla miljöer | Levererad (Q2 2024) |
Jobbkö för notebook-jobb | Levererad (Q2 2024) |
Optimistisk jobbinträde för Fabric Spark | Levererad (Q2 2024) |
Autotune för Spark | Levererad (Q1 2024) |
Hög samtidighet i pipelines
Uppskattad tidslinje för lansering: Q3 2024
Versionstyp: Allmän tillgänglighet
Förutom hög samtidighet i notebook-filer aktiverar vi även hög samtidighet i pipelines. Med den här funktionen kan du köra flera notebook-filer i en pipeline med en enda session.
Användardatafunktioner i infrastrukturresurser
Uppskattad tidslinje för lansering: Q3 2024
Versionstyp: Offentlig förhandsversion
Användardatafunktioner ger en kraftfull mekanism för att implementera och återanvända anpassad, specialiserad affärslogik i fabric-arbetsflöden för datavetenskap och datateknik, vilket ökar effektiviteten och flexibiliteten.
VSCode Core-tillägg för Infrastrukturresurser
Uppskattad tidslinje för lansering: Q3 2024
Versionstyp: Offentlig förhandsversion
Core VSCode-tillägget för Fabric ger vanligt utvecklarstöd för Fabric-tjänster.
VSCode-satellittillägg för användardatafunktioner i Infrastrukturresurser
Uppskattad tidslinje för lansering: Q3 2024
Versionstyp: Offentlig förhandsversion
VSCode Satellite-tillägget för Användardatafunktioner ger utvecklarstöd (redigering, skapande, felsökning, publicering) för användardatafunktioner i Infrastrukturresurser.
VS Code för webben – felsökningsstöd
Uppskattad tidslinje för lansering: Q3 2024
Versionstyp: Offentlig förhandsversion
Visual Studio Code för webben stöds för närvarande i förhandsversionen för redigerings- och körningsscenarier. Vi lägger till möjligheten att felsöka kod med hjälp av det här tillägget för notebook-filer i listan över funktioner.
Möjlighet att sortera och filtrera tabeller och mappar i Lakehouse
Uppskattad tidslinje för lansering: Q3 2024
Versionstyp: Allmän tillgänglighet
Med den här funktionen kan kunder sortera och filtrera sina tabeller och mappar i Lakehouse med flera olika metoder, inklusive alfabetiskt, skapat datum med mera.
Datasäkerhet i Lakehouse
Uppskattad tidslinje för lansering: Q4 2024
Versionstyp: Offentlig förhandsversion
Du har möjlighet att tillämpa fil-, mapp- och tabellsäkerhet (eller objektnivå) i lakehouse. Du kan också styra vem som kan komma åt data i lakehouse och vilken behörighetsnivå de har. Du kan till exempel bevilja läsbehörigheter för filer, mappar och tabeller. När behörigheterna har tillämpats synkroniseras de automatiskt över alla motorer. Det innebär att behörigheterna är konsekventa för Spark-, SQL-, Power BI- och externa motorer.
API:er för offentlig övervakning
Uppskattad tidslinje för lansering: Q4 2024
Versionstyp: Allmän tillgänglighet
Med API:erna för offentlig övervakning kan du programmatiskt hämta status för Spark-jobb, jobbsammanfattningar och motsvarande drivrutins- och körloggar.
Levererade funktioner
Schemastöd och arbetsyta i namnrymd i Lakehouse
Levererad (Q3 2024)
Versionstyp: Offentlig förhandsversion
Detta gör det möjligt att organisera tabeller med hjälp av scheman och köra frågor mot data mellan arbetsytor.
Spark Connector för Fabric Data Warehouse
Levererad (Q2 2024)
Versionstyp: Offentlig förhandsversion
Spark Connector för Fabric DW (Data Warehouse) ger en Spark-utvecklare eller en dataexpert åtkomst till och arbete med data från Fabric Data Warehouse med ett förenklat Spark-API, som bokstavligen bara fungerar med en enda kodrad. Det ger möjlighet att köra frågor mot data parallellt från Infrastruktur-informationslagret så att de kan skalas med ökande datavolym och respekterar säkerhetsmodellen (OLS/RLS/CLS) som definierats på informationslagernivå vid åtkomst till tabellen eller vyn. Den här första versionen stöder endast läsning av data och stödet för att skriva tillbaka data kommer snart.
Inbyggd Spark-körningsmotor
Levererad (Q2 2024)
Versionstyp: Offentlig förhandsversion
Den inbyggda körningsmotorn är en banbrytande förbättring för Apache Spark-jobbkörningar i Microsoft Fabric. Den här vektoriserade motorn optimerar prestanda och effektivitet för dina Spark-frågor genom att köra dem direkt på lakehouse-infrastrukturen. Motorns sömlösa integrering innebär att den inte kräver några kodändringar och undviker leverantörslåsning. Den stöder Apache Spark-API:er och är kompatibel med Runtime 1.2 (Spark 3.4) och fungerar med både Parquet- och Delta-format. Oavsett dina datas plats i OneLake, eller om du kommer åt data via genvägar, maximerar den interna körningsmotorn effektivitet och prestanda
Microsoft Fabric API för GraphQL
Levererad (Q2 2024)
Versionstyp: Offentlig förhandsversion
API för GraphQL gör det möjligt för Infrastrukturdatatekniker, forskare, datalösningsarkitekter att enkelt exponera och integrera Infrastrukturdata, för mer dynamiska, högpresterande och omfattande analysprogram, vilket utnyttjar kraften och flexibiliteten hos GraphQL.
Skapa och koppla miljöer
Levererad (Q2 2024)
Versionstyp: Allmän tillgänglighet
Om du vill anpassa Dina Spark-upplevelser på en mer detaljerad nivå kan du skapa och koppla miljöer till dina notebook-filer och Spark-jobb. I en miljö kan du installera bibliotek, konfigurera en ny pool, ange Spark-egenskaper och ladda upp skript till ett filsystem. Detta ger dig större flexibilitet och kontroll över dina Spark-arbetsbelastningar, utan att påverka standardinställningarna för arbetsytan. Som en del av GA gör vi olika förbättringar av miljöer, inklusive API-stöd och CI/CD-integrering.
Jobbkö för notebook-jobb
Levererad (Q2 2024)
Versionstyp: Allmän tillgänglighet
Med den här funktionen kan schemalagda Spark Notebook-filer placeras i kö när Spark-användningen är som högst antal jobb som kan köras parallellt och sedan köras när användningen har sjunkit tillbaka under det maximala antalet parallella jobb som tillåts.
Optimistisk jobbinträde för Fabric Spark
Levererad (Q2 2024)
Versionstyp: Allmän tillgänglighet
Med optimistisk jobbinträde reserverar Fabric Spark bara det minsta antal kärnor som ett jobb behöver starta, baserat på det minsta antalet noder som jobbet kan skala ned till. Detta gör att fler jobb kan antas om det finns tillräckligt med resurser för att uppfylla minimikraven. Om ett jobb behöver skalas upp senare godkänns eller avvisas uppskalningsbegäranden baserat på tillgängliga kärnor i kapacitet.
Autotune för Spark
Levererad (Q1 2024)
Versionstyp: Offentlig förhandsversion
Autotune använder maskininlärning för att automatiskt analysera tidigare körningar av dina Spark-jobb och justera konfigurationerna för att optimera prestandan. Den konfigurerar hur dina data partitioneras, kopplas och läss av Spark. På så sätt förbättras prestanda avsevärt. Vi har sett kundjobb köras 2 gånger snabbare med den här funktionen.