Merk
Tilgang til denne siden krever autorisasjon. Du kan prøve å logge på eller endre kataloger.
Tilgang til denne siden krever autorisasjon. Du kan prøve å endre kataloger.
Viktig!
Denne funksjonen er i forhåndsversjon.
Fabric Runtime leverer sømløs integrasjon i Microsoft Fabric-økosystemet, og tilbyr et robust miljø for dataingeniør- og datavitenskapsprosjekter drevet av Apache Spark.
Denne artikkelen introduserer Fabric Runtime 2.0 Public Preview, den nyeste runtime-versjonen designet for big data-beregninger i Microsoft Fabric. Den fremhever nøkkelfunksjonene og komponentene som gjør denne utgivelsen til et betydelig steg fremover for skalerbar analyse og avanserte arbeidsbelastninger.
Fabric Runtime 2.0 inkluderer følgende komponenter og oppgraderinger designet for å forbedre dine databehandlingsmuligheter:
- Apache Spark 4.0
- Operativsystem: Azure Linux 3.0 (Mariner 3.0)
- Java: 21
- Scala: 2.13
- Python: 3.12
- Delta Lake: 4,0
- R: 4.5.2
Tips
Fabric Runtime 2.0 inkluderer støtte for Native Execution Engine, som kan forbedre ytelsen betydelig uten ekstra kostnader. Du kan aktivere den native kjøringsmotoren på miljønivå slik at alle jobber og notatbøker automatisk arver de forbedrede ytelsesmulighetene.
Aktiver Runtime 2.0
Du kan aktivere Runtime 2.0 enten på arbeidsområdenivå eller på miljøobjektnivå. Bruk arbeidsområdets innstilling for å bruke Runtime 2.0 som standard for alle Spark-arbeidsbelastninger i arbeidsområdet ditt. Alternativt kan du lage et miljøelement med Runtime 2.0 som kan brukes med spesifikke notatbøker eller Spark-jobbdefinisjoner, som overstyrer arbeidsområdets standard.
Aktiver Runtime 2.0 i arbeidsområdets innstillinger
For å sette Runtime 2.0 som standard for hele arbeidsområdet ditt:
Gå til siden for innstillinger for arbeidsområdet i Fabric-arbeidsområdet ditt.
Velg fanen Data Engineering/Science og velg deretter Spark-innstillinger.
Velg Miljø-fanen.
Under nedtrekksmenyen for Runtime-versjonen , velg 2.0 Public Preview (Spark 4.0, Delta 4.0) og lagre endringene dine.
Runtime 2.0 er satt som standard kjøretid for arbeidsområdet ditt.
Aktiver kjøretid 2.0 i et miljøobjekt
For å bruke Runtime 2.0 med spesifikke notatbøker eller Spark-jobbdefinisjoner:
Opprett et nytt miljøelement eller åpne et eksisterende.
Under nedtrekksmenyen Runtime, velg 2.0 Public Preview (Spark 4.0, Delta 4.0)
SaveogPublishdine endringer.Deretter kan du bruke dette Miljø-elementet med din
Notebookeller .Spark Job Definition
Du kan nå begynne å eksperimentere med de nyeste forbedringene og funksjonalitetene introdusert i Fabric Runtime 2.0 (Spark 4.0 og Delta Lake 4.0).
Note
WASB-protokollen for General Purpose v2 (GPv2) Azure Storage-kontoer er foreldet. Du bør bruke den nyeste ABFS-protokollen i stedet for å lese fra og skrive til GPv2-lagringskontoer.
Offentlig forhåndsversjon
Fabric Runtime 2.0 offentlig forhåndsvisning gir deg tilgang til nye funksjoner og API-er fra både Spark 4.0 og Delta Lake 4.0. Forhåndsvisningen lar deg bruke de nyeste Spark- og Delta-baserte forbedringene umiddelbart, samt sikrer en smidig klarhet og overgang for forbedrede endringer som de nyere Java-, Scala- og Python-versjonene.
Tips
Hvis du vil ha oppdatert informasjon, en detaljert liste over endringer og spesifikke produktmerknader for Fabric Runtimes, kan du se og abonnere på Utgivelser og oppdateringer for Spark Runtimes.
Høydepunkter
Apache Spark 4.0
Apache Spark 4.0 markerer en betydelig milepæl som den første utgivelsen i 4.x-serien, og legemliggjør den kollektive innsatsen til det levende open source-fellesskapet.
I denne versjonen er Spark SQL betydelig beriket med kraftige nye funksjoner designet for å øke uttrykksfullhet og allsidighet for SQL-arbeidsbelastninger, som støtte for VARIANT-datatyper, SQL-brukerdefinerte funksjoner, sesjonsvariabler, pipesyntaks og strengsortering. PySpark ser kontinuerlig dedikasjon til både sin funksjonelle bredde og den totale utvikleropplevelsen, med et innebygd plotting-API, et nytt Python Data Source API, støtte for Python UDTF-er og enhetlig profilering for PySpark UDF-er, sammen med en rekke andre forbedringer. Strukturert strømming utvikler seg med viktige tillegg som gir større kontroll og enklere feilsøking, spesielt introduksjonen av Arbitrary State API v2 for mer fleksibel tilstandshåndtering og State Data Source for enklere feilsøking.
Du kan kontrollere hele listen og detaljerte endringer her: https://spark.apache.org/releases/spark-release-4-0-0.html.
Note
I Spark 4.0 er SparkR utfaset og kan bli fjernet i en fremtidig versjon.
Delta Lake 4.0
Delta Lake 4.0 markerer et felles engasjement for å gjøre Delta Lake interoperabel på tvers av formater, enklere å jobbe med og mer ytelsesfull. Delta 4.0 er en milepælsutgivelse fylt med kraftige nye funksjoner, ytelsesoptimaliseringer og grunnleggende forbedringer for fremtiden til åpne data-innenland.
Du kan se hele listen og detaljerte endringer introdusert med Delta Lake 3.3 og 4.0 her: https://github.com/delta-io/delta/releases/tag/v3.3.0. https://github.com/delta-io/delta/releases/tag/v4.0.0.
Viktig!
Delta Lake 4.0-spesifikke funksjoner er eksperimentelle og fungerer kun på Spark-opplevelser, som notatbøker og Spark-jobbdefinisjoner. Hvis du må bruke de samme Delta Lake-tabellene på tvers av flere Microsoft Fabric-arbeidsbelastninger, bør du ikke aktivere disse funksjonene. For å lære mer om hvilke protokollversjoner og funksjoner som er kompatible på tvers av alle Microsoft Fabric-opplevelser, les Delta Lake table format interoperability.
Relatert innhold
- Apache Spark Runtimes i Fabric – Oversikt, versjonering og støtte for flere kjøretider
- Spark Core-overføringsveiledning
- Overføringsveiledninger for SQL, Datasett og DataFrame
- Strukturert overføringsveiledning for strømming
- Overføringsveiledning for MLlib (Machine Learning)
- Overføringsveiledning for PySpark (Python på Spark)
- Overføringsveiledning for SparkR (R på Spark)