Stoff Kjøretid 1.3

Fabric Runtime tilbyr en sømløs integrasjon med Azure. Det gir et sofistikert miljø for både datateknikk og datavitenskapsprosjekter som bruker Apache Spark. Denne artikkelen gir en oversikt over de grunnleggende funksjonene og komponentene i Fabric Runtime 1.3, den nyeste kjøretiden for databeregninger med store data.

Fabric Runtime 1.3 inneholder følgende komponenter og oppgraderinger som er utformet for å forbedre funksjonene for databehandling:

  • Apache Spark 3.5
  • Operativsystem: Mariner 2.0
  • Java: 11
  • Scala: 2.12.17
  • Python: 3.10
  • Deltasjøen: 3.0.0

Merk

Fabric Runtime 1.3 er for tiden i en eksperimentell offentlig forhåndsvisningsfase. Hvis du vil ha mer informasjon, kan du se begrensningene og notatene.

Bruk følgende instruksjoner for å integrere kjøretid 1.3 i arbeidsområdet og bruke de nye funksjonene:

  1. Gå til fanen Innstillinger for arbeidsområde i Fabric-arbeidsområdet.
  2. Gå til fanen Dataingeniør ing/vitenskap, og velg Spark Innstillinger.
  3. Velg Miljø-fanen.
  4. Velg 1.3 Eksperimentell (Spark 3.5, Delta 3 OSS) under rullegardinlisten Runtime Versions, og lagre endringene. Denne handlingen angir 1,3 som standard kjøretid for arbeidsområdet.

Skjermbilde som viser hvor du velger kjøretidsversjon.

Nå kan du begynne å eksperimentere med de nyeste forbedringene og funksjonalitetene som ble introdusert i Fabric Runtime 1.3 (Spark 3.5 og Delta Lake 3.0).

Viktig

For øyeblikket tar det rundt 2-5 minutter før Spark 3.5-økter starter, da startbassenger ikke er en del av den tidlige eksperimentelle utgivelsen.

Eksperimentell offentlig forhåndsvisning

Fabric runtime 1.3 eksperimentell scene gir deg tidlig tilgang til nye funksjoner og Apache Spark API-er. Dette inkluderer Spark 3.5, som er en lts-versjon (Long Term Support), som tilbyr stabilitet før de store oppdateringene i Spark 4.0 ankommer. Forhåndsvisningen lar deg bruke de nyeste Spark-baserte forbedringene umiddelbart, noe som sikrer en jevn overgang og beredskap for fremtidige endringer som Scala 2.13-oppgraderingen. Det forbedrer også dataprosjektene dine med avanserte, pålitelige løsninger i Azure-økosystemet.

Tips

Hvis du vil ha oppdatert informasjon, en detaljert liste over endringer og spesifikke produktmerknader for Fabric Runtimes, kan du se og abonnere på Spark Runtimes Releases og Oppdateringer.

Begrensninger

Fabric Runtime 1.3 er for tiden i en eksperimentell offentlig forhåndsvisningsfase, designet for brukere å utforske og eksperimentere med de nyeste funksjonene og API-ene fra Spark og Delta Lake. Selv om denne versjonen gir tilgang til kjernefunksjonaliteter, finnes det visse begrensninger:

  • Du kan bruke Spark 3.5-økter, skrive kode i notatblokker, planlegge Spark-jobbdefinisjoner og bruke med PySpark, Scala og Spark SQL. R-språk er imidlertid ikke suppoted i denne tidlige utgivelsen.

  • Du kan installere biblioteker direkte i koden med pip og conda. Du kan angi Spark-innstillinger via %%konfigureringsalternativene i notatblokker og Spark Job Definitions (SJDer).

  • Du kan lese og skrive til Lakehouse med Delta 3.0 OSS, men noen avanserte funksjoner som V-rekkefølge, opprinnelig parkettskriving, autofullføring, optimaliser skriving, lav shuffle-fletting, fletting, skjemautvikling og tidsreiser er ikke inkludert i denne tidlige utgivelsen.

  • Spark Advisor er for øyeblikket utilgjengelig. Overvåkingsverktøy som Spark UI og logger støttes imidlertid i denne tidlige versjonen.

  • Funksjoner som datavitenskapsintegreringer, inkludert Copilot og koblinger, inkludert Kusto, SQL Analytics, Cosmos DB og MySQL Java Koble til or, støttes for øyeblikket ikke i denne tidlige utgivelsen. Biblioteker for datavitenskap støttes ikke i PySpark-miljøer. PySpark fungerer bare med et grunnleggende Conda-oppsett, som inkluderer PySpark alene uten ekstra biblioteker.

  • Integreringer med miljøartefakter og VSCode støttes ikke i denne tidlige versjonen.

Merk

Del tilbakemeldingen din om Fabric Runtime i Ideas-plattformen. Pass på å nevne versjons- og utgivelsesfasen du refererer til. Vi setter pris på tilbakemeldinger fra fellesskapet og prioriterer forbedringer basert på stemmer, og sørger for at vi oppfyller brukerens behov.

Høydepunkter

Apache Spark 3.5

Apache Spark 3.5.0 er den sjette versjonen i 3.x-serien. Denne versjonen er et produkt av omfattende samarbeid i åpen kildekode-fellesskapet, som tar for seg mer enn 1300 problemer som registrert i Jira.

I denne versjonen er det en oppgradering i kompatibilitet for strukturert strømming. I tillegg utvider denne utgivelsen funksjonaliteten i PySpark og SQL. Den legger til funksjoner som SQL-identifikatorsetningen, navngitte argumenter i SQL-funksjonskall og inkludering av SQL-funksjoner for hyperlog tilnærmet aggregasjoner. Andre nye funksjoner inkluderer også Python-brukerdefinerte tabellfunksjoner, forenkling av distribuert opplæring via DeepSpeed og nye strukturerte strømmingsfunksjoner som vannmerkeoverføring og dropDuplicatesWithinWatermark-operasjonen .

Du kan kontrollere hele listen og detaljerte endringer her: https://spark.apache.org/releases/spark-release-3-5-0.html.

Delta-gnist

Delta Lake 3.0 markerer en kollektiv forpliktelse til å gjøre Delta Lake interoperabel på tvers av formater, enklere å jobbe med, og mer performant. Delta Spark 3.0.0 er bygget på toppen av Apache Spark™ 3.5. Delta Spark maven-artefakten har fått nytt navn fra deltakjerne til delta-spark.

Du kan kontrollere hele listen og detaljerte endringer her: https://docs.delta.io/3.0.0/index.html.