Fabric Runtime 2.0 (Esikatselu)

Tärkeää

Tämä ominaisuus on esikatselutilassa.

Fabric Runtime tarjoaa saumattoman integraation Microsoft Fabricin ekosysteemissä, tarjoten vahvan ympäristön data-insinööri- ja data-analytiikkaprojekteille, joita tukee Apache Spark.

Tässä artikkelissa esitellään Fabric Runtime 2.0 Public Preview, uusin Microsoft Fabricin big data -laskentaan suunniteltu ajonaikainen. Se korostaa keskeisiä ominaisuuksia ja komponentteja, jotka tekevät tästä julkaisusta merkittävän askeleen eteenpäin skaalautuvan analytiikan ja edistyneiden työkuormien saralla.

Fabric Runtime 2.0 sisältää seuraavat komponentit ja päivitykset, jotka on suunniteltu parantamaan datankäsittelykykyäsi:

  • Apache Spark 4.1
  • Käyttöjärjestelmä: Azure Linux 3.0 (Mariner 3.0)
  • Java: 21
  • Scala: 2.13
  • Python: 3.13
  • Delta-järvi: 4,1
  • R: 4.5.2

Tärkeää

Fabric Runtime 2.0 on päivitetty Spark 4.1:een, Delta Lake 4.1:een ja Python 3.13:een. Portaalissa näkyvä Fabric Runtime -versio (Työtilan asetukset ja Suoritusaika-vaihtoehto Environment UX:ssa) ei muutu.

Komponentti Edellinen versio Nykyinen versio
Spark 4,0 4.1
Delta-järvi 4,0 4.1
Python 3.12 3.13

Kuvakaappaus, jossa näkyy Runtime 2.0 -version muutos Spark 4.0:sta, Delta 4.0:sta Spark 4.1:een, Delta 4.1:een.

Breaking change: Python-päivitys vaatii, että julkaiset uudelleen jokaisen Ympäristön, jossa on kirjastoja. Ennen kuin julkaiset uudelleen, Julkiset kirjastot ja Mukautetut kirjastot -välilehdet näyttävät tyhjiltä, ja Spark-työt, jotka kohdistuvat kyseiseen ympäristöön, epäonnistuvat virheillä "Moduulia ei löytynyt" tai "Luokkaa ei löydetty".

Vaaditut toimenpiteet

  • Tallenna tai vie kirjastolistasi jokaisesta ympäristöstä.
  • Lisää kirjastot uudelleen ja valitse Julkaise rakentaaksesi ne uudelleen Spark 4.1:tä vastaan.

Vinkki

Fabric Runtime 2.0 sisältää tuen Native Execution Enginelle, joka voi merkittävästi parantaa suorituskykyä ilman lisäkustannuksia. Voit ottaa natiivisuoritusmoottorin käyttöön ympäristötasolla, jolloin kaikki työt ja muistikirjat perivät automaattisesti parannetut suorituskykyominaisuudet.

Ota käyttöön Runtime 2.0

Voit ottaa Runtime 2.0:n käyttöön joko työtilan tasolla tai ympäristön kohdetasolla. Käytä työtilan asetusta soveltaaksesi Runtime 2.0:aa oletusarvona kaikille Spark-työkuormille työtilassasi. Vaihtoehtoisesti voit luoda ympäristökohteen Runtime 2.0:lla käytettäväksi tiettyjen muistikirjojen tai Spark-työn määritelmien kanssa, joka ohittaa työtilan oletusarvon.

Ota Runtime 2.0 käyttöön Workspace-asetuksissa

Asetetaan Runtime 2.0 oletuseksi koko työtilallesi:

  1. Siirry Workspace-asetuksiin Fabric-työtilassasi.

    Kuvakaappaus, jossa näkyy, mistä ajonaikainen versio valitaan työtilan asetuksiin.

  2. Valitse Data Engineering/Science -välilehti ja valitse sitten Spark settings.

  3. Valitse Ympäristö-välilehti .

  4. Runtime-version pudotusvalikosta valitse 2.0 Public Preview (Spark 4.1, Delta 4.1) ja tallenna muutokset.

  5. Runtime 2.0 on asetettu oletusajonaikaksi työtilallesi.

Ota käyttöön Runtime 2.0 Ympäristö-kohteessa

Käyttääksesi Runtime 2.0:aa tiettyjen muistikirjojen tai Spark-tehtävämääritelmien kanssa:

  1. Luo uusi Ympäristö-kohde tai avaa olemassa oleva.

  2. Runtime-pudotusvalikosta valitse 2.0 Public Preview (Spark 4.1, Delta 4.1),tallennaja julkaise muutokset.

    Kuvakaappaus, jossa näkyy, mistä Ympäristö-esineelle valitaan ajonaikainen versio.

  3. Seuraavaksi voit käyttää tätä Ympäristö-elementtiä muistikirjan tai Spark-tehtävämäärittelyn kanssa.

Voit nyt alkaa kokeilla uusimpia parannuksia ja toimintoja, jotka on esitelty Fabric Runtime 2.0:ssa (Spark 4.1 ja Delta Lake 4.1).

Note

WASB-protokolla General Purpose v2 (GPv2) Azure-tallennus -tileille on vanhentunut. Sinun tulisi käyttää uusinta ABFS-protokollaa GPv2-tallennustileistä lukemiseen ja kirjoittamiseen.

Julkinen esiversio

Fabric Runtime 2.0:n julkinen esikatseluvaihe antaa pääsyn uusiin ominaisuuksiin ja API-rajapintoihin sekä Spark 4.1:stä että Delta Lake 4.1:stä. Esikatselu antaa sinun käyttää uusimmat Spark- ja Delta-pohjaiset parannukset heti sekä varmistaa sujuvan valmiuden ja siirtymän parannetuille muutoksille, kuten uudemmille Java-, Scala- ja Python-versioille.

Vinkki

Saat ajan tasalla olevat tiedot, yksityiskohtaisen luettelon muutoksista ja Fabric-suorituspalvelun erityisistä julkaisutiedoista tarkistamalla Spark Runtimes -julkaisut ja -päivitykset ja tilaamalla ne.

Tärkeimmät tiedot

Suorituskyvyn ja suoritusmoottorin parannukset

Fabric Runtime 2.0 sisältää Native Execution Enginen, joka tarjoaa merkittäviä suorituskyvyn parannuksia avoimen lähdekoodin Spark-ohjelmistoon verrattuna. Moottori käyttää vektoroitua käsittelyä nopeuttaakseen Spark-kyselyitä järvenrakennusinfrastruktuurissa ilman, että koodimuutoksia tarvitaan.

Keskeiset suorituskykyominaisuudet Runtime 2.0:ssa:

  • Jopa kuusi kertaa nopeampia: Testit näyttävät jopa kuusi kertaa nopeampaa suorituskykyä verrattuna avoimen lähdekoodin Sparkiin TPC-DS työkuormissa.
  • Vektoroitu CSV-jäsennys: Natiivisuoritusmoottori sisältää vektoroidun CSV-jäsentimen, joka nopeuttaa CSV:n vastaanottoa ja kyselykuormia. Vektoroitu JSON-jäsennys ja Spark Structured Streaming -tuki ovat suunnitteilla tulevia päivityksiä varten.

Natiivin suoritusmoottorin ottamiseksi käyttöön katso Fabric Data Engineeringin natiivisuoritusmoottori.

Apache Spark 4.1

Apache Spark 4.0 merkitsi merkittävää virstanpylvästä 4.x-sarjan ensimmäisenä julkaisuna, ilmentäen elävän avoimen lähdekoodin yhteisön yhteistä ponnistusta. Fabric Runtime 2.0 toimii nyt Apache Spark 4.1 -pohjalla, joka rakentaa tätä pohjaa lisäparannuksilla.

Tässä versiossa Spark SQL on merkittävästi rikastettu tehokkailla uusilla ominaisuuksilla, jotka on suunniteltu lisäämään SQL-työkuormien ilmaisukykyä ja monipuolisuutta, kuten VARIANT-tietotyyppien tuki, SQL-käyttäjän määrittelemät funktiot, istuntomuuttujat, putkisyntaksi ja merkkijonojen kokoaminen. PySpark sitoutuu jatkuvasti sekä toiminnalliseen laajuuteen että kehittäjäkokemukseen, tuoden mukanaan natiivin piirto-API:n, uuden Python Data Source API:n, tuen Python UDTF:ille ja yhtenäisen profiloinnin PySpark UDF:ille sekä lukuisia muita parannuksia. Strukturoitu suoratoisto kehittyy tärkeiden lisäysten myötä, jotka tarjoavat paremman hallinnan ja helpomman virheenkorjauksen, erityisesti Arbitrary State API v2:n käyttöönoton myötä joustavampaan tilanhallintaan sekä State Data Sourcen myötä helpompaan virheenkorjaukseen.

Voit tarkistaa koko listan ja yksityiskohtaiset muutokset täältä:

Note

Spark 4.x:ssä SparkR on vanhentunut ja se voidaan poistaa tulevassa versiossa.

Delta Lake 4.1

Delta Lake 4.1 rakentaa Delta Lake 4.0 -merkkijulkaisun päälle, jatkaen sitoutumista tehdä Delta Lakesta yhteensopiva eri formaateissa, helpommin käsiteltävissä ja suorituskykyisempi. Se sisältää tehokkaita uusia ominaisuuksia, suorituskyvyn optimointeja ja perustavanlaatuisia parannuksia avoimen datan järvenrakennusten tulevaisuudelle.

Voit tarkistaa koko listan ja yksityiskohtaiset muutokset, jotka on otettu käyttöön Delta Lake 3.3:n, 4.0:n ja 4.1:n myötä, täältä:

Datan asettelu ja optimointi

Runtime 2.0 tukee datan asettelun ja optimointiominaisuuksia Delta-tauluille:

  • Z-järjestys: Järjestä Delta-taulutiedostojen tiedot määriteltyjen sarakkeiden mukaan parantaaksesi suodatettujen kyselyiden suorituskykyä.
  • Liquid Clustering: Joustava klusterointimenetelmä, joka optimoi datan asettelun automaattisesti ilman manuaalista ylläpitoa.
  • Rinnakkainen Delta-snapshotin lataus: Natiivisuoritusmoottori lataa Delta-taulukon snapshotit rinnakkain, mikä lyhentää kyselyjen käynnistysaikaa suurille tauluille.

Tärkeää

Delta Lake 4.1:n erityisominaisuudet ovat kokeellisia ja toimivat vain Spark-kokemuksissa, kuten muistikirjoissa ja Spark-tehtävämääritteluissa. Jos sinun täytyy käyttää samoja Delta Lake -taulukoita useissa Microsoft Fabricin työkuormissa, älä ota näitä ominaisuuksia käyttöön. Jos haluat tietää lisää siitä, mitkä protokollaversiot ja -ominaisuudet ovat yhteensopivia kaikissa Microsoft Fabric -käyttökokemuksissa, lue Delta Lake -taulukkomuotojen yhteentoimivuus.

Laskennan hallinta Runtime 2.0:ssa

Runtime 2.0 tukee seuraavia laskentahallinnan ominaisuuksia:

  • Resurssiprofiilit: Määritä ennalta määritellyt resurssiallokaatiot Spark-istunnoille vastaamaan työkuormavaatimuksia ja hallitsemaan kustannuksia.
  • Mukautetut live-poolit (esikatselu): Luo omistetut, esilämmitetyt Spark-poolit, jotka lyhentävät istuntojen käynnistysaikaa. Mukautetut live-poolit ovat saatavilla esikatselussa Runtime 2.0 -työkuormille.

Rajoitukset ja huomautukset

  • Delta Lake 4.x -ominaispiirteet ovat kokeellisia ja toimivat vain Spark-kokemuksissa, kuten muistikirjoissa ja Spark-tehtävämääritteyksissä. Jos sinun täytyy käyttää samoja Delta Lake -tauluja useissa Fabric-työkuormissa, älä ota näitä ominaisuuksia käyttöön. Lisätietoja löytyy Delta Lake -taulukkomuotojen yhteentoimivuudesta.
  • Runtime 2.0 on julkisessa esikatselussa. Jotkin ominaisuudet ja rajapinnat voivat muuttua ennen yleistä saatavuutta.
  • Fabric Sparkin VS Code -laajennus tukee Runtime 2.0:aa kannettavan ja Sparkin työnmäärittelyn kehitykseen.