Bruk Python for Apache Spark
Viktig
Microsoft Fabric er for øyeblikket i PREVIEW. Denne informasjonen er knyttet til et forhåndsutgitt produkt som kan endres vesentlig før det utgis. Microsoft gir ingen garantier, uttrykt eller underforstått, med hensyn til informasjonen som er oppgitt her.
Microsoft Fabric tilbyr innebygd Python-støtte for Apache Spark. Dette inkluderer støtte for PySpark, som gjør det mulig for brukere å samhandle med Spark ved hjelp av kjente Spark- eller Python-grensesnitt. Du kan analysere data ved hjelp av Python via spark-satsvise jobbdefinisjoner eller med interaktive Fabric-notatblokker. Dette dokumentet gir en oversikt over utvikling av Spark-programmer i Synapse ved hjelp av Python-språket.
Opprette og kjøre notatblokkøkter
Microsoft Fabric-notatblokk er et nettgrensesnitt som du kan bruke til å opprette filer som inneholder live-kode, visualiseringer og fortellende tekst. Notatblokker er et godt sted å validere ideer og bruke raske eksperimenter for å få innsikt fra dataene dine. Notatblokker brukes også mye i dataforberedelse, datavisualisering, maskinlæring og andre store datascenarioer.
Hvis du vil komme i gang med Python i Microsoft Fabric-notatblokker, endrer du primærspråket øverst i notatblokken ved å angi språkalternativet til PySpark (Python).
I tillegg kan du bruke flere språk i én notatblokk ved å angi den magiske språkkommandoen i begynnelsen av en celle.
%%pyspark
# Enter your Python code here
Hvis du vil lære mer om notatblokker i Microsoft Fabric Analytics, kan du se Slik bruker du notatblokker.
Installer pakker
Biblioteker gir kode som kan brukes på nytt, som du kanskje vil ta med i programmene eller prosjektene. Hvis du vil gjøre tredjepartskode eller lokalt bygd kode tilgjengelig for programmene dine, kan du installere et bibliotek på ett av arbeidsområdet eller notatblokkøkten.
Hvis du vil lære mer om hvordan du administrerer Python-biblioteker, kan du se Administrasjon av Python-biblioteker.
Notatblokkverktøy
Microsoft Spark Utilities (MSSparkUtils) er en innebygd pakke som hjelper deg med enkelt å utføre vanlige oppgaver. Du kan bruke MSSparkUtils til å arbeide med filsystemer, for å få miljøvariabler, til å kjede notatblokker sammen og til å arbeide med hemmeligheter. MSSparkUtils støttes for PySpark-notatblokker.
Du kan kjøre følgende kommandoer for å komme i gang:
from notebookutils import mssparkutils
mssparkutils.notebook.help()
Mer informasjon om de støttede MSSparkUtils-kommandoene på Use Microsoft Spark Utilities.
Bruk Pandas på Spark
Pandas API på Spark lar deg skalere Pandas-arbeidsbelastningen til en hvilken som helst størrelse ved å kjøre den distribuert på tvers av flere noder. Hvis du allerede er kjent med pandaer og ønsker å dra nytte av Spark for store data, gjør pandas API på Spark deg umiddelbart produktiv og lar deg overføre programmene dine uten å endre koden. Du kan ha en enkelt kodebase som fungerer både med pandas (tester, mindre datasett) og med Spark (produksjon, distribuerte datasett), og du kan bytte mellom pandas API og Pandas API på Spark enkelt og uten overhead.
Python-kjøretid
Microsoft Fabric Runtime er et kuratert miljø som er optimalisert for datavitenskap og maskinlæring. Microsoft Fabric runtime tilbyr en rekke populære biblioteker med åpen kildekode for Python, inkludert biblioteker som Pandas, PyTorch, Scikit-Learn, XGBoost og mer.
Python-visualisering
Python-økosystemet tilbyr flere grafbiblioteker som er pakket med mange forskjellige funksjoner. Som standard inneholder alle Spark-forekomster i Microsoft Fabric et sett med kuraterte og populære biblioteker med åpen kildekode. Du kan også legge til eller administrere ekstra biblioteker eller versjoner ved hjelp av administrasjonsfunksjonene i Microsoft Fabric-biblioteket.
Mer informasjon om hvordan du oppretter Python-visualiseringer ved å gå til Python-visualisering.
Neste trinn
- Finn ut hvordan du bruker Pandas API på Apache Spark: Pandas API på Apache Spark
- Behandle Python-biblioteker: Administrasjon av Python-bibliotek
- Visualiser data i Python: Visualiser data i Python