Del via


Bruk Python for Apache Spark

Microsoft Fabric gir innebygd Python-støtte for Apache Spark. Dette inkluderer støtte for PySpark, som gjør det mulig for brukere å samhandle med Spark ved hjelp av kjente Spark- eller Python-grensesnitt. Du kan analysere data ved hjelp av Python via Spark-satsvise jobbdefinisjoner eller med interaktive Fabric-notatblokker. Dette dokumentet gir en oversikt over utvikling av Spark-programmer i Synapse ved hjelp av Python-språket.

Opprette og kjøre notatblokkøkter

Microsoft Fabric-notatblokken er et nettgrensesnitt som du kan bruke til å opprette filer som inneholder live-kode, visualiseringer og narrativ tekst. Notatblokker er et godt sted å validere ideer og bruke hurtigeksperimenter for å få innsikt fra dataene. Notatblokker brukes også mye i dataforberedelse, datavisualisering, maskinlæring og andre store datascenarioer.

Hvis du vil komme i gang med Python i Microsoft Fabric-notatblokker, endrer du primærspråket øverst i notatblokken ved å angi språkalternativet til PySpark (Python).

I tillegg kan du bruke flere språk i én notatblokk ved å angi den magiske språkkommandoen i begynnelsen av en celle.

%%pyspark
# Enter your Python code here

Hvis du vil lære mer om notatblokker i Microsoft Fabric Analytics, kan du se Slik bruker du notatblokker.

Installer pakker

Biblioteker gir gjenbrukbar kode som du kanskje vil inkludere i programmene eller prosjektene. Hvis du vil gjøre tredjepartskode eller lokalt bygd kode tilgjengelig for programmene dine, kan du installere et bibliotek på linje i notatblokkøkten, eller administratoren for arbeidsområdet kan opprette et miljø, installere biblioteket i det og legge til miljøet som standard for arbeidsområdet i innstillingen for arbeidsområdet.

Hvis du vil ha mer informasjon om bibliotekbehandling i Microsoft Fabric, kan du se administrere Apache Spark-biblioteker.

Notatblokkverktøy

Microsoft Spark Utilities (MSSparkUtils) er en innebygd pakke som hjelper deg med å utføre vanlige oppgaver på en enkel måte. Du kan bruke MSSparkUtils til å arbeide med filsystemer, få miljøvariabler, kjede notatblokker sammen og til å arbeide med hemmeligheter. MSSparkUtils støttes for PySpark-notatblokker.

Du kan komme i gang ved å kjøre følgende kommandoer:

from notebookutils import mssparkutils
mssparkutils.notebook.help()

Mer informasjon om de støttede MSSparkUtils-kommandoene på Bruk Microsoft Spark Utilities.

Bruk pandaer på spark

Pandas API på Spark lar deg skalere Pandas-arbeidsbelastningen til alle størrelser ved å kjøre den distribuert på tvers av flere noder. Hvis du allerede er kjent med pandaer og ønsker å dra nytte av Spark for store data, gjør pandas API på Spark deg umiddelbart produktiv og lar deg overføre programmene dine uten å endre koden. Du kan ha en enkelt kodebase som fungerer både med pandaer (tester, mindre datasett) og med Spark (produksjon, distribuerte datasett), og du kan bytte mellom pandas API og Pandas API på Spark enkelt og uten overhead.

Python-kjøretid

Microsoft Fabric Runtime er et kuratert miljø som er optimalisert for datavitenskap og maskinlæring. Microsoft Fabric runtime tilbyr en rekke populære, Python åpen kildekode biblioteker, inkludert biblioteker som Pandas, PyTorch, Scikit-Learn, XGBoost, og mer.

Python-visualisering

Python-økosystemet tilbyr flere grafbiblioteker som er fullpakket med mange forskjellige funksjoner. Som standard inneholder alle Spark-forekomster i Microsoft Fabric et sett med kuraterte og populære biblioteker med åpen kildekode. Du kan også legge til eller behandle ekstra biblioteker eller versjoner. Hvis du vil ha mer informasjon om bibliotekbehandling, kan du se Sammendrag av anbefalte fremgangsmåter for bibliotekadministrasjon.

Mer informasjon om hvordan du oppretter Python-visualiseringer ved å gå tilPython-visualisering.