Del via


Brug Python til Apache Spark

Microsoft Fabric leverer indbygget Python-understøttelse af Apache Spark. Support omfatter PySpark, som giver brugerne mulighed for at interagere med Spark ved hjælp af velkendte Spark- eller Python-grænseflader.

Du kan analysere data ved hjælp af Python via Spark-batchjobdefinitioner eller med interaktive Fabric-notesbøger. Denne artikel indeholder en oversigt over udvikling af Spark-programmer i Synapse ved hjælp af Python-sproget.

Opret og kør notesbogsessioner

Microsoft Fabric-notesbog er en webgrænseflade, hvor du kan oprette filer, der indeholder livekode, visualiseringer og fortælletekst. Notesbøger er et godt sted at validere ideer og bruge hurtige eksperimenter til at få indsigt fra dine data. Notesbøger bruges også meget i forbindelse med dataforberedelse, datavisualisering, maskinel indlæring og andre big data-scenarier.

Hvis du vil i gang med Python i Microsoft Fabric-notesbøger, skal du ændre det primære sprog øverst i din notesbog ved at angive sprogindstillingen til PySpark (Python).

%%pyspark
# Enter your Python code here

Du kan bruge flere sprog i én notesbog ved at angive kommandoen language magic i starten af en celle.

Hvis du vil vide mere om notesbøger i Microsoft Fabric Analytics, skal du se Sådan bruger du notesbøger.

Installér pakker

Biblioteker indeholder kode, der kan genbruges, og som du kan inkludere i dine programmer eller projekter. Hvis du vil gøre partnerkode eller lokalt bygget kode tilgængelig for dine programmer, skal du installere et bibliotek indbygget i notesbogsessionen. Alternativt kan administratoren af arbejdsområdet oprette et miljø, installere biblioteket i det og vedhæfte miljøet som standard for arbejdsområdet i indstillingen for arbejdsområdet.

Hvis du vil vide mere om biblioteksstyring i Microsoft Fabric, skal du se Administrer Apache Spark-biblioteker.

Hjælpeprogrammer til notesbøger

Microsoft Spark Utilities (MSSparkUtils) er en indbygget pakke, der hjælper dig med nemt at udføre almindelige opgaver. Du kan bruge MSSparkUtils til at arbejde med filsystemer, til at hente miljøvariabler, til at sammenkæde notesbøger og til at arbejde med hemmeligheder. MSSparkUtils understøttes for PySpark-notesbøger.

Kør følgende kommandoer for at komme i gang:

from notebookutils import mssparkutils
mssparkutils.notebook.help()

Du kan få flere oplysninger om understøttede MSSparkUtils-kommandoer under Brug Microsoft Spark-hjælpeprogrammer.

Brug Pandas på Spark

Pandas-API'en på Spark giver dig mulighed for at skalere din Pandas-arbejdsbelastning til enhver størrelse ved at køre den distribueret på tværs af flere noder. Hvis du allerede kender pandas og vil bruge Spark til big data, gør pandas API på Spark dig straks produktiv.

Du kan overføre dine programmer uden at ændre koden. Du kan have en enkelt kodebase, der fungerer både med pandas, til test og mindre datasæt og med Spark til produktion og distribuerede datasæt. Du kan nemt og uden problemer skifte mellem pandas-API'en og Pandas-API'en på Spark.

Python-kørsel

Microsoft Fabric Runtime er et organiseret miljø, der er optimeret til datavidenskab og maskinel indlæring. Microsoft Fabric-runtime tilbyder en række populære Python-biblioteker med åben kildekode, herunder biblioteker som Pandas, PyTorch, scikit-learn og XGBoost.

Python-visualisering

Python-økosystemet tilbyder flere grafbiblioteker, der leveres med mange forskellige funktioner. Hver Spark-forekomst i Microsoft Fabric indeholder som standard et sæt organiserede og populære biblioteker med åben kildekode. Du kan også tilføje eller administrere andre biblioteker eller versioner. Du kan få flere oplysninger om biblioteksadministration under Oversigt over bedste praksis for administration af biblioteker.

Hvis du vil vide mere om, hvordan du opretter Python-visualiseringer, skal du se Python-visualisering.