Brug Python til Apache Spark

Vigtigt

Microsoft Fabric er i øjeblikket i PRØVEVERSION. Disse oplysninger relaterer til et foreløbig produkt, der kan ændres væsentligt, før de udgives. Microsoft giver ingen garantier, udtrykt eller stiltiende, med hensyn til de oplysninger, der er angivet her.

Microsoft Fabric leverer indbygget Python-understøttelse til Apache Spark. Dette omfatter understøttelse af PySpark, som giver brugerne mulighed for at interagere med Spark ved hjælp af velkendte Spark- eller Python-grænseflader. Du kan analysere data ved hjælp af Python via Spark-batchjobdefinitioner eller med interaktive Stofnotesbøger. Dette dokument indeholder en oversigt over udvikling af Spark-programmer i Synapse ved hjælp af Python-sproget.

Opret og kør notesbogsessioner

Microsoft Fabric-notesbog er en webgrænseflade, hvor du kan oprette filer, der indeholder livekode, visualiseringer og narrative tekst. Notesbøger er et godt sted at validere ideer og bruge hurtige eksperimenter til at få indsigt fra dine data. Notesbøger bruges også i vid udstrækning i forbindelse med dataforberedelse, datavisualisering, maskinel indlæring og andre big data-scenarier.

Hvis du vil i gang med Python i Microsoft Fabric-notesbøger, skal du ændre det primære sprog øverst i notesbogen ved at angive sprogindstillingen til PySpark (Python).

Derudover kan du bruge flere sprog i én notesbog ved at angive kommandoen language magic i starten af en celle.

%%pyspark
# Enter your Python code here

Hvis du vil vide mere om notesbøger i Microsoft Fabric Analytics, skal du se Sådan bruger du notesbøger.

Installér pakker

Biblioteker indeholder genanvendelig kode, som du måske vil inkludere i dine programmer eller projekter. Hvis du vil gøre tredjepartskode eller lokalt bygget kode tilgængelig for dine programmer, kan du installere et bibliotek i et af arbejdsområdet eller notesbogsessionen.

Hvis du vil vide mere om, hvordan du administrerer Python-biblioteker, skal du se Administration af Python-bibliotek.

Hjælpeprogrammer til notesbøger

Microsoft Spark Utilities (MSSparkUtils) er en indbygget pakke, der hjælper dig med nemt at udføre almindelige opgaver. Du kan bruge MSSparkUtils til at arbejde med filsystemer, til at hente miljøvariabler, til at sammenkæde notesbøger og til at arbejde med hemmeligheder. MSSparkUtils understøttes for PySpark-notesbøger.

Du kan komme i gang ved at køre følgende kommandoer:

from notebookutils import mssparkutils
mssparkutils.notebook.help()

Få mere at vide om de understøttede MSSparkUtils-kommandoer under Brug Microsoft Spark Utilities.

Brug Pandas på Spark

Pandas-API'en på Spark giver dig mulighed for at skalere din Pandas-arbejdsbelastning til enhver størrelse ved at køre den distribueret på tværs af flere noder. Hvis du allerede er fortrolig med pandas og vil udnytte Spark til big data, gør pandas API på Spark dig straks produktiv og giver dig mulighed for at migrere dine programmer uden at ændre koden. Du kan have en enkelt kodebase, der fungerer både med pandas (test, mindre datasæt) og med Spark (produktion, distribuerede datasæt), og du kan nemt og uden problemer skifte mellem pandas-API'en og Pandas-API'en på Spark.

Python-kørsel

Microsoft Fabric Runtime er et kurateret miljø, der er optimeret til datavidenskab og maskinel indlæring. Microsoft Fabric runtime tilbyder en række populære Python open source-biblioteker, herunder biblioteker som Pandas, PyTorch, Scikit-Learn, XGBoost og meget mere.

Python-visualisering

Python-økosystemet tilbyder flere grafbiblioteker, der er pakket med mange forskellige funktioner. Hver Spark-forekomst i Microsoft Fabric indeholder som standard et sæt udvalgte og populære open source-biblioteker. Du kan også tilføje eller administrere ekstra biblioteker eller versioner ved hjælp af funktionerne til administration af Microsoft Fabric-bibliotek.

Få mere at vide om, hvordan du opretter Python-visualiseringer ved at besøge Python-visualisering.

Næste trin