Dela via


Använda Python för Apache Spark

Microsoft Fabric tillhandahåller inbyggt Python-stöd för Apache Spark. Stödet omfattar PySpark, som gör det möjligt för användare att interagera med Spark med hjälp av välbekanta Spark- eller Python-gränssnitt.

Du kan analysera data med hjälp av Python via Spark-batchjobbdefinitioner eller med interaktiva Fabric-notebook-filer. Den här artikeln innehåller en översikt över hur du utvecklar Spark-program i Synapse med hjälp av Python-språket.

Skapa och köra notebook-sessioner

Microsoft Fabric Notebook är ett webbgränssnitt där du kan skapa filer som innehåller livekod, visualiseringar och narrativ text. Notebook-filer är ett bra ställe att validera idéer och använda snabba experiment för att få insikter från dina data. Notebook-filer används också ofta i dataförberedelser, datavisualisering, maskininlärning och andra stordatascenarier.

För att komma igång med Python i Microsoft Fabric-notebook-filer ändrar du det primära språket överst i anteckningsboken genom att ange språkalternativet till PySpark (Python).

%%pyspark
# Enter your Python code here

Du kan använda flera språk i en anteckningsbok genom att ange kommandot language magic i början av en cell.

Mer information om notebook-filer i Microsoft Fabric Analytics finns i Använda notebook-filer.

Installera paket

Bibliotek ger återanvändbar kod som du kan inkludera i dina program eller projekt. Om du vill göra partnerkod eller lokalt byggd kod tillgänglig för dina program installerar du ett bibliotek i din notebook-session. Alternativt kan arbetsyteadministratören skapa en miljö, installera biblioteket i den och koppla miljön som standardinställningen för arbetsytan.

Mer information om bibliotekshantering i Microsoft Fabric finns i Hantera Apache Spark-bibliotek.

Verktyg för notebook-filer

Microsoft Spark Utilities (MSSparkUtils) är ett inbyggt paket som hjälper dig att enkelt utföra vanliga uppgifter. Du kan använda MSSparkUtils för att arbeta med filsystem, hämta miljövariabler, länka ihop notebook-filer och arbeta med hemligheter. MSSparkUtils stöds för PySpark-notebook-filer.

Kom igång genom att köra följande kommandon:

from notebookutils import mssparkutils
mssparkutils.notebook.help()

Mer information om de MSSparkUtils-kommandon som stöds finns i Använda Microsoft Spark Utilities.

Använda Pandas på Spark

Med Pandas API på Spark kan du skala din Pandas-arbetsbelastning till valfri storlek genom att köra den distribuerad över flera noder. Om du redan är bekant med Pandas och vill använda Spark för stordata gör Pandas API på Spark dig omedelbart produktiv.

Du kan migrera dina program utan att ändra koden. Du kan ha en enda kodbas som fungerar både med Pandas, för tester och mindre datamängder, och med Spark, för produktion och distribuerade datamängder. Du kan växla mellan Pandas-API:et och Pandas-API:et på Spark enkelt och utan extra kostnader.

Python-körning

Microsoft Fabric Runtime är en kuraterad miljö som är optimerad för datavetenskap och maskininlärning. Microsoft Fabric-körningen erbjuder en rad populära Python-bibliotek med öppen källkod, inklusive bibliotek som Pandas, PyTorch, scikit-learn och XGBoost.

Python-visualisering

Python-ekosystemet erbjuder flera grafbibliotek med många olika funktioner. Som standard innehåller varje Spark-instans i Microsoft Fabric en uppsättning kuraterade och populära bibliotek med öppen källkod. Du kan också lägga till eller hantera andra bibliotek eller versioner. Mer information om bibliotekshantering finns i Sammanfattning av metodtips för bibliotekshantering.

Mer information om hur du skapar Python-visualiseringar finns i Python-visualisering.