Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Microsoft Fabric tillhandahåller inbyggt Python-stöd för Apache Spark. Stödet omfattar PySpark, som gör det möjligt för användare att interagera med Spark med hjälp av välbekanta Spark- eller Python-gränssnitt.
Du kan analysera data med hjälp av Python via Spark-batchjobbdefinitioner eller med interaktiva Fabric-notebook-filer. Den här artikeln innehåller en översikt över hur du utvecklar Spark-program i Synapse med hjälp av Python-språket.
Skapa och köra notebook-sessioner
Microsoft Fabric Notebook är ett webbgränssnitt där du kan skapa filer som innehåller livekod, visualiseringar och narrativ text. Notebook-filer är ett bra ställe att validera idéer och använda snabba experiment för att få insikter från dina data. Notebook-filer används också ofta i dataförberedelser, datavisualisering, maskininlärning och andra stordatascenarier.
För att komma igång med Python i Microsoft Fabric-notebook-filer ändrar du det primära språket överst i anteckningsboken genom att ange språkalternativet till PySpark (Python).
%%pyspark
# Enter your Python code here
Du kan använda flera språk i en anteckningsbok genom att ange kommandot language magic i början av en cell.
Mer information om notebook-filer i Microsoft Fabric Analytics finns i Använda notebook-filer.
Installera paket
Bibliotek ger återanvändbar kod som du kan inkludera i dina program eller projekt. Om du vill göra partnerkod eller lokalt byggd kod tillgänglig för dina program installerar du ett bibliotek i din notebook-session. Alternativt kan arbetsyteadministratören skapa en miljö, installera biblioteket i den och koppla miljön som standardinställningen för arbetsytan.
Mer information om bibliotekshantering i Microsoft Fabric finns i Hantera Apache Spark-bibliotek.
Verktyg för notebook-filer
Microsoft Spark Utilities (MSSparkUtils) är ett inbyggt paket som hjälper dig att enkelt utföra vanliga uppgifter. Du kan använda MSSparkUtils för att arbeta med filsystem, hämta miljövariabler, länka ihop notebook-filer och arbeta med hemligheter. MSSparkUtils stöds för PySpark-notebook-filer.
Kom igång genom att köra följande kommandon:
from notebookutils import mssparkutils
mssparkutils.notebook.help()
Mer information om de MSSparkUtils-kommandon som stöds finns i Använda Microsoft Spark Utilities.
Använda Pandas på Spark
Med Pandas API på Spark kan du skala din Pandas-arbetsbelastning till valfri storlek genom att köra den distribuerad över flera noder. Om du redan är bekant med Pandas och vill använda Spark för stordata gör Pandas API på Spark dig omedelbart produktiv.
Du kan migrera dina program utan att ändra koden. Du kan ha en enda kodbas som fungerar både med Pandas, för tester och mindre datamängder, och med Spark, för produktion och distribuerade datamängder. Du kan växla mellan Pandas-API:et och Pandas-API:et på Spark enkelt och utan extra kostnader.
Python-körning
Microsoft Fabric Runtime är en kuraterad miljö som är optimerad för datavetenskap och maskininlärning. Microsoft Fabric-körningen erbjuder en rad populära Python-bibliotek med öppen källkod, inklusive bibliotek som Pandas, PyTorch, scikit-learn och XGBoost.
Python-visualisering
Python-ekosystemet erbjuder flera grafbibliotek med många olika funktioner. Som standard innehåller varje Spark-instans i Microsoft Fabric en uppsättning kuraterade och populära bibliotek med öppen källkod. Du kan också lägga till eller hantera andra bibliotek eller versioner. Mer information om bibliotekshantering finns i Sammanfattning av metodtips för bibliotekshantering.
Mer information om hur du skapar Python-visualiseringar finns i Python-visualisering.
Relaterat innehåll
- Lär dig hur du använder Pandas API på Apache Spark: Pandas API på Apache Spark
- Hantera Apache Spark-bibliotek i Microsoft Fabric
- Visualisera data i Python: Visualisera data i Python