Delen via


Python gebruiken voor Apache Spark

Microsoft Fabric biedt ingebouwde Python-ondersteuning voor Apache Spark. Ondersteuning omvat PySpark, waarmee gebruikers kunnen communiceren met Spark met behulp van vertrouwde Spark- of Python-interfaces.

U kunt gegevens analyseren met behulp van Python via Spark-batchtaakdefinities of met interactieve Fabric-notebooks. Dit artikel bevat een overzicht van het ontwikkelen van Spark-toepassingen in Synapse met behulp van de Python-taal.

Notebooksessies maken en uitvoeren

Microsoft Fabric-notebook is een webinterface waarmee u bestanden kunt maken die livecode, visualisaties en verhaaltekst bevatten. Notebooks zijn een goede plek om ideeën te valideren en snelle experimenten te gebruiken om inzichten uit uw gegevens te verkrijgen. Notebooks worden ook veel gebruikt in gegevensvoorbereiding, gegevensvisualisatie, machine learning en andere big data-scenario's.

Als u aan de slag wilt met Python in Microsoft Fabric-notebooks, wijzigt u de primaire taal boven aan uw notebook door de taaloptie in te stellen op PySpark (Python).

%%pyspark
# Enter your Python code here

U kunt meerdere talen in één notebook gebruiken door de magic-opdracht taal aan het begin van een cel op te geven.

Zie Notebooks gebruiken voor meer informatie over notebooks in Microsoft Fabric Analytics.

Pakketten installeren

Bibliotheken bieden herbruikbare code die u kunt opnemen in uw programma's of projecten. Als u partnercode of lokaal gebouwde code beschikbaar wilt maken voor uw toepassingen, installeert u een bibliotheek inline in uw notebooksessie. Uw werkruimtebeheerder kan ook een omgeving maken, de bibliotheek erin installeren en de omgeving koppelen als de standaardinstelling voor de werkruimte in de werkruimte-instelling.

Zie Apache Spark-bibliotheken beheren voor meer informatie over bibliotheekbeheer in Microsoft Fabric.

Hulpprogramma's voor notitieblokken

Microsoft Spark Utilities (MSSparkUtils) is een ingebouwd pakket om u te helpen eenvoudig algemene taken uit te voeren. U kunt MSSparkUtils gebruiken om te werken met bestandssystemen, om omgevingsvariabelen op te halen, notebooks te koppelen en met geheimen te werken. MSSparkUtils wordt ondersteund voor PySpark-notebooks.

Voer de volgende opdrachten uit om aan de slag te gaan:

from notebookutils import mssparkutils
mssparkutils.notebook.help()

Zie Microsoft Spark-hulpprogramma's gebruiken voor meer informatie over de ondersteunde MSSparkUtils-opdrachten.

Pandas gebruiken in Spark

Met de Pandas-API in Spark kunt u uw Pandas-workload naar elke grootte schalen door deze uit te voeren op meerdere knooppunten. Als u al bekend bent met pandas en Spark wilt gebruiken voor big data, maakt pandas-API in Spark u onmiddellijk productief.

U kunt uw toepassingen migreren zonder de code te wijzigen. U kunt één codebasis hebben die werkt met pandas, voor tests en kleinere gegevenssets, en met Spark, voor productie- en gedistribueerde gegevenssets. U kunt eenvoudig en zonder overhead schakelen tussen de Pandas-API en de Pandas-API in Spark.

Python-runtime

Microsoft Fabric Runtime is een gecureerde omgeving die is geoptimaliseerd voor data science en machine learning. De Microsoft Fabric-runtime biedt een scala aan populaire opensource-bibliotheken voor Python, waaronder bibliotheken zoals Pandas, PyTorch, scikit-learn en XGBoost.

Python-visualisatie

Het Python-ecosysteem biedt meerdere grafiekbibliotheken die worden geleverd met veel verschillende functies. Standaard bevat elk Spark-exemplaar in Microsoft Fabric een set gecureerde en populaire opensource-bibliotheken. U kunt ook andere bibliotheken of versies toevoegen of beheren. Zie Samenvatting van aanbevolen procedures voor bibliotheekbeheer voor meer informatie over bibliotheekbeheer.

Zie Python-visualisatie voor meer informatie over het maken van Python-visualisaties.