Verwenden von Python für Apache Spark

2024-11-26

Microsoft Fabric bietet integrierte Python-Unterstützung für Apache Spark. Die Unterstützung umfasst PySpark, um Benutzern die Interaktion mit Spark mithilfe vertrauter Spark- oder Python-Schnittstellen zu ermöglichen.

Sie können Daten mit Python über Spark-Batchauftragsdefinitionen oder mit interaktiven Fabric-Notebooks analysieren. Dieser Artikel bietet eine Übersicht über die Entwicklung von Spark-Anwendungen in Synapse unter Verwendung der Programmiersprache „Python“.

Erstellen und Ausführen von Notebooksitzungen

Ein Microsoft Fabric-Notebook ist eine Weboberfläche zum Erstellen von Dateien, die Live-Code, Visualisierungen und beschreibenden Text enthalten. Notebooks sind ein guter Ausgangspunkt, um Ideen zu überprüfen und schnelle Experimente zu verwenden, um Erkenntnisse aus Ihren Daten zu gewinnen. Notebooks werden auch häufig für Datenvorbereitung, Datenvisualisierung, Machine Learning und andere Big Data-Szenarien verwendet.

Um Python in Microsoft Fabric-Notebooks zu verwenden, ändern Sie die primäre Programmiersprache oben in Ihrem Notebook, indem Sie die Option „Programmiersprache“ auf PySpark (Python) festlegen.

%%pyspark
# Enter your Python code here

Sie können in einem Notebook mehrere Programmiersprachen verwenden, indem Sie den Magic-Befehl für die Programmiersprache am Anfang einer Zelle angeben.

Weitere Informationen zu Notebooks in Microsoft Fabric Analytics finden Sie unter Verwenden von Notebooks.

Installieren von Paketen

Bibliotheken stellen wiederverwendbaren Code zur Verfügung, den Sie in Ihren Programmen oder Projekten nutzen können. Um Partnercode oder lokal erstellten Code für Ihre Anwendungen verfügbar zu machen, führen Sie eine Inlineinstallation für eine Bibliothek in Ihrer Notebooksitzung durch. Alternativ kann Ihr Arbeitsbereichsadministrator eine Umgebung erstellen, die Bibliothek darin installieren und die Umgebung als Arbeitsbereichsstandard in der Arbeitsbereichseinstellung anfügen.

Weitere Informationen zur Bibliotheksverwaltung in Microsoft Fabric finden Sie unter Verwalten von Apache Spark-Bibliotheken.

Notebook-Utilities

Microsoft Spark Utilities (MSSparkUtils) ist ein integriertes Paket, mit dem sich gängige Aufgaben leichter erledigen lassen. Sie können MSSparkUtils verwenden, um mit Dateisystemen zu arbeiten, Umgebungsvariablen zu erhalten, Notebooks miteinander zu verketten und mit Geheimnissen zu arbeiten. MSSparkUtils wird für PySpark-Notebooks unterstützt.

Für die ersten Schritte führen Sie die folgenden Befehle aus:

from notebookutils import mssparkutils
mssparkutils.notebook.help()

Weitere Informationen zu den unterstützten MSSparkUtils-Befehlen finden Sie unter Verwenden von Microsoft Spark-Hilfsprogrammen.

Verwenden von Pandas in Spark

Mit der Pandas-API in Spark können Sie Ihre Pandas-Workload auf eine beliebige Größe skalieren, indem Sie sie auf mehrere Knoten verteilt ausführen. Wenn Sie bereits mit Pandas vertraut sind und Spark für Big Data verwenden möchten, können Sie mit der Pandas-API in Spark sofort produktiv sein.

Sie können Ihre Anwendungen migrieren, ohne den Code zu ändern. Sie können über eine einzelne Codebasis verfügen, die sowohl mit Pandas, für Tests und kleinere Datasets, als auch mit Spark, für Produktions- und verteilte Datasets, funktioniert. Sie können problemlos und ohne Mehraufwand zwischen der Pandas-API und der Pandas-API in Spark wechseln.

Python-Runtime

Die Microsoft Fabric-Runtime ist eine kuratierte Umgebung, die für Data Science und Machine Learning optimiert ist. Die Microsoft Fabric-Runtime bietet eine Reihe beliebter Python-Open-Source-Bibliotheken, z. B. Pandas, PyTorch, Scikit-learn und XGBoost.

Python-Visualisierung

Das Python-Ökosystem bietet mehrere Grafikbibliotheken, die über viele verschiedene Features verfügen. Standardmäßig enthält jede Spark-Instanz in Microsoft Fabric mehrere kuratierte und populäre Open-Source-Bibliotheken. Sie können auch andere Bibliotheken oder Versionen hinzufügen oder verwalten. Weitere Informationen zur Bibliotheksverwaltung finden Sie unter Zusammenfassung der bewährten Methoden für die Bibliotheksverwaltung.

Weitere Informationen zum Erstellen von Python-Visualisierungen finden Sie unter Python-Visualisierung.

Informationen zur Verwendung der Pandas-API in Apache Spark: Pandas-API in Apache Spark
Verwalten von Apache Spark-Bibliotheken in Microsoft Fabric
Visualisieren von Daten in Python: Visualisieren von Daten in Python

Freigeben über