PySpark-Referenz

Diese Seite bietet eine Übersicht über die Referenz für PySpark, eine Python-API für Spark. Weitere Informationen zu PySpark finden Sie unter PySpark auf Azure Databricks.

Reference	Description
Kernklassen	Hauptklassen für die Arbeit mit PySpark SQL, einschließlich SparkSession- und DataFrame-Grundlagen.
Spark-Sitzung	Der Einstiegspunkt zum Lesen von Daten und Ausführen von SQL-Abfragen in PySpark-Anwendungen.
Configuration	Laufzeitkonfigurationsoptionen für Spark SQL, einschließlich Ausführungs- und Optimierereinstellungen. Informationen zur Konfiguration, die nur für Databricks verfügbar ist, finden Sie unter Festlegen von Spark-Konfigurationseigenschaften für Azure Databricks.
DataFrame	Verteilte Sammlung von Daten, die in benannte Spalten organisiert sind, ähnlich einer Tabelle in einer relationalen Datenbank.
Eingabe/Ausgabe	Methoden zum Lesen und Schreiben von Daten in verschiedene Dateiformate und Datenquellen.
Spalte	Vorgänge zum Arbeiten mit DataFrame-Spalten, einschließlich Transformationen und Ausdrücken.
Datentypen	Verfügbare Datentypen in PySpark SQL, einschließlich primitiver Typen, komplexer Typen und benutzerdefinierter Typen.
Row	Stellt eine Datenzeile in einem DataFrame dar, die den Zugriff auf einzelne Feldwerte ermöglicht.
Funktionen	Integrierte Funktionen für Datenbearbeitungs-, Transformations- und Aggregationsvorgänge.
Fenster	Fensterfunktionen zum Ausführen von Berechnungen über eine Reihe von Tabellenzeilen im Zusammenhang mit der aktuellen Zeile.
Gruppierung	Methoden zum Gruppieren von Daten und Durchführen von Aggregationsvorgängen für gruppierte DataFrames.
Katalog	Schnittstelle zum Verwalten von Datenbanken, Tabellen, Funktionen und anderen Katalogmetadaten.
Avro	Unterstützung für das Lesen und Schreiben von Daten im Apache Avro-Format.
Beobachtung	Erfasst Metriken und beobachtet DataFrames während der Abfrageausführung zur Überwachung und Zum Debuggen.
UDF	Benutzerdefinierte Funktionen zum Anwenden benutzerdefinierter Python-Logik auf DataFrame-Spalten.
UDTF	Benutzerdefinierte Tabellenfunktionen, die für jede Eingabezeile mehrere Zeilen zurückgeben.
VariantVal	Verarbeitet halbstrukturierte Daten mit flexiblem Schema, unterstützt dynamische Typen und geschachtelte Strukturen.
ProtoBuf	Unterstützung für die Serialisierung und Deserialisierung von Daten mithilfe des Protokollpufferformats.
Python DataSource	APIs für die Implementierung benutzerdefinierter Datenquellen zum Lesen aus externen Systemen. Informationen zu benutzerdefinierten Datenquellen finden Sie unter PySpark benutzerdefinierte Datenquellen.
Zustandsbehafteter Prozessor	Verwaltet den Zustand über Streamingbatches hinweg für komplexe zustandsbehaftete Vorgänge im strukturierten Streaming.

Feedback

War diese Seite hilfreich?

Last updated on 2026-01-16

Freigeben über

PySpark-Referenz

Feedback

Zusätzliche Ressourcen