Freigeben über


PySpark-Referenz

Diese Seite bietet eine Übersicht über die Referenz für PySpark, eine Python-API für Spark. Weitere Informationen zu PySpark finden Sie unter PySpark auf Azure Databricks.

Datentypen

Eine vollständige Liste der PySpark-Datentypen finden Sie unter PySpark-Datentypen.

Klassen

Reference Description
Avro Unterstützung für das Lesen und Schreiben von Daten im Apache Avro-Format.
Katalog Schnittstelle zum Verwalten von Datenbanken, Tabellen, Funktionen und anderen Katalogmetadaten.
Spalte Vorgänge zum Arbeiten mit DataFrame-Spalten, einschließlich Transformationen und Ausdrücken.
Datentypen Verfügbare Datentypen in PySpark SQL, einschließlich primitiver Typen, komplexer Typen und benutzerdefinierter Typen.
DataFrame Verteilte Sammlung von Daten, die in benannte Spalten organisiert sind, ähnlich einer Tabelle in einer relationalen Datenbank.
DataFrameNaFunctions Funktionalität zum Arbeiten mit fehlenden Daten in einem DataFrame.
DataFrameReader Schnittstelle, die zum Laden eines DataFrames aus externen Speichersystemen verwendet wird.
DataFrameStatFunctions Funktionalität für statistische Funktionen mit einem DataFrame.
DataFrameWriter Schnittstelle, die zum Schreiben eines DataFrame in externe Speichersysteme verwendet wird.
DataFrameWriterV2 Schnittstelle zum Schreiben eines DataFrame in externen Speicher (Version 2).
Datenquelle APIs für die Implementierung benutzerdefinierter Datenquellen zum Lesen aus externen Systemen. Informationen zu benutzerdefinierten Datenquellen finden Sie unter PySpark benutzerdefinierte Datenquellen.
DataSourceArrowWriter Eine Basisklasse für Datenquellenautoren, die Daten mithilfe von PyArrow verarbeiten RecordBatch.
DataSourceRegistration Ein Wrapper für die Datenquellenregistrierung.
DataSourceReader Eine Basisklasse für Datenquellenleser.
DataSourceStreamArrowWriter Eine Basisklasse für Datenstromautoren, die Daten mithilfe von PyArrow verarbeiten RecordBatch.
DataSourceStreamReader Eine Basisklasse für Streamingdatenquellenleser.
DataSourceStreamWriter Eine Basisklasse für Datenstromautoren.
GroupedData Methoden zum Gruppieren von Daten und Durchführen von Aggregationsvorgängen für gruppierte DataFrames.
Beobachtung Erfasst Metriken und beobachtet DataFrames während der Abfrageausführung zur Überwachung und Zum Debuggen.
PlotAccessor Accessor für DataFrame-Darstellungsfunktionen in PySpark.
ProtoBuf Unterstützung für die Serialisierung und Deserialisierung von Daten mithilfe des Protokollpufferformats.
Row Stellt eine Datenzeile in einem DataFrame dar, die den Zugriff auf einzelne Feldwerte ermöglicht.
RuntimeConfig Laufzeitkonfigurationsoptionen für Spark SQL, einschließlich Ausführungs- und Optimierereinstellungen.
Informationen zur Konfiguration, die nur für Databricks verfügbar ist, finden Sie unter Festlegen von Spark-Konfigurationseigenschaften für Azure Databricks.
SparkSession- Der Einstiegspunkt zum Lesen von Daten und Ausführen von SQL-Abfragen in PySpark-Anwendungen.
Zustandsbehafteter Prozessor Verwaltet den Zustand über Streamingbatches hinweg für komplexe zustandsbehaftete Vorgänge im strukturierten Streaming.
UserDefinedFunction (UDF) Benutzerdefinierte Funktionen zum Anwenden benutzerdefinierter Python-Logik auf DataFrame-Spalten.
UDFRegistration Wrapper für die registrierung benutzerdefinierter Funktionen. Auf diese Instanz kann zugegriffen werden.spark.udf
UserDefinedTableFunction (UDTF) Benutzerdefinierte Tabellenfunktionen, die für jede Eingabezeile mehrere Zeilen zurückgeben.
UDTFRegistration Wrapper für die Registrierung benutzerdefinierter Tabellenfunktionen. Auf diese Instanz kann zugegriffen werden.spark.udtf
VariantVal Stellt halbstrukturierte Daten mit flexiblem Schema dar, die dynamische Typen und geschachtelte Strukturen unterstützen.
Fenster Fensterfunktionen zum Ausführen von Berechnungen über eine Reihe von Tabellenzeilen im Zusammenhang mit der aktuellen Zeile.
WindowSpec Fensterfunktionen zum Ausführen von Berechnungen über eine Reihe von Tabellenzeilen im Zusammenhang mit der aktuellen Zeile.

Funktionen

Eine vollständige Liste der verfügbaren integrierten Funktionen finden Sie unter PySpark-Funktionen.