Anmerkung
Der Zugriff auf diese Seite erfordert eine Genehmigung. Du kannst versuchen, dich anzumelden oder die Verzeichnisse zu wechseln.
Der Zugriff auf diese Seite erfordert eine Genehmigung. Du kannst versuchen , die Verzeichnisse zu wechseln.
Diese Seite bietet eine Übersicht über die Referenz für PySpark, eine Python-API für Spark. Weitere Informationen zu PySpark finden Sie unter PySpark auf Azure Databricks.
| Reference | Description |
|---|---|
| Kernklassen | Hauptklassen für die Arbeit mit PySpark SQL, einschließlich SparkSession- und DataFrame-Grundlagen. |
| Spark-Sitzung | Der Einstiegspunkt zum Lesen von Daten und Ausführen von SQL-Abfragen in PySpark-Anwendungen. |
| Configuration | Laufzeitkonfigurationsoptionen für Spark SQL, einschließlich Ausführungs- und Optimierereinstellungen. Informationen zur Konfiguration, die nur für Databricks verfügbar ist, finden Sie unter Festlegen von Spark-Konfigurationseigenschaften für Azure Databricks. |
| DataFrame | Verteilte Sammlung von Daten, die in benannte Spalten organisiert sind, ähnlich einer Tabelle in einer relationalen Datenbank. |
| Eingabe/Ausgabe | Methoden zum Lesen und Schreiben von Daten in verschiedene Dateiformate und Datenquellen. |
| Spalte | Vorgänge zum Arbeiten mit DataFrame-Spalten, einschließlich Transformationen und Ausdrücken. |
| Datentypen | Verfügbare Datentypen in PySpark SQL, einschließlich primitiver Typen, komplexer Typen und benutzerdefinierter Typen. |
| Row | Stellt eine Datenzeile in einem DataFrame dar, die den Zugriff auf einzelne Feldwerte ermöglicht. |
| Funktionen | Integrierte Funktionen für Datenbearbeitungs-, Transformations- und Aggregationsvorgänge. |
| Fenster | Fensterfunktionen zum Ausführen von Berechnungen über eine Reihe von Tabellenzeilen im Zusammenhang mit der aktuellen Zeile. |
| Gruppierung | Methoden zum Gruppieren von Daten und Durchführen von Aggregationsvorgängen für gruppierte DataFrames. |
| Katalog | Schnittstelle zum Verwalten von Datenbanken, Tabellen, Funktionen und anderen Katalogmetadaten. |
| Avro | Unterstützung für das Lesen und Schreiben von Daten im Apache Avro-Format. |
| Beobachtung | Erfasst Metriken und beobachtet DataFrames während der Abfrageausführung zur Überwachung und Zum Debuggen. |
| UDF | Benutzerdefinierte Funktionen zum Anwenden benutzerdefinierter Python-Logik auf DataFrame-Spalten. |
| UDTF | Benutzerdefinierte Tabellenfunktionen, die für jede Eingabezeile mehrere Zeilen zurückgeben. |
| VariantVal | Verarbeitet halbstrukturierte Daten mit flexiblem Schema, unterstützt dynamische Typen und geschachtelte Strukturen. |
| ProtoBuf | Unterstützung für die Serialisierung und Deserialisierung von Daten mithilfe des Protokollpufferformats. |
| Python DataSource | APIs für die Implementierung benutzerdefinierter Datenquellen zum Lesen aus externen Systemen. Informationen zu benutzerdefinierten Datenquellen finden Sie unter PySpark benutzerdefinierte Datenquellen. |
| Zustandsbehafteter Prozessor | Verwaltet den Zustand über Streamingbatches hinweg für komplexe zustandsbehaftete Vorgänge im strukturierten Streaming. |