SparkSession

Der Einstiegspunkt zum Programmieren von Spark mit der Dataset- und DataFrame-API. Eine SparkSession kann verwendet werden, um DataFrames zu erstellen, DataFrames als Tabellen zu registrieren, SQL über Tabellen auszuführen, Tabellen zwischenzuspeichern und Parkettdateien zu lesen.

Syntax

from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

Eigenschaften

Eigentum	Beschreibung
`version`	Die Version von Spark, auf der diese Anwendung ausgeführt wird.
`conf`	Laufzeitkonfigurationsschnittstelle für Spark.
`catalog`	Schnittstelle, über die der Benutzer zugrunde liegende Datenbanken, Tabellen, Funktionen usw. erstellen, ablegen, ändern oder abfragen kann.
`udf`	Gibt eine UDFRegistration für die UDF-Registrierung zurück.
`udtf`	Gibt eine UDTFRegistration für UDTF-Registrierung zurück.
`dataSource`	Gibt eine DataSourceRegistration für die Datenquellenregistrierung zurück.
`profile`	Gibt ein Profil für die Leistungs-/Speicherprofilerstellung zurück.
`sparkContext`	Gibt den zugrunde liegenden SparkContext zurück. Nur im klassischen Modus.
`read`	Gibt einen DataFrameReader zurück, der zum Lesen von Daten als DataFrame verwendet werden kann.
`readStream`	Gibt einen DataStreamReader zurück, der zum Lesen von Datenströmen als Streaming dataFrame verwendet werden kann.
`streams`	Gibt einen StreamingQueryManager zurück, der die Verwaltung aller aktiven Streamingabfragen zulässt.
`tvf`	Gibt eine TableValuedFunction zum Aufrufen von Tabellenwertfunktionen (TVFs) zurück.

Methodik

Methode	Beschreibung
`createDataFrame(data, schema, samplingRatio, verifySchema)`	Erstellt einen DataFrame aus einer RDD, einer Liste, einem Pandas DataFrame, einem numpy ndarray oder einer Pyarrow Table.
`sql(sqlQuery, args, **kwargs)`	Gibt einen DataFrame zurück, der das Ergebnis der angegebenen Abfrage darstellt.
`table(tableName)`	Gibt die angegebene Tabelle als DataFrame zurück.
`range(start, end, step, numPartitions)`	Erstellt einen DataFrame mit einer einzelnen LongType-Spalte namens `id`, die Elemente in einem Bereich enthält.
`newSession()`	Gibt eine neue SparkSession mit separaten SQLConf, registrierten temporären Ansichten und UDFs zurück, aber freigegebenen SparkContext- und Tabellencache. Nur im klassischen Modus.
`getActiveSession()`	Gibt die aktive SparkSession für den aktuellen Thread zurück.
`active()`	Gibt die aktive oder standardmäßige SparkSession für den aktuellen Thread zurück.
`stop()`	Beendet den zugrunde liegenden SparkContext.
`addArtifacts(*path, pyfile, archive, file)`	Fügt der Clientsitzung Artefakte hinzu.
`interruptAll()`	Unterbricht alle Vorgänge dieser Sitzung, die derzeit auf dem Server ausgeführt wird.
`interruptTag(tag)`	Unterbricht alle Vorgänge dieser Sitzung mit dem angegebenen Tag.
`interruptOperation(op_id)`	Unterbricht einen Vorgang dieser Sitzung mit der angegebenen operationId.
`addTag(tag)`	Fügt ein Tag hinzu, das allen Vorgängen zugewiesen werden soll, die in dieser Sitzung von diesem Thread gestartet wurden.
`removeTag(tag)`	Entfernt ein Tag, das zuvor für Vorgänge hinzugefügt wurde, die von diesem Thread gestartet wurden.
`getTags()`	Ruft die Tags ab, die derzeit für alle Vorgänge festgelegt sind, die von diesem Thread gestartet werden.
`clearTags()`	Löscht die Vorgangstags des aktuellen Threads.

Bauherr

Methode	Beschreibung
`config(key, value)`	Legt eine Konfigurationsoption fest. Optionen werden automatisch an die eigene Konfiguration von SparkConf und SparkSession weitergegeben.
`master(master)`	Legt die Spark-Master-URL fest, mit der eine Verbindung hergestellt werden soll.
`remote(url)`	Legt die Spark-Remote-URL fest, die über Spark Connect verbunden werden soll.
`appName(name)`	Legt einen Namen für die Anwendung fest, die in der Spark-Web-Benutzeroberfläche angezeigt wird.
`enableHiveSupport()`	Ermöglicht die Hive-Unterstützung, einschließlich der Konnektivität mit einem persistenten Hive-Metaspeicher.
`getOrCreate()`	Ruft eine vorhandene SparkSession ab, oder, wenn keine vorhanden ist, erstellt eine neue basierend auf den in diesem Generator festgelegten Optionen.
`create()`	Erstellt eine neue SparkSession.

Beispiele

spark = (
    SparkSession.builder
        .master("local")
        .appName("Word Count")
        .config("spark.some.config.option", "some-value")
        .getOrCreate()
)

spark.sql("SELECT * FROM range(10) where id > 7").show()

+---+
| id|
+---+
|  8|
|  9|
+---+

spark.createDataFrame([('Alice', 1)], ['name', 'age']).show()

+-----+---+
| name|age|
+-----+---+
|Alice|  1|
+-----+---+

spark.range(1, 7, 2).show()

+---+
| id|
+---+
|  1|
|  3|
|  5|
+---+

Feedback

War diese Seite hilfreich?

Last updated on 2026-03-15