Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Der Einstiegspunkt zum Programmieren von Spark mit der Dataset- und DataFrame-API. Eine SparkSession kann verwendet werden, um DataFrames zu erstellen, DataFrames als Tabellen zu registrieren, SQL über Tabellen auszuführen, Tabellen zwischenzuspeichern und Parkettdateien zu lesen.
Syntax
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
Eigenschaften
| Eigentum | Beschreibung |
|---|---|
version |
Die Version von Spark, auf der diese Anwendung ausgeführt wird. |
conf |
Laufzeitkonfigurationsschnittstelle für Spark. |
catalog |
Schnittstelle, über die der Benutzer zugrunde liegende Datenbanken, Tabellen, Funktionen usw. erstellen, ablegen, ändern oder abfragen kann. |
udf |
Gibt eine UDFRegistration für die UDF-Registrierung zurück. |
udtf |
Gibt eine UDTFRegistration für UDTF-Registrierung zurück. |
dataSource |
Gibt eine DataSourceRegistration für die Datenquellenregistrierung zurück. |
profile |
Gibt ein Profil für die Leistungs-/Speicherprofilerstellung zurück. |
sparkContext |
Gibt den zugrunde liegenden SparkContext zurück. Nur im klassischen Modus. |
read |
Gibt einen DataFrameReader zurück, der zum Lesen von Daten als DataFrame verwendet werden kann. |
readStream |
Gibt einen DataStreamReader zurück, der zum Lesen von Datenströmen als Streaming dataFrame verwendet werden kann. |
streams |
Gibt einen StreamingQueryManager zurück, der die Verwaltung aller aktiven Streamingabfragen zulässt. |
tvf |
Gibt eine TableValuedFunction zum Aufrufen von Tabellenwertfunktionen (TVFs) zurück. |
Methodik
| Methode | Beschreibung |
|---|---|
createDataFrame(data, schema, samplingRatio, verifySchema) |
Erstellt einen DataFrame aus einer RDD, einer Liste, einem Pandas DataFrame, einem numpy ndarray oder einer Pyarrow Table. |
sql(sqlQuery, args, **kwargs) |
Gibt einen DataFrame zurück, der das Ergebnis der angegebenen Abfrage darstellt. |
table(tableName) |
Gibt die angegebene Tabelle als DataFrame zurück. |
range(start, end, step, numPartitions) |
Erstellt einen DataFrame mit einer einzelnen LongType-Spalte namens id, die Elemente in einem Bereich enthält. |
newSession() |
Gibt eine neue SparkSession mit separaten SQLConf, registrierten temporären Ansichten und UDFs zurück, aber freigegebenen SparkContext- und Tabellencache. Nur im klassischen Modus. |
getActiveSession() |
Gibt die aktive SparkSession für den aktuellen Thread zurück. |
active() |
Gibt die aktive oder standardmäßige SparkSession für den aktuellen Thread zurück. |
stop() |
Beendet den zugrunde liegenden SparkContext. |
addArtifacts(*path, pyfile, archive, file) |
Fügt der Clientsitzung Artefakte hinzu. |
interruptAll() |
Unterbricht alle Vorgänge dieser Sitzung, die derzeit auf dem Server ausgeführt wird. |
interruptTag(tag) |
Unterbricht alle Vorgänge dieser Sitzung mit dem angegebenen Tag. |
interruptOperation(op_id) |
Unterbricht einen Vorgang dieser Sitzung mit der angegebenen operationId. |
addTag(tag) |
Fügt ein Tag hinzu, das allen Vorgängen zugewiesen werden soll, die in dieser Sitzung von diesem Thread gestartet wurden. |
removeTag(tag) |
Entfernt ein Tag, das zuvor für Vorgänge hinzugefügt wurde, die von diesem Thread gestartet wurden. |
getTags() |
Ruft die Tags ab, die derzeit für alle Vorgänge festgelegt sind, die von diesem Thread gestartet werden. |
clearTags() |
Löscht die Vorgangstags des aktuellen Threads. |
Bauherr
| Methode | Beschreibung |
|---|---|
config(key, value) |
Legt eine Konfigurationsoption fest. Optionen werden automatisch an die eigene Konfiguration von SparkConf und SparkSession weitergegeben. |
master(master) |
Legt die Spark-Master-URL fest, mit der eine Verbindung hergestellt werden soll. |
remote(url) |
Legt die Spark-Remote-URL fest, die über Spark Connect verbunden werden soll. |
appName(name) |
Legt einen Namen für die Anwendung fest, die in der Spark-Web-Benutzeroberfläche angezeigt wird. |
enableHiveSupport() |
Ermöglicht die Hive-Unterstützung, einschließlich der Konnektivität mit einem persistenten Hive-Metaspeicher. |
getOrCreate() |
Ruft eine vorhandene SparkSession ab, oder, wenn keine vorhanden ist, erstellt eine neue basierend auf den in diesem Generator festgelegten Optionen. |
create() |
Erstellt eine neue SparkSession. |
Beispiele
spark = (
SparkSession.builder
.master("local")
.appName("Word Count")
.config("spark.some.config.option", "some-value")
.getOrCreate()
)
spark.sql("SELECT * FROM range(10) where id > 7").show()
+---+
| id|
+---+
| 8|
| 9|
+---+
spark.createDataFrame([('Alice', 1)], ['name', 'age']).show()
+-----+---+
| name|age|
+-----+---+
|Alice| 1|
+-----+---+
spark.range(1, 7, 2).show()
+---+
| id|
+---+
| 1|
| 3|
| 5|
+---+