Přetrvávají

Nastaví úroveň úložiště tak, aby uchovávala obsah datového rámce napříč operacemi po prvním výpočtu. Dá se použít jenom k přiřazení nové úrovně úložiště, pokud datový rámec ještě nemá nastavenou úroveň úložiště. Pokud není zadaná žádná úroveň úložiště, výchozí hodnota je (MEMORY_AND_DISK_DESER).

Syntaxe

persist(storageLevel: StorageLevel = StorageLevel.MEMORY_AND_DISK_DESER)

Parametry

Parameter Typ Description
storageLevel Úroveň úložiště Úroveň úložiště, která se nastaví pro trvalost. Výchozí hodnota je MEMORY_AND_DISK_DESER.

Návraty

DataFrame: Trvalý datový rámec.

Poznámky

Výchozí úroveň úložiště se změnila tak, aby MEMORY_AND_DISK_DESER odpovídala Scala ve verzi 3.0.

Data uložená v mezipaměti se sdílí napříč všemi relacemi Sparku v clusteru.

Příklady

df = spark.range(1)
df.persist()
# DataFrame[id: bigint]

df.explain()
# == Physical Plan ==
# InMemoryTableScan ...

from pyspark.storagelevel import StorageLevel
df.persist(StorageLevel.DISK_ONLY)
# DataFrame[id: bigint]