유지

처음 계산된 후 작업 간에 DataFrame의 콘텐츠를 유지하도록 스토리지 수준을 설정합니다. DataFrame에 아직 스토리지 수준이 설정되어 있지 않은 경우에만 새 스토리지 수준을 할당하는 데 사용할 수 있습니다. 스토리지 수준이 지정되지 않은 경우 기본값은 (MEMORY_AND_DISK_DESER)입니다.

문법

persist(storageLevel: StorageLevel = StorageLevel.MEMORY_AND_DISK_DESER)

매개 변수

매개 변수 유형 설명
storageLevel StorageLevel 지속성을 위해 설정할 스토리지 수준입니다. 기본값은 MEMORY_AND_DISK_DESER.

Returns

DataFrame: 지속형 데이터 프레임입니다.

Notes

기본 스토리지 수준이 3.0의 Scala와 일치하도록 MEMORY_AND_DISK_DESER 변경되었습니다.

캐시된 데이터는 클러스터의 모든 Spark 세션에서 공유됩니다.

예제

df = spark.range(1)
df.persist()
# DataFrame[id: bigint]

df.explain()
# == Physical Plan ==
# InMemoryTableScan ...

from pyspark.storagelevel import StorageLevel
df.persist(StorageLevel.DISK_ONLY)
# DataFrame[id: bigint]