randomSplit

제공된 가중치로 이 DataFrame을 임의로 분할합니다.

문법

randomSplit(weights: List[float], seed: Optional[int] = None)

매개 변수

매개 변수	유형	설명
`weights`	목록	DataFrame을 분할할 가중치로 이중 목록입니다. 가중치는 최대 1.0까지 합산되지 않으면 정규화됩니다.
`seed`	int, 선택 사항	샘플링을 위한 시드입니다.

Returns

list: DataFrames 목록입니다.

예제

from pyspark.sql import Row
df = spark.createDataFrame([
    Row(age=10, height=80, name="Alice"),
    Row(age=5, height=None, name="Bob"),
    Row(age=None, height=None, name="Tom"),
    Row(age=None, height=None, name=None),
])

splits = df.randomSplit([1.0, 2.0], 24)
splits[0].count()
# 2
splits[1].count()
# 2

피드백

이 페이지가 도움이 되었나요?

Last updated on 2026-04-19

randomSplit

문법

매개 변수

Returns

예제

피드백

추가 리소스