randomSplit

Náhodně rozdělí tento datový rámec s poskytnutými váhami.

Syntaxe

randomSplit(weights: List[float], seed: Optional[int] = None)

Parametry

Parameter Typ Description
weights seznam seznam dvojitých hodnot jako váhy, se kterými chcete datový rámec rozdělit. Váhy budou normalizovány, pokud sečtou až 1,0.
seed int, volitelné Počáteční hodnota pro vzorkování.

Návraty

list: Seznam datových rámců.

Příklady

from pyspark.sql import Row
df = spark.createDataFrame([
    Row(age=10, height=80, name="Alice"),
    Row(age=5, height=None, name="Bob"),
    Row(age=None, height=None, name="Tom"),
    Row(age=None, height=None, name=None),
])

splits = df.randomSplit([1.0, 2.0], 24)
splits[0].count()
# 2
splits[1].count()
# 2