randomSplit

Membagi DataFrame ini secara acak dengan bobot yang disediakan.

Sintaksis

randomSplit(weights: List[float], seed: Optional[int] = None)

Parameter-parameternya

Parameter Tipe Deskripsi
weights daftar daftar ganda sebagai bobot untuk membagi DataFrame. Bobot akan dinormalisasi jika tidak menjumlahkan hingga 1,0.
seed int, opsional Benih untuk pengambilan sampel.

Pengembalian Barang

list: Daftar DataFrames.

Examples

from pyspark.sql import Row
df = spark.createDataFrame([
    Row(age=10, height=80, name="Alice"),
    Row(age=5, height=None, name="Bob"),
    Row(age=None, height=None, name="Tom"),
    Row(age=None, height=None, name=None),
])

splits = df.randomSplit([1.0, 2.0], 24)
splits[0].count()
# 2
splits[1].count()
# 2