sampleBy (DataFrameStatFunctions)

Mengembalikan sampel yang di stratifikasi tanpa penggantian berdasarkan pecahan yang diberikan pada setiap stratum.

Sintaksis

sampleBy(col, fractions, seed=None)

Parameter-parameternya

Parameter Tipe Deskripsi
col str Kolom yang menentukan strata.
fractions kamus Fraksi pengambilan sampel untuk setiap stratum. Strata yang tidak ditentukan diperlakukan sebagai memiliki pecahan nol.
seed int, opsional Benih acak.

Pengembalian Barang

DataFrame

Examples

from pyspark.sql import functions as sf
dataset = spark.range(0, 100, 1, 5).select((sf.col("id") % 3).alias("key"))
sampled = dataset.stat.sampleBy("key", fractions={0: 0.1, 1: 0.2}, seed=0)
sampled.groupBy("key").count().orderBy("key").show()
# +---+-----+
# |key|count|
# +---+-----+
# |  0|    4|
# |  1|    9|
# +---+-----+