Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Mengembalikan sampel yang di stratifikasi tanpa penggantian berdasarkan pecahan yang diberikan pada setiap stratum.
Sintaksis
sampleBy(col, fractions, seed=None)
Parameter-parameternya
| Parameter | Tipe | Deskripsi |
|---|---|---|
col |
str | Kolom yang menentukan strata. |
fractions |
kamus | Fraksi pengambilan sampel untuk setiap stratum. Strata yang tidak ditentukan diperlakukan sebagai memiliki pecahan nol. |
seed |
int, opsional | Benih acak. |
Pengembalian Barang
DataFrame
Examples
from pyspark.sql import functions as sf
dataset = spark.range(0, 100, 1, 5).select((sf.col("id") % 3).alias("key"))
sampled = dataset.stat.sampleBy("key", fractions={0: 0.1, 1: 0.2}, seed=0)
sampled.groupBy("key").count().orderBy("key").show()
# +---+-----+
# |key|count|
# +---+-----+
# | 0| 4|
# | 1| 9|
# +---+-----+