sampleBy (DataFrameStatFunctions)

Her katmanda verilen kesire göre değiştirme yapmadan katmanlı bir örnek döndürür.

Sözdizimi

sampleBy(col, fractions, seed=None)

Parametreler

Parametre Türü Açıklama
col str Katman tanımlayan sütun.
fractions Dict Her katman için örnekleme kesri. Strata belirtilmemiş, sıfır kesirli olarak değerlendirilir.
seed int, isteğe bağlı Rastgele tohum.

İadeler

DataFrame

Örnekler

from pyspark.sql import functions as sf
dataset = spark.range(0, 100, 1, 5).select((sf.col("id") % 3).alias("key"))
sampled = dataset.stat.sampleBy("key", fractions={0: 0.1, 1: 0.2}, seed=0)
sampled.groupBy("key").count().orderBy("key").show()
# +---+-----+
# |key|count|
# +---+-----+
# |  0|    4|
# |  1|    9|
# +---+-----+