sampleBy (DataFrame)

Her katmanda verilen kesire göre değiştirme yapmadan katmanlı bir örnek döndürür.

Sözdizimi

sampleBy(col: "ColumnOrName", fractions: Dict[Any, float], seed: Optional[int] = None)

Parametreler

Parametre Türü Açıklama
col Sütun veya str katman tanımlayan sütun.
fractions Dict her katman için örnekleme kesri. Bir katman belirtilmezse, kesirini sıfır olarak ele alırız.
seed int, isteğe bağlı rastgele tohum.

İadeler

katmanlı örneği temsil eden yeni bir DataFrame.

Örnekler

from pyspark.sql import functions as sf
dataset = spark.range(0, 100, 1, 5).select((sf.col("id") % 3).alias("key"))
sampled = dataset.sampleBy("key", fractions={0: 0.1, 1: 0.2}, seed=0)
sampled.groupBy("key").count().orderBy("key").show()
# +---+-----+
# |key|count|
# +---+-----+
# |  0|    4|
# |  1|    9|
# +---+-----+

dataset.sampleBy(sf.col("key"), fractions={2: 1.0}, seed=0).count()
# 33