Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Her katmanda verilen kesire göre değiştirme yapmadan katmanlı bir örnek döndürür.
Sözdizimi
sampleBy(col: "ColumnOrName", fractions: Dict[Any, float], seed: Optional[int] = None)
Parametreler
| Parametre | Türü | Açıklama |
|---|---|---|
col |
Sütun veya str | katman tanımlayan sütun. |
fractions |
Dict | her katman için örnekleme kesri. Bir katman belirtilmezse, kesirini sıfır olarak ele alırız. |
seed |
int, isteğe bağlı | rastgele tohum. |
İadeler
katmanlı örneği temsil eden yeni bir DataFrame.
Örnekler
from pyspark.sql import functions as sf
dataset = spark.range(0, 100, 1, 5).select((sf.col("id") % 3).alias("key"))
sampled = dataset.sampleBy("key", fractions={0: 0.1, 1: 0.2}, seed=0)
sampled.groupBy("key").count().orderBy("key").show()
# +---+-----+
# |key|count|
# +---+-----+
# | 0| 4|
# | 1| 9|
# +---+-----+
dataset.sampleBy(sf.col("key"), fractions={2: 1.0}, seed=0).count()
# 33