回傳該資料框架的取樣子集。
語法
sample(withReplacement: Optional[Union[float, bool]] = None, fraction: Optional[Union[int, float]] = None, seed: Optional[int] = None)
參數
| 參數 | 類型 | 說明 |
|---|---|---|
withReplacement |
Bool,選用 | 有沒有替換的樣本(預設 False)。 |
fraction |
浮動,選用 | 產生的列比例範圍為 [0.0, 1.0]。 |
seed |
int,可選 | 種子用於取樣(預設為隨機種子)。 |
退貨
DataFrame:從給定資料框架中取樣的列。
Notes
這不保證能精確提供指定資料幀總計數的比例。
fraction 是必須的,且 withReplacementseed 是可選的。
Examples
df = spark.range(0, 10, 1, 1)
df.sample(0.5, 3).count()
# 7
df.sample(fraction=0.5, seed=3).count()
# 4
df.sample(withReplacement=True, fraction=0.5, seed=3).count()
# 2
df.sample(1.0).count()
# 10
df.sample(fraction=1.0).count()
# 10
df.sample(False, fraction=1.0).count()
# 10