vzorek

Vrátí vzorek podmnožinu tohoto datového rámce.

Syntaxe

sample(withReplacement: Optional[Union[float, bool]] = None, fraction: Optional[Union[int, float]] = None, seed: Optional[int] = None)

Parametry

Parameter Typ Description
withReplacement bool, volitelné Ukázka s nahrazením nebo ne (výchozí False).
fraction float, volitelné Zlomek řádků, které se mají vygenerovat, rozsah [0,0, 1,0].
seed int, volitelné Počáteční hodnoty pro vzorkování (výchozí náhodné počáteční hodnoty)

Návraty

DataFrame: Vzorkované řádky z daného datového rámce

Poznámky

To není zaručeno přesně zlomek zadaný celkovým počtem daného datového rámce.

fraction withReplacement seed a jsou volitelné.

Příklady

df = spark.range(0, 10, 1, 1)
df.sample(0.5, 3).count()
# 7
df.sample(fraction=0.5, seed=3).count()
# 4
df.sample(withReplacement=True, fraction=0.5, seed=3).count()
# 2
df.sample(1.0).count()
# 10
df.sample(fraction=1.0).count()
# 10
df.sample(False, fraction=1.0).count()
# 10