sampleBy (DataFrameStatFunctions)

Vrátí stratifikovaný vzorek bez nahrazení na základě zlomku zadaného na každé vrstvě.

Syntaxe

sampleBy(col, fractions, seed=None)

Parametry

Parameter Typ Description
col str Sloupec, který definuje strata.
fractions slovník Zlomek vzorkování pro každou vrstvu. Strata, která není zadaná, se považují za zlomek nuly.
seed int, volitelné Náhodné počáteční.

Návraty

DataFrame

Příklady

from pyspark.sql import functions as sf
dataset = spark.range(0, 100, 1, 5).select((sf.col("id") % 3).alias("key"))
sampled = dataset.stat.sampleBy("key", fractions={0: 0.1, 1: 0.2}, seed=0)
sampled.groupBy("key").count().orderBy("key").show()
# +---+-----+
# |key|count|
# +---+-----+
# |  0|    4|
# |  1|    9|
# +---+-----+