sampleBy (DataFrameStatFunctions)

Zwraca próbkę warstwową bez zamiany na podstawie ułamka podanego na każdej warstwie.

Składnia

sampleBy(col, fractions, seed=None)

Parametry

Parameter Typ Opis
col str Kolumna, która definiuje warstwę.
fractions słownik Ułamek próbkowania dla każdej warstwy. Nie określono warstwy są traktowane jako ułamek zera.
seed int, opcjonalnie Inicjator losowy.

Zwroty

DataFrame

Examples

from pyspark.sql import functions as sf
dataset = spark.range(0, 100, 1, 5).select((sf.col("id") % 3).alias("key"))
sampled = dataset.stat.sampleBy("key", fractions={0: 0.1, 1: 0.2}, seed=0)
sampled.groupBy("key").count().orderBy("key").show()
# +---+-----+
# |key|count|
# +---+-----+
# |  0|    4|
# |  1|    9|
# +---+-----+