sampleBy (DataFrameStatFunctions)

Возвращает стратифицированный образец без замены на основе дроби, заданной на каждом страте.

Синтаксис

sampleBy(col, fractions, seed=None)

Параметры

Параметр Тип Описание
col str Столбец, определяющий страты.
fractions Дикт Доля выборки для каждого страта. Не указанная страта рассматривается как доля нуля.
seed int, необязательный Случайное начальное значение.

Возвраты

DataFrame

Примеры

from pyspark.sql import functions as sf
dataset = spark.range(0, 100, 1, 5).select((sf.col("id") % 3).alias("key"))
sampled = dataset.stat.sampleBy("key", fractions={0: 0.1, 1: 0.2}, seed=0)
sampled.groupBy("key").count().orderBy("key").show()
# +---+-----+
# |key|count|
# +---+-----+
# |  0|    4|
# |  1|    9|
# +---+-----+