approxQuantile (DataFrame)

Вычисляет приблизительные квантили числовых столбцов кадра данных.

Синтаксис

approxQuantile(col: Union[str, List[str], Tuple[str]], probabilities: Union[List[float], Tuple[float]], relativeError: float)

Параметры

Параметр Тип Описание
col str, кортеж или список Может быть одним именем столбца или списком имен для нескольких столбцов.
probabilities список или кортеж с плавающей запятой список вероятностей квантилей. Каждое число должно быть плавающей запятой в диапазоне [0, 1]. Например, 0.0 является минимальным, 0,5 является медианом, 1.0 является максимальным.
relativeError плавать Относительная точность целевого объекта для достижения (>= 0). Если задано равно нулю, вычисляются точные квантили, которые могут быть очень дорогими. Обратите внимание, что значения больше 1 принимаются, но дают тот же результат, что и 1.

Возвраты

список: приблизительные квантили на заданных вероятностях. Если входные данные являются строкой, выходные данные col — это список с плавающей запятой. Если входные данные являются списком или кортежем строк, выходные данные col также являются списком, но каждый элемент в нем является списком с плавающей запятой.

Примечания

Значения NULL будут игнорироваться в числовых столбцах перед вычислением. Для столбцов, содержащих только значения NULL, возвращается пустой список.

Примеры

data = [(1,), (2,), (3,), (4,), (5,)]
df = spark.createDataFrame(data, ["values"])
quantiles = df.approxQuantile("values", [0.0, 0.5, 1.0], 0.05)
quantiles
# [1.0, 3.0, 5.0]

data = [(1, 10), (2, 20), (3, 30), (4, 40), (5, 50)]
df = spark.createDataFrame(data, ["col1", "col2"])
quantiles = df.approxQuantile(["col1", "col2"], [0.0, 0.5, 1.0], 0.05)
quantiles
# [[1.0, 3.0, 5.0], [10.0, 30.0, 50.0]]