approxQuantile (DataFrame)

Beräknar ungefärliga quantiles för numeriska kolumner i en DataFrame.

Syntax

approxQuantile(col: Union[str, List[str], Tuple[str]], probabilities: Union[List[float], Tuple[float]], relativeError: float)

Parameters

Parameter Type Beskrivning
col str, tuppeln eller listan Kan vara ett enstaka kolumnnamn eller en lista med namn för flera kolumner.
probabilities lista eller tupplar med flyttal en lista över kvantilannolikheter. Varje tal måste vara en flyttal i intervallet [0, 1]. Till exempel är 0,0 det minsta, 0,5 är medianvärdet, 1,0 är maxvärdet.
relativeError flyta/sväva Den relativa målprecisionen för att uppnå (>= 0). Om värdet är noll beräknas de exakta kvantantiklarna, vilket kan vara mycket dyrt. Observera att värden som är större än 1 accepteras men ger samma resultat som 1.

Retur

lista: de ungefärliga kvantantilesna vid de angivna sannolikheterna. Om indata col är en sträng är utdata en lista över flyttal. Om indata col är en lista eller tuppeln med strängar är utdata också en lista, men varje element i den är en lista över flyttal.

Notes

Null-värden ignoreras i numeriska kolumner före beräkningen. För kolumner som endast innehåller null-värden returneras en tom lista.

Exempel

data = [(1,), (2,), (3,), (4,), (5,)]
df = spark.createDataFrame(data, ["values"])
quantiles = df.approxQuantile("values", [0.0, 0.5, 1.0], 0.05)
quantiles
# [1.0, 3.0, 5.0]

data = [(1, 10), (2, 20), (3, 30), (4, 40), (5, 50)]
df = spark.createDataFrame(data, ["col1", "col2"])
quantiles = df.approxQuantile(["col1", "col2"], [0.0, 0.5, 1.0], 0.05)
quantiles
# [[1.0, 3.0, 5.0], [10.0, 30.0, 50.0]]