approxQuantile (DataFrame)

Kiszámítja egy DataFrame numerikus oszlopainak hozzávetőleges kvantiliseit.

Szemantika

approxQuantile(col: Union[str, List[str], Tuple[str]], probabilities: Union[List[float], Tuple[float]], relativeError: float)

Paraméterek

Paraméter Típus Leírás
col str, tuple vagy list Lehet egyetlen oszlopnév, vagy több oszlop neve.
probabilities úszók listája vagy rekordja a kvantilis valószínűségek listája. Minden számnak a [0, 1] tartományban lévő lebegőpontosnak kell lennie. Például a 0,0 a minimum, a 0,5 a medián, az 1,0 a maximum.
relativeError float Az elérni kívánt relatív cél pontossága (>= 0). Ha nullára van állítva, a pontos kvantiliseket számítjuk ki, ami nagyon költséges lehet. Vegye figyelembe, hogy az 1-nél nagyobb értékek elfogadottak, de ugyanazt az eredményt adják, mint az 1.

Visszatérítések

lista: a megadott valószínűségű hozzávetőleges kvantilisek. Ha a bemenet col egy sztring, a kimenet az úszók listája. Ha a bemenet col sztringek listája vagy rekordja, akkor a kimenet is lista, de a benne lévő minden elem egy lebegőpontos lista.

Jegyzetek

A null értékeket a program a számítás előtt figyelmen kívül hagyja a numerikus oszlopokban. A csak null értékeket tartalmazó oszlopok esetében a rendszer üres listát ad vissza.

Examples

data = [(1,), (2,), (3,), (4,), (5,)]
df = spark.createDataFrame(data, ["values"])
quantiles = df.approxQuantile("values", [0.0, 0.5, 1.0], 0.05)
quantiles
# [1.0, 3.0, 5.0]

data = [(1, 10), (2, 20), (3, 30), (4, 40), (5, 50)]
df = spark.createDataFrame(data, ["col1", "col2"])
quantiles = df.approxQuantile(["col1", "col2"], [0.0, 0.5, 1.0], 0.05)
quantiles
# [[1.0, 3.0, 5.0], [10.0, 30.0, 50.0]]