histogram_numeric

Calcule un histogramme sur un « col » numérique à l’aide de bacs nb. La valeur de retour est un tableau de paires (x,y) représentant les centres des bacs de l’histogramme. À mesure que la valeur de 'nb' est augmentée, l’approximation de l’histogramme est plus fine, mais peut produire des artefacts autour des valeurs hors norme. Dans la pratique, les compartiments d’histogramme 20-40 semblent fonctionner correctement, avec davantage de compartiments requis pour les jeux de données asymétriques ou plus petits. Notez que cette fonction crée un histogramme avec des largeurs de bac non uniformes. Il n’offre aucune garantie en termes d’erreur moyenne carrée de l’histogramme, mais dans la pratique est comparable aux histogrammes produits par les packages d’informatique statistique R/S-Plus. Remarque : le type de sortie du champ « x » dans la valeur de retour est propagé à partir de la valeur d’entrée consommée dans la fonction d’agrégation.

Syntaxe

from pyspark.sql import functions as sf

sf.histogram_numeric(col, nBins)

Paramètres

Paramètre	Type	Descriptif
`col`	`pyspark.sql.Column` ou str	Colonne cible sur laquelle travailler.
`nBins`	`pyspark.sql.Column`	Nombre de colonnes d’histogramme.

Retours

pyspark.sql.Column: histogramme sur numérique 'col' à l’aide de bacs nb.

Examples

Exemple 1 : Histogramme de calcul avec 5 bacs

from pyspark.sql import functions as sf
df = spark.range(100, numPartitions=1)
df.select(sf.histogram_numeric('id', sf.lit(5))).show(truncate=False)

+-----------------------------------------------------------+
|histogram_numeric(id, 5)                                   |
+-----------------------------------------------------------+
|[{11, 25.0}, {36, 24.0}, {59, 23.0}, {84, 25.0}, {98, 3.0}]|
+-----------------------------------------------------------+

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-02-01