Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Calcule un histogramme sur un « col » numérique à l’aide de bacs nb. La valeur de retour est un tableau de paires (x,y) représentant les centres des bacs de l’histogramme. À mesure que la valeur de 'nb' est augmentée, l’approximation de l’histogramme est plus fine, mais peut produire des artefacts autour des valeurs hors norme. Dans la pratique, les compartiments d’histogramme 20-40 semblent fonctionner correctement, avec davantage de compartiments requis pour les jeux de données asymétriques ou plus petits. Notez que cette fonction crée un histogramme avec des largeurs de bac non uniformes. Il n’offre aucune garantie en termes d’erreur moyenne carrée de l’histogramme, mais dans la pratique est comparable aux histogrammes produits par les packages d’informatique statistique R/S-Plus. Remarque : le type de sortie du champ « x » dans la valeur de retour est propagé à partir de la valeur d’entrée consommée dans la fonction d’agrégation.
Syntaxe
from pyspark.sql import functions as sf
sf.histogram_numeric(col, nBins)
Paramètres
| Paramètre | Type | Descriptif |
|---|---|---|
col |
pyspark.sql.Column ou str |
Colonne cible sur laquelle travailler. |
nBins |
pyspark.sql.Column |
Nombre de colonnes d’histogramme. |
Retours
pyspark.sql.Column: histogramme sur numérique 'col' à l’aide de bacs nb.
Examples
Exemple 1 : Histogramme de calcul avec 5 bacs
from pyspark.sql import functions as sf
df = spark.range(100, numPartitions=1)
df.select(sf.histogram_numeric('id', sf.lit(5))).show(truncate=False)
+-----------------------------------------------------------+
|histogram_numeric(id, 5) |
+-----------------------------------------------------------+
|[{11, 25.0}, {36, 24.0}, {59, 23.0}, {84, 25.0}, {98, 3.0}]|
+-----------------------------------------------------------+