Teilen über


width_bucket

Gibt die Bucketnummer zurück, in die der Wert dieses Ausdrucks nach der Auswertung fallen würde. Beachten Sie, dass Eingabeargumente die unten aufgeführten Bedingungen erfüllen müssen; andernfalls gibt die Methode NULL zurück. Unterstützt Spark Connect.

Die entsprechende Databricks SQL-Funktion finden Sie unter width_bucket Funktion.

Syntax

from pyspark.databricks.sql import functions as dbf

dbf.width_bucket(v=<v>, min=<min>, max=<max>, numBucket=<numBucket>)

Die Parameter

Parameter Typ Description
v pyspark.sql.Column or column name Wert zum Berechnen einer Bucketnummer im Histogramm
min pyspark.sql.Column or column name Mindestwert des Histogramms
max pyspark.sql.Column or column name Maximalwert des Histogramms
numBucket pyspark.sql.Column, column name or int Die Anzahl der Buckets

Rückkehr

pyspark.sql.Column: die Bucketnummer, in die der Wert nach der Auswertung fallen würde

Examples

from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([
    (5.3, 0.2, 10.6, 5),
    (-2.1, 1.3, 3.4, 3),
    (8.1, 0.0, 5.7, 4),
    (-0.9, 5.2, 0.5, 2)],
    ['v', 'min', 'max', 'n'])
df.select("*", dbf.width_bucket('v', 'min', 'max', 'n')).show()
+----+---+----+---+----------------------------+
|   v|min| max|  n|width_bucket(v, min, max, n)|
+----+---+----+---+----------------------------+
| 5.3|0.2|10.6|  5|                           3|
|-2.1|1.3| 3.4|  3|                           0|
| 8.1|0.0| 5.7|  4|                           5|
|-0.9|5.2| 0.5|  2|                           3|
+----+---+----+---+----------------------------+