Compartir vía


width_bucket

Devuelve el número de compartimento en el que el valor de esta expresión caería después de evaluarse. Tenga en cuenta que los argumentos de entrada deben seguir las condiciones enumeradas a continuación; de lo contrario, el método devolverá null. Soporta Spark Connect.

Para obtener la función SQL de Databricks correspondiente, consulte width_bucket function.

Syntax

from pyspark.databricks.sql import functions as dbf

dbf.width_bucket(v=<v>, min=<min>, max=<max>, numBucket=<numBucket>)

Parámetros

Parámetro Tipo Description
v pyspark.sql.Column or column name valor para calcular un número de cubo en el histograma
min pyspark.sql.Column or column name valor mínimo del histograma
max pyspark.sql.Column or column name valor máximo del histograma
numBucket pyspark.sql.Column, column name or int el número de cubos

Devoluciones

pyspark.sql.Column: el número de cubo en el que el valor caería después de evaluarse.

Examples

from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([
    (5.3, 0.2, 10.6, 5),
    (-2.1, 1.3, 3.4, 3),
    (8.1, 0.0, 5.7, 4),
    (-0.9, 5.2, 0.5, 2)],
    ['v', 'min', 'max', 'n'])
df.select("*", dbf.width_bucket('v', 'min', 'max', 'n')).show()
+----+---+----+---+----------------------------+
|   v|min| max|  n|width_bucket(v, min, max, n)|
+----+---+----+---+----------------------------+
| 5.3|0.2|10.6|  5|                           3|
|-2.1|1.3| 3.4|  3|                           0|
| 8.1|0.0| 5.7|  4|                           5|
|-0.9|5.2| 0.5|  2|                           3|
+----+---+----+---+----------------------------+