Partilhar via


width_bucket

Devolve o número do compartimento em que o valor desta expressão se enquadrará após ser avaliado. Note que os argumentos de entrada devem seguir as condições listadas abaixo; caso contrário, o método devolverá nulo. Suporta o Spark Connect.

Para a função SQL do Databricks correspondente, veja width_bucket função.

Sintaxe

from pyspark.databricks.sql import functions as dbf

dbf.width_bucket(v=<v>, min=<min>, max=<max>, numBucket=<numBucket>)

Parâmetros

Parâmetro Tipo Description
v pyspark.sql.Column or column name valor para calcular um número de balde no histograma
min pyspark.sql.Column or column name valor mínimo do histograma
max pyspark.sql.Column or column name Valor máximo do histograma
numBucket pyspark.sql.Column, column name or int O número de baldes

Devoluções

pyspark.sql.Column: o número do balde no qual o valor cairá após avaliação

Examples

from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([
    (5.3, 0.2, 10.6, 5),
    (-2.1, 1.3, 3.4, 3),
    (8.1, 0.0, 5.7, 4),
    (-0.9, 5.2, 0.5, 2)],
    ['v', 'min', 'max', 'n'])
df.select("*", dbf.width_bucket('v', 'min', 'max', 'n')).show()
+----+---+----+---+----------------------------+
|   v|min| max|  n|width_bucket(v, min, max, n)|
+----+---+----+---+----------------------------+
| 5.3|0.2|10.6|  5|                           3|
|-2.1|1.3| 3.4|  3|                           0|
| 8.1|0.0| 5.7|  4|                           5|
|-0.9|5.2| 0.5|  2|                           3|
+----+---+----+---+----------------------------+