Compartilhar via


width_bucket

Retorna o número do compartimento no qual o valor desta expressão se encaixaria após ser avaliado. Observe que os argumentos de entrada devem seguir as condições listadas abaixo; caso contrário, o método retornará nulo. Dá suporte ao Spark Connect.

Para a função SQL do Databricks correspondente, consulte a função width_bucket.

Sintaxe

from pyspark.databricks.sql import functions as dbf

dbf.width_bucket(v=<v>, min=<min>, max=<max>, numBucket=<numBucket>)

Parâmetros

Parâmetro Tipo Description
v pyspark.sql.Column or column name valor para calcular um número de bucket no histograma
min pyspark.sql.Column or column name valor mínimo do histograma
max pyspark.sql.Column or column name valor máximo do histograma
numBucket pyspark.sql.Column, column name or int o número de buckets

Devoluções

pyspark.sql.Column: o número do bucket no qual o valor cairia após ser avaliado

Exemplos

from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([
    (5.3, 0.2, 10.6, 5),
    (-2.1, 1.3, 3.4, 3),
    (8.1, 0.0, 5.7, 4),
    (-0.9, 5.2, 0.5, 2)],
    ['v', 'min', 'max', 'n'])
df.select("*", dbf.width_bucket('v', 'min', 'max', 'n')).show()
+----+---+----+---+----------------------------+
|   v|min| max|  n|width_bucket(v, min, max, n)|
+----+---+----+---+----------------------------+
| 5.3|0.2|10.6|  5|                           3|
|-2.1|1.3| 3.4|  3|                           0|
| 8.1|0.0| 5.7|  4|                           5|
|-0.9|5.2| 0.5|  2|                           3|
+----+---+----+---+----------------------------+