Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Calcula el código hash de columnas dadas y devuelve el resultado como una columna int. Soporta Spark Connect.
Para obtener la función SQL de Databricks correspondiente, consulte hash function.
Syntax
from pyspark.databricks.sql import functions as dbf
dbf.hash(*cols)
Parámetros
| Parámetro | Tipo | Description |
|---|---|---|
cols |
pyspark.sql.Column o str |
Una o varias columnas en las que se va a calcular. |
Devoluciones
pyspark.sql.Column: valor hash como columna int.
Examples
Ejemplo 1: Cálculo del hash de una sola columna
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([('ABC', 'DEF')], ['c1', 'c2'])
df.select('*', dbf.hash('c1')).show()
+---+---+----------+
| c1| c2| hash(c1)|
+---+---+----------+
|ABC|DEF|-757602832|
+---+---+----------+
Ejemplo 2: Cálculo del hash de varias columnas
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([('ABC', 'DEF')], ['c1', 'c2'])
df.select('*', dbf.hash('c1', df.c2)).show()
+---+---+------------+
| c1| c2|hash(c1, c2)|
+---+---+------------+
|ABC|DEF| 599895104|
+---+---+------------+