Partilhar via


hash

Calcula o código hash das colunas dadas e devolve o resultado como uma coluna int. Suporta o Spark Connect.

Para a função SQL do Databricks correspondente, veja hash função.

Sintaxe

from pyspark.databricks.sql import functions as dbf

dbf.hash(*cols)

Parâmetros

Parâmetro Tipo Description
cols pyspark.sql.Column ou str Uma ou mais colunas para calcular.

Devoluções

pyspark.sql.Column: valor de hash como coluna int.

Examples

Exemplo 1: Calcular o hash de uma única coluna

from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([('ABC', 'DEF')], ['c1', 'c2'])
df.select('*', dbf.hash('c1')).show()
+---+---+----------+
| c1| c2|  hash(c1)|
+---+---+----------+
|ABC|DEF|-757602832|
+---+---+----------+

Exemplo 2: Cálculo do hash de múltiplas colunas

from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([('ABC', 'DEF')], ['c1', 'c2'])
df.select('*', dbf.hash('c1', df.c2)).show()
+---+---+------------+
| c1| c2|hash(c1, c2)|
+---+---+------------+
|ABC|DEF|   599895104|
+---+---+------------+