通过


哈希

计算给定列的哈希代码,并将结果作为 int 列返回。 支持 Spark Connect。

有关相应的 Databricks SQL 函数,请参阅 hash 函数

Syntax

from pyspark.databricks.sql import functions as dbf

dbf.hash(*cols)

参数

参数 类型 Description
cols pyspark.sql.Columnstr 要计算的一个或多个列。

退货

pyspark.sql.Column:哈希值作为 int 列。

例子

示例 1:计算单个列的哈希

from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([('ABC', 'DEF')], ['c1', 'c2'])
df.select('*', dbf.hash('c1')).show()
+---+---+----------+
| c1| c2|  hash(c1)|
+---+---+----------+
|ABC|DEF|-757602832|
+---+---+----------+

示例 2:计算多个列的哈希

from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([('ABC', 'DEF')], ['c1', 'c2'])
df.select('*', dbf.hash('c1', df.c2)).show()
+---+---+------------+
| c1| c2|hash(c1, c2)|
+---+---+------------+
|ABC|DEF|   599895104|
+---+---+------------+