Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Calcola il codice hash delle colonne specificate e restituisce il risultato come colonna int. Supporta Spark Connect.
Per la funzione SQL di Databricks corrispondente, vedere hash funzione.
Sintassi
from pyspark.databricks.sql import functions as dbf
dbf.hash(*cols)
Parametri
| Parametro | TIPO | Description |
|---|---|---|
cols |
pyspark.sql.Column o str |
Una o più colonne su cui eseguire il calcolo. |
Restituzioni
pyspark.sql.Column: valore hash come colonna int.
Esempi
Esempio 1: Calcolo dell'hash di una singola colonna
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([('ABC', 'DEF')], ['c1', 'c2'])
df.select('*', dbf.hash('c1')).show()
+---+---+----------+
| c1| c2| hash(c1)|
+---+---+----------+
|ABC|DEF|-757602832|
+---+---+----------+
Esempio 2: Calcolo dell'hash di più colonne
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([('ABC', 'DEF')], ['c1', 'c2'])
df.select('*', dbf.hash('c1', df.c2)).show()
+---+---+------------+
| c1| c2|hash(c1, c2)|
+---+---+------------+
|ABC|DEF| 599895104|
+---+---+------------+