Användardefinierade funktioner i Databricks Anslut för Python
Kommentar
Den här artikeln beskriver Databricks Anslut för Databricks Runtime 13.1 och senare.
Den här artikeln beskriver hur du kör UDF:er med Databricks Anslut för Python. Med Databricks Anslut kan du ansluta populära ID:er, notebook-servrar och anpassade program till Azure Databricks-kluster. För Scala-versionen av den här artikeln, se Användardefinierade funktioner i Databricks Anslut för Scala.
Kommentar
Innan du börjar använda Databricks Anslut måste du konfigurera Databricks-Anslut-klienten.
Databricks Anslut för Python stöder användardefinierade funktioner (UDF). När en Dataframe-åtgärd som innehåller UDF:er körs serialiseras de berörda UDF:erna av Databricks Anslut och skickas över till servern som en del av begäran.
Kommentar
Eftersom den användardefinierade funktionen serialiseras och deserialiseras måste Python-versionen som används av klienten matcha Python-versionen i Azure Databricks-klustret. Information om hur du kontrollerar klustrets Python-version finns i avsnittet "SystemMiljö" för klustrets Databricks Runtime-version i Databricks Runtime versionsanteckningar och kompatibilitet.
Följande Python-program konfigurerar en enkel UDF som kvadrerar värden i en kolumn.
from pyspark.sql.functions import col, udf
from pyspark.sql.types import IntegerType
from databricks.connect import DatabricksSession
@udf(returnType=IntegerType())
def double(x):
return x * x
spark = DatabricksSession.builder.getOrCreate()
df = spark.range(1, 2)
df = df.withColumn("doubled", double(col("id")))
df.show()