Dela via


Användardefinierade funktioner i Databricks Anslut för Python

Kommentar

Den här artikeln beskriver Databricks Anslut för Databricks Runtime 13.1 och senare.

Den här artikeln beskriver hur du kör UDF:er med Databricks Anslut för Python. Med Databricks Anslut kan du ansluta populära ID:er, notebook-servrar och anpassade program till Azure Databricks-kluster. För Scala-versionen av den här artikeln, se Användardefinierade funktioner i Databricks Anslut för Scala.

Kommentar

Innan du börjar använda Databricks Anslut måste du konfigurera Databricks-Anslut-klienten.

Databricks Anslut för Python stöder användardefinierade funktioner (UDF). När en Dataframe-åtgärd som innehåller UDF:er körs serialiseras de berörda UDF:erna av Databricks Anslut och skickas över till servern som en del av begäran.

Kommentar

Eftersom den användardefinierade funktionen serialiseras och deserialiseras måste Python-versionen som används av klienten matcha Python-versionen i Azure Databricks-klustret. Information om hur du kontrollerar klustrets Python-version finns i avsnittet "SystemMiljö" för klustrets Databricks Runtime-version i Databricks Runtime versionsanteckningar och kompatibilitet.

Följande Python-program konfigurerar en enkel UDF som kvadrerar värden i en kolumn.

from pyspark.sql.functions import col, udf
from pyspark.sql.types import IntegerType
from databricks.connect import DatabricksSession

@udf(returnType=IntegerType())
def double(x):
    return x * x

spark = DatabricksSession.builder.getOrCreate()

df = spark.range(1, 2)
df = df.withColumn("doubled", double(col("id")))

df.show()