Python için Databricks Bağlan kullanıcı tanımlı işlevler

Makale
03/01/2024

Not

Bu makalede Databricks Runtime 13.1 ve üzeri için Databricks Bağlan yer alır.

Bu makalede Python için Databricks Bağlan ile UDF'lerin nasıl yürütüldiği açıklanır. Databricks Bağlan popüler IDE'leri, not defteri sunucularını ve özel uygulamaları Azure Databricks kümelerine bağlamanızı sağlar. Bu makalenin Scala sürümü için bkz. Scala için Databricks Bağlan kullanıcı tanımlı işlevler.

Not

Databricks Bağlan kullanmaya başlamadan önce Databricks Bağlan istemcisini ayarlamanız gerekir.

Python için Databricks Bağlan kullanıcı tanımlı işlevleri (UDF) destekler. UDF'leri içeren bir Dataframe işlemi yürütülürse, ilgili UDF'ler Databricks Bağlan tarafından serileştirilir ve isteğin bir parçası olarak sunucuya gönderilir.

Not

Kullanıcı tanımlı işlev serileştirilmiş ve seri durumdan çıkarılmış olduğundan, istemci tarafından kullanılan Python sürümü Azure Databricks kümesindeki Python sürümüyle eşleşmelidir. Kümenin Python sürümünü denetlemek için Databricks Runtime sürüm notları sürümleri ve uyumluluğunda kümenin Databricks Runtime sürümünün "Sistem Ortamı" bölümüne bakın.

Aşağıdaki Python programı, bir sütundaki değerlerin karesini alan basit bir UDF ayarlar.

from pyspark.sql.functions import col, udf
from pyspark.sql.types import IntegerType
from databricks.connect import DatabricksSession

@udf(returnType=IntegerType())
def double(x):
    return x * x

spark = DatabricksSession.builder.getOrCreate()

df = spark.range(1, 2)
df = df.withColumn("doubled", double(col("id")))

df.show()

Aracılığıyla paylaş

Python için Databricks Bağlan kullanıcı tanımlı işlevler

Ek kaynaklar