مشاركة عبر


الوظائف المعرفة من قبل المستخدم في الاتصال Databricks ل Python

إشعار

تتناول هذه المقالة الاتصال Databricks لوقت تشغيل Databricks 13.1 وما فوق.

توضح هذه المقالة كيفية تنفيذ UDFs مع databricks الاتصال ل Python. تمكنك الاتصال Databricks من توصيل IDEs الشائعة وخوادم دفاتر الملاحظات والتطبيقات المخصصة إلى مجموعات Azure Databricks. للحصول على إصدار Scala من هذه المقالة، راجع الوظائف المعرفة من قبل المستخدم في الاتصال Databricks ل Scala.

إشعار

قبل البدء في استخدام الاتصال Databricks، يجب عليك إعداد عميل الاتصال Databricks.

يدعم الاتصال Databricks ل Python الوظائف المعرفة من قبل المستخدم (UDF). عند تنفيذ عملية Dataframe التي تتضمن UDFs، يتم تسلسل UDFs المعنية بواسطة Databricks الاتصال وإرسالها إلى الخادم كجزء من الطلب.

إشعار

نظرا لأن الدالة المعرفة من قبل المستخدم يتم تسلسلها وإلغاء تسلسلها، يجب أن يتطابق إصدار Python المستخدم من قبل العميل مع إصدار Python على نظام مجموعة Azure Databricks. للتحقق من إصدار Python لنظام المجموعة، راجع قسم "بيئة النظام" لإصدار Databricks Runtime لنظام المجموعة في إصدارات ملاحظات إصدار Databricks Runtime والتوافق.

يقوم برنامج Python التالي بإعداد UDF بسيط يضبط القيم في عمود.

from pyspark.sql.functions import col, udf
from pyspark.sql.types import IntegerType
from databricks.connect import DatabricksSession

@udf(returnType=IntegerType())
def double(x):
    return x * x

spark = DatabricksSession.builder.getOrCreate()

df = spark.range(1, 2)
df = df.withColumn("doubled", double(col("id")))

df.show()