Databricks Connect ل Python

إشعار

تتناول هذه المقالة Databricks Connect ل Databricks Runtime 13.3 LTS وما فوق.

توضح هذه المقالة كيفية بدء استخدام Databricks Connect بسرعة باستخدام Python وPyCharm.

يمكنك Databricks Connect من توصيل IDEs الشائعة مثل PyCharm وخوادم دفتر الملاحظات والتطبيقات المخصصة الأخرى إلى مجموعات Azure Databricks. راجع ما هو Databricks Connect؟.

برنامج تعليمي

لتخطي هذا البرنامج التعليمي واستخدام IDE مختلف بدلا من ذلك، راجع الخطوات التالية.

المتطلبات

لإكمال هذا البرنامج التعليمي، يجب أن تفي بالمتطلبات التالية:

  • يجب تمكين كتالوج Unity لمساحة عمل Azure Databricks المستهدفة.
  • لديك PyCharm مثبت. تم اختبار هذا البرنامج التعليمي مع PyCharm Community Edition 2023.3.5. إذا كنت تستخدم إصدارا أو إصدارا مختلفا من PyCharm، فقد تختلف الإرشادات التالية.
  • يفي الحساب الخاص بك بمتطلبات تثبيت Databricks Connect ل Python.
  • إذا كنت تستخدم الحوسبة الكلاسيكية، فستحتاج إلى معرف نظام المجموعة. للحصول على معرف نظام المجموعة، في مساحة العمل، انقر فوق حساب على الشريط الجانبي، ثم انقر فوق اسم نظام المجموعة. في شريط عناوين مستعرض الويب، انسخ سلسلة الأحرف بين clusters عنوان URL وفيه configuration .

الخطوة 1: تكوين مصادقة Azure Databricks

يستخدم هذا البرنامج التعليمي مصادقة Azure Databricks OAuth من مستخدم إلى جهاز (U2M) وملف تعريف تكوين Azure Databricks للمصادقة على مساحة عمل Azure Databricks. لاستخدام نوع مصادقة مختلف، راجع تكوين خصائص الاتصال.

يتطلب تكوين مصادقة OAuth U2M CLI Databricks. للحصول على معلومات حول تثبيت Databricks CLI، راجع تثبيت Databricks CLI أو تحديثه.

بدء مصادقة OAuth U2M، كما يلي:

  1. استخدم Databricks CLI لبدء إدارة الرمز المميز OAuth محليا عن طريق تشغيل الأمر التالي لكل مساحة عمل هدف.

    في الأمر التالي، استبدل <workspace-url> بعنوان URL الخاص ب Azure Databricks لكل مساحة عمل، على سبيل المثال https://adb-1234567890123456.7.azuredatabricks.net.

    databricks auth login --configure-cluster --host <workspace-url>
    

    بدلا من ذلك، إذا كنت ترغب في استخدام حساب Databricks Serverless مع DB Connect، فاتبع الخطوات الواردة في تكوين اتصال بالحوسبة بلا خادم.

  2. يطالبك Databricks CLI بحفظ المعلومات التي أدخلتها كملف تعريف تكوين Azure Databricks. اضغط Enter لقبول اسم ملف التعريف المقترح، أو أدخل اسم ملف تعريف جديد أو موجود. تتم الكتابة فوق أي ملف تعريف موجود بنفس الاسم بالمعلومات التي أدخلتها. يمكنك استخدام ملفات التعريف لتبديل سياق المصادقة بسرعة عبر مساحات عمل متعددة.

    للحصول على قائمة بأي ملفات تعريف موجودة، في محطة طرفية منفصلة أو موجه أوامر، استخدم Databricks CLI لتشغيل الأمر databricks auth profiles. لعرض الإعدادات الموجودة لملف تعريف معين، قم بتشغيل الأمر databricks auth env --profile <profile-name>.

  3. في مستعرض الويب الخاص بك، أكمل الإرشادات التي تظهر على الشاشة لتسجيل الدخول إلى مساحة عمل Azure Databricks.

  4. في قائمة المجموعات المتوفرة التي تظهر في الوحدة الطرفية أو موجه الأوامر، استخدم مفاتيح الأسهم لأعلى ولأسفل لتحديد مجموعة Azure Databricks الهدف في مساحة العمل الخاصة بك، ثم اضغط Enterعلى . يمكنك أيضا كتابة أي جزء من اسم عرض نظام المجموعة لتصفية قائمة المجموعات المتوفرة.

  5. لعرض قيمة رمز OAuth المميز الحالي لملف التعريف والطوابع الزمنية لانتهاء الصلاحية القادمة للرمز المميز، قم بتشغيل أحد الأوامر التالية:

    • databricks auth token --host <workspace-url>
    • databricks auth token -p <profile-name>
    • databricks auth token --host <workspace-url> -p <profile-name>

    إذا كان لديك ملفات تعريف متعددة بنفس --host القيمة، فقد تحتاج إلى تحديد --host الخيارات و -p معا لمساعدة Databricks CLI في العثور على معلومات الرمز المميز OAuth المتطابقة الصحيحة.

الخطوة 2: إنشاء المشروع

  1. ابدأ تشغيل PyCharm.
  2. في القائمة الرئيسية، انقر فوق ملف > مشروع جديد.
  3. في مربع الحوار New Project ، انقر فوق Pure Python.
  4. بالنسبة إلى الموقع، انقر فوق أيقونة المجلد، وأكمل التوجيهات التي تظهر على الشاشة لتحديد المسار إلى مشروع Python الجديد.
  5. اترك Create a main.py welcome script محددا.
  6. بالنسبة لنوع المترجم، انقر فوق Project venv.
  7. قم بتوسيع إصدار Python، واستخدم أيقونة المجلد أو القائمة المنسدلة لتحديد المسار إلى مترجم Python من المتطلبات السابقة.
  8. انقر فوق Create.

إنشاء مشروع PyCharm

الخطوة 3: إضافة حزمة Databricks Connect

  1. في القائمة الرئيسية ل PyCharm، انقر فوق عرض > أداة حزم Windows > Python.
  2. في مربع البحث، أدخل databricks-connect.
  3. في قائمة مستودع PyPI، انقر فوق databricks-connect.
  4. في القائمة المنسدلة الأحدث لجزء النتائج، حدد الإصدار الذي يطابق إصدار Databricks Runtime لنظام المجموعة. على سبيل المثال، إذا كانت مجموعتك تحتوي على Databricks Runtime 14.3 مثبتة، فحدد 14.3.1.
  5. انقر فوق تثبيت الحزمة.
  6. بعد تثبيت الحزمة، يمكنك إغلاق نافذة حزم Python .

تثبيت حزمة Databricks Connect

الخطوة 4: إضافة تعليمة برمجية

  1. في نافذة أداة Project، انقر بزر الماوس الأيمن فوق المجلد الجذر للمشروع، وانقر فوق ملف Python جديد>.

  2. أدخل main.py ملف Python وانقر نقرا مزدوجا فوقه.

  3. أدخل التعليمات البرمجية التالية في الملف ثم احفظ الملف، اعتمادا على اسم ملف تعريف التكوين الخاص بك.

    إذا كان ملف تعريف التكوين الخاص بك من الخطوة 1 يسمى DEFAULT، فأدخل التعليمات البرمجية التالية في الملف، ثم احفظ الملف:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

    إذا لم تتم تسمية DEFAULTملف تعريف التكوين الخاص بك من الخطوة 1 ، أدخل التعليمات البرمجية التالية في الملف بدلا من ذلك. استبدل العنصر النائب <profile-name> باسم ملف تعريف التكوين من الخطوة 1، ثم احفظ الملف:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

الخطوة 5: تشغيل التعليمات البرمجية

  1. ابدأ تشغيل نظام المجموعة الهدف في مساحة عمل Azure Databricks البعيدة.
  2. بعد بدء تشغيل نظام المجموعة، في القائمة الرئيسية، انقر فوق Run > Run 'main'.
  3. في نافذة أداة التشغيل (عرض > أداة تشغيل Windows>)، في الجزء الرئيسي لعلامة التبويب تشغيل، تظهر أول 5 صفوف من .samples.nyctaxi.trips

الخطوة 6: تصحيح التعليمات البرمجية

  1. مع استمرار تشغيل نظام المجموعة، في التعليمات البرمجية السابقة، انقر فوق التوثيق بجوار df.show(5) لتعيين نقطة توقف.
  2. في القائمة الرئيسية، انقر فوق Run > Debug 'main'.
  3. في نافذة أداة تتبع الأخطاء (View > Tool Windows > Debug)، في جزء المتغيرات في علامة التبويب Debugger، قم بتوسيع العقد المتغيرة df وspark لاستعراض معلومات حول التعليمات البرمجية df والمتغيراتspark.
  4. في الشريط الجانبي لنافذة أداة التصحيح ، انقر فوق أيقونة السهم الأخضر (استئناف البرنامج).
  5. في جزء وحدة تحكم علامة التبويب Debugger، تظهر أول 5 صفوف من .samples.nyctaxi.trips

تصحيح أخطاء مشروع PyCharm

الخطوات التالية

لمعرفة المزيد حول Databricks Connect، راجع مقالات مثل ما يلي: