Databricks Connect ل Python

إشعار

تتناول هذه المقالة Databricks Connect ل Databricks Runtime 13.0 وما فوق.

توضح هذه المقالة كيفية بدء استخدام Databricks Connect بسرعة باستخدام Python وPyCharm.

يمكنك Databricks Connect من توصيل IDEs الشائعة مثل PyCharm وخوادم دفتر الملاحظات والتطبيقات المخصصة الأخرى إلى مجموعات Azure Databricks. راجع ما هو Databricks Connect؟.

برنامج تعليمي

لتخطي هذا البرنامج التعليمي واستخدام IDE مختلف بدلا من ذلك، راجع الخطوات التالية.

المتطلبات

لإكمال هذا البرنامج التعليمي، يجب أن تفي بالمتطلبات التالية:

  • يجب أن تفي مساحة عمل Azure Databricks المستهدفة والمجموعة بمتطلبات تكوين نظام المجموعة ل Databricks Connect.

  • يجب أن يكون لديك معرف نظام المجموعة الخاص بك متوفرا. للحصول على معرف نظام المجموعة، في مساحة العمل، انقر فوق حساب على الشريط الجانبي، ثم انقر فوق اسم نظام المجموعة. في شريط عناوين مستعرض الويب، انسخ سلسلة الأحرف بين clusters عنوان URL وفيه configuration .

  • لديك PyCharm مثبت. تم اختبار هذا البرنامج التعليمي مع PyCharm Community Edition 2023.3.5. إذا كنت تستخدم إصدارا أو إصدارا مختلفا من PyCharm، فقد تختلف الإرشادات التالية.

  • لديك Python 3 مثبت على جهاز التطوير الخاص بك، والإصدار الثانوي من تثبيت Python للعميل الخاص بك هو نفس إصدار Python الثانوي من نظام مجموعة Azure Databricks. يعرض الجدول التالي إصدار Python المثبت مع كل وقت تشغيل Databricks.

    إصدار وقت تشغيل Databricks إصدار Python
    15.0 التعلم الآلي،
    15.0
    3.11
    13.0 التعلم الآلي - 14.3 التعلم الآلي،
    13.0 - 14.3
    3.10

الخطوة 1: تكوين مصادقة Azure Databricks

يستخدم هذا البرنامج التعليمي مصادقة Azure Databricks OAuth من مستخدم إلى جهاز (U2M) وملف تعريف تكوين Azure Databricks للمصادقة مع مساحة عمل Azure Databricks. لاستخدام نوع مصادقة مختلف بدلا من ذلك، راجع تكوين خصائص الاتصال.

يتطلب تكوين مصادقة OAuth U2M CLI Databricks، كما يلي:

  1. إذا لم يكن مثبتا بالفعل، فقم بتثبيت Databricks CLI كما يلي:

    Linux وmacOS

    استخدم Homebrew لتثبيت Databricks CLI عن طريق تشغيل الأمرين التاليين:

    brew tap databricks/tap
    brew install databricks
    

    Windows

    يمكنك استخدام winget أو Chocolatey أو نظام Windows الفرعي لـ Linux (WSL) لتثبيت Databricks CLI. إذا لم تتمكن من استخدام wingetأو Chocolatey أو WSL، يجب تخطي هذا الإجراء واستخدام موجه الأوامر أو PowerShell لتثبيت Databricks CLI من المصدر بدلا من ذلك.

    إشعار

    تثبيت Databricks CLI مع Chocolatey تجريبي.

    لاستخدام winget لتثبيت Databricks CLI، قم بتشغيل الأمرين التاليين، ثم أعد تشغيل موجه الأوامر:

    winget search databricks
    winget install Databricks.DatabricksCLI
    

    لاستخدام Chocolatey لتثبيت Databricks CLI، قم بتشغيل الأمر التالي:

    choco install databricks-cli
    

    لاستخدام WSL لتثبيت Databricks CLI:

    1. تثبيت curl ومن zip خلال WSL. لمزيد من المعلومات، راجع وثائق نظام التشغيل الخاص بك.

    2. استخدم WSL لتثبيت Databricks CLI عن طريق تشغيل الأمر التالي:

      curl -fsSL https://raw.githubusercontent.com/databricks/setup-cli/main/install.sh | sh
      
  2. تأكد من تثبيت Databricks CLI عن طريق تشغيل الأمر التالي، والذي يعرض الإصدار الحالي من Databricks CLI المثبت. يجب أن يكون هذا الإصدار 0.205.0 أو أعلى:

    databricks -v
    

    إشعار

    إذا قمت بتشغيل databricks ولكن تلقيت خطأ مثل command not found: databricks، أو إذا قمت بتشغيل databricks -v وكان رقم الإصدار 0.18 أو أدناه مدرجا، فهذا يعني أن جهازك لا يمكنه العثور على الإصدار الصحيح من Databricks CLI القابل للتنفيذ. لإصلاح ذلك، راجع التحقق من تثبيت CLI.

بدء مصادقة OAuth U2M، كما يلي:

  1. استخدم Databricks CLI لبدء إدارة الرمز المميز OAuth محليا عن طريق تشغيل الأمر التالي لكل مساحة عمل هدف.

    في الأمر التالي، استبدل <workspace-url> بعنوان URL الخاص ب Azure Databricks لكل مساحة عمل، على سبيل المثال https://adb-1234567890123456.7.azuredatabricks.net.

    databricks auth login --configure-cluster --host <workspace-url>
    
  2. يطالبك Databricks CLI بحفظ المعلومات التي أدخلتها كملف تعريف تكوين Azure Databricks. اضغط Enter لقبول اسم ملف التعريف المقترح، أو أدخل اسم ملف تعريف جديد أو موجود. تتم الكتابة فوق أي ملف تعريف موجود بنفس الاسم بالمعلومات التي أدخلتها. يمكنك استخدام ملفات التعريف لتبديل سياق المصادقة بسرعة عبر مساحات عمل متعددة.

    للحصول على قائمة بأي ملفات تعريف موجودة، في محطة طرفية منفصلة أو موجه أوامر، استخدم Databricks CLI لتشغيل الأمر databricks auth profiles. لعرض الإعدادات الموجودة لملف تعريف معين، قم بتشغيل الأمر databricks auth env --profile <profile-name>.

  3. في مستعرض الويب الخاص بك، أكمل الإرشادات التي تظهر على الشاشة لتسجيل الدخول إلى مساحة عمل Azure Databricks.

  4. في قائمة المجموعات المتوفرة التي تظهر في الوحدة الطرفية أو موجه الأوامر، استخدم مفاتيح الأسهم لأعلى ولأسفل لتحديد مجموعة Azure Databricks الهدف في مساحة العمل الخاصة بك، ثم اضغط Enterعلى . يمكنك أيضا كتابة أي جزء من اسم عرض نظام المجموعة لتصفية قائمة المجموعات المتوفرة.

  5. لعرض قيمة رمز OAuth المميز الحالي لملف التعريف والطوابع الزمنية لانتهاء الصلاحية القادمة للرمز المميز، قم بتشغيل أحد الأوامر التالية:

    • databricks auth token --host <workspace-url>
    • databricks auth token -p <profile-name>
    • databricks auth token --host <workspace-url> -p <profile-name>

    إذا كان لديك ملفات تعريف متعددة بنفس --host القيمة، فقد تحتاج إلى تحديد --host الخيارات و -p معا لمساعدة Databricks CLI في العثور على معلومات الرمز المميز OAuth المتطابقة الصحيحة.

الخطوة 2: إنشاء المشروع

  1. ابدأ تشغيل PyCharm.
  2. في القائمة الرئيسية، انقر فوق ملف > مشروع جديد.
  3. في مربع الحوار New Project ، انقر فوق Pure Python.
  4. بالنسبة إلى الموقع، انقر فوق أيقونة المجلد، وأكمل التوجيهات التي تظهر على الشاشة لتحديد المسار إلى مشروع Python الجديد.
  5. اترك Create a main.py welcome script محددا.
  6. بالنسبة لنوع المترجم، انقر فوق Project venv.
  7. قم بتوسيع إصدار Python، واستخدم أيقونة المجلد أو القائمة المنسدلة لتحديد المسار إلى مترجم Python من المتطلبات السابقة.
  8. انقر فوق Create.

إنشاء مشروع PyCharm

الخطوة 3: إضافة حزمة Databricks Connect

  1. في القائمة الرئيسية ل PyCharm، انقر فوق عرض > أداة حزم Windows > Python.
  2. في مربع البحث، أدخل databricks-connect.
  3. في قائمة مستودع PyPI، انقر فوق databricks-connect.
  4. في القائمة المنسدلة الأحدث لجزء النتائج، حدد الإصدار الذي يطابق إصدار Databricks Runtime لنظام المجموعة. على سبيل المثال، إذا كانت مجموعتك تحتوي على Databricks Runtime 14.3 مثبتة، فحدد 14.3.1.
  5. انقر فوق تثبيت الحزمة.
  6. بعد تثبيت الحزمة، يمكنك إغلاق نافذة حزم Python .

تثبيت حزمة Databricks Connect

الخطوة 4: إضافة تعليمة برمجية

  1. في نافذة أداة Project، انقر بزر الماوس الأيمن فوق المجلد الجذر للمشروع، وانقر فوق ملف Python جديد>.

  2. أدخل main.py ملف Python وانقر نقرا مزدوجا فوقه.

  3. أدخل التعليمات البرمجية التالية في الملف ثم احفظ الملف، اعتمادا على اسم ملف تعريف التكوين الخاص بك.

    إذا كان ملف تعريف التكوين الخاص بك من الخطوة 1 يسمى DEFAULT، فأدخل التعليمات البرمجية التالية في الملف، ثم احفظ الملف:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

    إذا لم تتم تسمية DEFAULTملف تعريف التكوين الخاص بك من الخطوة 1 ، أدخل التعليمات البرمجية التالية في الملف بدلا من ذلك. استبدل العنصر النائب <profile-name> باسم ملف تعريف التكوين من الخطوة 1، ثم احفظ الملف:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

الخطوة 5: تشغيل التعليمات البرمجية

  1. ابدأ تشغيل نظام المجموعة الهدف في مساحة عمل Azure Databricks البعيدة.
  2. بعد بدء تشغيل نظام المجموعة، في القائمة الرئيسية، انقر فوق Run > Run 'main'.
  3. في نافذة أداة التشغيل (عرض > أداة تشغيل Windows>)، في الجزء الرئيسي لعلامة التبويب تشغيل، تظهر أول 5 صفوف من .samples.nyctaxi.trips

الخطوة 6: تصحيح التعليمات البرمجية

  1. مع استمرار تشغيل نظام المجموعة، في التعليمات البرمجية السابقة، انقر فوق التوثيق بجوار df.show(5) لتعيين نقطة توقف.
  2. في القائمة الرئيسية، انقر فوق Run > Debug 'main'.
  3. في نافذة أداة تتبع الأخطاء (View > Tool Windows > Debug)، في جزء المتغيرات في علامة التبويب Debugger، قم بتوسيع العقد المتغيرة df وspark لاستعراض معلومات حول التعليمات البرمجية df والمتغيراتspark.
  4. في الشريط الجانبي لنافذة أداة التصحيح ، انقر فوق أيقونة السهم الأخضر (استئناف البرنامج).
  5. في جزء وحدة تحكم علامة التبويب Debugger، تظهر أول 5 صفوف من .samples.nyctaxi.trips

تصحيح أخطاء مشروع PyCharm

الخطوات التالية

لمعرفة المزيد حول Databricks Connect، راجع مقالات مثل ما يلي: