الاتصال Databricks ل R

إشعار

تتناول sparklyr هذه المقالة التكامل مع Databricks الاتصال ل Databricks Runtime 13.0 والإصدارات الأحدث. لا يوفر Databricks هذا التكامل ولا يدعمه Databricks مباشرة.

للأسئلة، انتقل إلى مجتمع Posit.

للإبلاغ عن المشكلات، انتقل إلى قسم المشكلات في sparklyr المستودع في GitHub.

لمزيد من المعلومات، راجع Databricks الاتصال v2 في sparklyr الوثائق.

توضح هذه المقالة كيفية البدء بسرعة باستخدام Databricks الاتصال باستخدام R و sparklyrو RStudio Desktop.

تمكنك الاتصال Databricks من توصيل IDEs الشائعة مثل سطح المكتب RStudio وخوادم دفتر الملاحظات والتطبيقات المخصصة الأخرى إلى مجموعات Azure Databricks. راجع ما هو Databricks الاتصال؟.

برنامج تعليمي

يستخدم هذا البرنامج التعليمي RStudio Desktop وPython 3.10. إذا لم تكن مثبتة بالفعل، فقم بتثبيت R وRStudio Desktop وPython 3.10.

للحصول على معلومات إضافية حول هذا البرنامج التعليمي، راجع قسم "Databricks الاتصال" في Spark الاتصال وDatabricks الاتصال v2 على sparklyr موقع الويب.

المتطلبات

لإكمال هذا البرنامج التعليمي، يجب أن تفي بالمتطلبات التالية:

  • يجب أن تفي مساحة عمل Azure Databricks المستهدفة والمجموعة بمتطلبات تكوين نظام المجموعة الاتصال Databricks.
  • يجب أن يكون لديك معرف نظام المجموعة الخاص بك متوفرا. للحصول على معرف نظام المجموعة، في مساحة العمل، انقر فوق حساب على الشريط الجانبي، ثم انقر فوق اسم نظام المجموعة. في شريط عناوين مستعرض الويب، انسخ سلسلة الأحرف بين clusters عنوان URL وفيه configuration .

الخطوة 1: إنشاء رمز مميز للوصول الشخصي

إشعار

يدعم الاتصال Databricks لمصادقة R حاليا فقط رموز الوصول الشخصية ل Azure Databricks.

يستخدم هذا البرنامج التعليمي مصادقة رمز الوصول الشخصي Azure Databricks للمصادقة مع مساحة عمل Azure Databricks.

إذا كان لديك بالفعل رمز مميز للوصول الشخصي إلى Azure Databricks، فانتقل إلى الخطوة 2. إذا لم تكن متأكدا مما إذا كان لديك بالفعل رمز وصول شخصي ل Azure Databricks، يمكنك اتباع هذه الخطوة دون التأثير على أي رموز وصول شخصية أخرى ل Azure Databricks في حساب المستخدم الخاص بك.

لإنشاء رمز مميز للوصول الشخصي:

  1. في مساحة عمل Azure Databricks، انقر فوق اسم مستخدم Azure Databricks في الشريط العلوي، ثم حدد الإعدادات من القائمة المنسدلة.
  2. انقر فوق المطور.
  3. إلى جانب رموز الوصول المميزة، انقر فوق إدارة.
  4. النقر على Generate new token.
  5. (اختياري) أدخل تعليقا يساعدك على تحديد هذا الرمز المميز في المستقبل، وتغيير العمر الافتراضي للرمز المميز وهو 90 يوما. لإنشاء رمز مميز بدون مدة بقاء (غير مستحسن)، اترك مربع مدة البقاء (أيام) فارغا (فارغ).
  6. انقر فوق "Generate".
  7. انسخ الرمز المميز المعروض إلى موقع آمن، ثم انقر فوق تم.

إشعار

تأكد من حفظ الرمز المميز المنسخ في موقع آمن. لا تشارك الرمز المميز المنسخ مع الآخرين. إذا فقدت الرمز المميز المنسخ، فلا يمكنك إعادة إنشاء نفس الرمز المميز بالضبط. بدلا من ذلك، يجب تكرار هذا الإجراء لإنشاء رمز مميز جديد. إذا فقدت الرمز المميز الذي تم نسخه، أو كنت تعتقد أنه تم اختراق الرمز المميز، فإن Databricks يوصي بشدة بحذف هذا الرمز المميز على الفور من مساحة العمل الخاصة بك عن طريق النقر فوق أيقونة سلة المهملات (إبطال) بجوار الرمز المميز في صفحة رموز Access المميزة .

إذا لم تتمكن من إنشاء الرموز المميزة أو استخدامها في مساحة العمل الخاصة بك، فقد يرجع ذلك إلى قيام مسؤول مساحة العمل بتعطيل الرموز المميزة أو عدم منحك الإذن لإنشاء الرموز المميزة أو استخدامها. راجع مسؤول مساحة العمل أو ما يلي:

الخطوة 2: إنشاء المشروع

  1. ابدأ تشغيل RStudio Desktop.
  2. في القائمة الرئيسية، انقر فوق ملف > مشروع جديد.
  3. حدد New Directory.
  4. حدد مشروع جديد.
  5. بالنسبة إلى اسم الدليل وإنشاء مشروع كدليل فرعي ل، أدخل اسم دليل المشروع الجديد ومكان إنشاء دليل المشروع الجديد هذا.
  6. حدد استخدام renv مع هذا المشروع. إذا تمت مطالبتك بتثبيت إصدار محدث من الحزمة renv ، فانقر فوق نعم.
  7. انقر فوق Create Project.

إنشاء مشروع RStudio Desktop

الخطوة 3: إضافة حزمة الاتصال Databricks والتبعيات الأخرى

  1. في القائمة الرئيسية لسطح المكتب RStudio، انقر فوق أدوات > تثبيت الحزم.

  2. اترك Install من set to Repository (CRAN).

  3. بالنسبة إلى الحزم، أدخل القائمة التالية من الحزم التي تعد متطلبات أساسية لحزمة الاتصال Databricks وهذا البرنامج التعليمي:

    sparklyr,pysparklyr,reticulate,usethis,dplyr,dbplyr
    
  4. اترك Install to Library معينا على بيئة R الظاهرية.

  5. تأكد من تحديد تثبيت التبعيات .

  6. انقر فوق تثبيت.

تثبيت تبعيات حزمة الاتصال Databricks

  1. عند مطالبتك في طريقة عرض وحدة التحكم (عرض > نقل التركيز إلى وحدة التحكم) لمتابعة التثبيت، أدخل Y. sparklyr يتم تثبيت الحزم و pysparklyr وتبعياتها في بيئة R الظاهرية.

  2. في جزء وحدة التحكم ، استخدم reticulate لتثبيت Python عن طريق تشغيل الأمر التالي. (يتطلب reticulate الاتصال Databricks ل R تثبيت Python أولا.) في الأمر التالي، استبدل 3.10 بالإصدار الرئيسي والثانوي من إصدار Python المثبت على نظام مجموعة Azure Databricks. للعثور على هذا الإصدار الرئيسي والثانوي، راجع قسم "بيئة النظام" من ملاحظات الإصدار لإصدار Databricks Runtime لنظام المجموعة في إصدارات ملاحظات إصدار Databricks Runtime والتوافق.

    reticulate::install_python(version = "3.10")
    
  3. في جزء وحدة التحكم، قم بتثبيت حزمة الاتصال Databricks عن طريق تشغيل الأمر التالي. في الأمر التالي، استبدل 13.3 بإصدار Databricks Runtime المثبت على نظام مجموعة Azure Databricks. للعثور على هذا الإصدار، في صفحة تفاصيل نظام المجموعة في مساحة عمل Azure Databricks، في علامة التبويب Configuration ، راجع مربع Databricks Runtime Version .

    pysparklyr::install_databricks(version = "13.3")
    

    إذا كنت لا تعرف إصدار Databricks Runtime لنظام المجموعة الخاص بك أو كنت لا تريد البحث عنه، يمكنك تشغيل الأمر التالي بدلا من ذلك، pysparklyr وستقوم بالاستعلام عن نظام المجموعة لتحديد إصدار وقت تشغيل Databricks الصحيح لاستخدامه:

    pysparklyr::install_databricks(cluster_id = "<cluster-id>")
    

    إذا كنت تريد أن يتصل مشروعك لاحقا بمجموعة مختلفة لها نفس إصدار Databricks Runtime من الإصدار الذي حددته للتو، pysparklyr فسيستخدم نفس بيئة Python. إذا كان نظام المجموعة الجديد يحتوي على إصدار Databricks Runtime مختلف، يجب تشغيل pysparklyr::install_databricks الأمر مرة أخرى مع إصدار وقت تشغيل Databricks الجديد أو معرف نظام المجموعة.

الخطوة 4: تعيين متغيرات البيئة لعنون URL لمساحة العمل والرمز المميز للوصول ومعرف نظام المجموعة

لا توصي Databricks بتحسس التعليمات البرمجية المضمنة أو تغيير القيم مثل عنوان URL لمساحة عمل Azure Databricks أو رمز الوصول الشخصي Azure Databricks أو معرف مجموعة Azure Databricks في البرامج النصية R. بدلا من ذلك، قم بتخزين هذه القيم بشكل منفصل، على سبيل المثال في متغيرات البيئة المحلية. يستخدم هذا البرنامج التعليمي دعم RStudio Desktop المضمن لتخزين متغيرات البيئة في .Renviron ملف.

  1. أنشئ ملفا .Renviron لتخزين متغيرات البيئة، إذا لم يكن هذا الملف موجودا بالفعل، ثم افتح هذا الملف للتحرير: في وحدة تحكم سطح المكتب RStudio، قم بتشغيل الأمر التالي:

    usethis::edit_r_environ()
    
  2. في .Renviron الملف الذي يظهر (عرض > نقل التركيز إلى المصدر)، أدخل المحتوى التالي. في هذا المحتوى، استبدل العناصر النائبة التالية:

    • استبدل <workspace-url> بعنوان URL لكل مساحة عمل، على سبيل المثال https://adb-1234567890123456.7.azuredatabricks.net.
    • استبدل <personal-access-token> برمز الوصول الشخصي إلى Azure Databricks من الخطوة 1.
    • استبدل <cluster-id> بمعرف نظام المجموعة الخاص بك من متطلبات هذا البرنامج التعليمي.
    DATABRICKS_HOST=<workspace-url>
    DATABRICKS_TOKEN=<personal-access-token>
    DATABRICKS_CLUSTER_ID=<cluster-id>
    
  3. احفظ الملف .Renviron.

  4. قم بتحميل متغيرات البيئة إلى R: في القائمة الرئيسية، انقر فوق Session > Restart R.

تعيين متغيرات البيئة ل Databricks الاتصال

الخطوة 5: إضافة تعليمة برمجية

  1. في القائمة الرئيسية RStudio Desktop، انقر فوق File > New File > R Script.

  2. أدخل التعليمات البرمجية التالية في الملف ثم احفظ الملف (حفظ الملف>) باسم demo.R:

    library(sparklyr)
    library(dplyr)
    library(dbplyr)
    
    sc <- sparklyr::spark_connect(
      master     = Sys.getenv("DATABRICKS_HOST"),
      cluster_id = Sys.getenv("DATABRICKS_CLUSTER_ID"),
      token      = Sys.getenv("DATABRICKS_TOKEN"),
      method     = "databricks_connect",
      envname    = "r-reticulate"
    )
    
    trips <- dplyr::tbl(
      sc,
      dbplyr::in_catalog("samples", "nyctaxi", "trips")
    )
    
    print(trips, n = 5)
    

الخطوة 6: تشغيل التعليمات البرمجية

  1. على سطح المكتب RStudio، في شريط demo.R أدوات الملف، انقر فوق المصدر.

    تشغيل مشروع RStudio Desktop

  2. في وحدة التحكم، تظهر الصفوف الخمسة الأولى من trips الجدول.

  3. في طريقة عرض الاتصال ions (عرض > إظهار الاتصال)، يمكنك استكشاف الكتالوجات والمخططات والجداول وطرق العرض المتوفرة.

    طريقة عرض الاتصال للمشروع

الخطوة 7: تصحيح التعليمات البرمجية

  1. في demo.R الملف، انقر فوق التوثيق الموجود بجانب print(trips, n = 5) لتعيين نقطة توقف.
  2. في شريط demo.R أدوات الملف، انقر فوق المصدر.
  3. عند إيقاف تشغيل التعليمات البرمجية مؤقتا عند نقطة التوقف، يمكنك فحص المتغير في طريقة عرض البيئة (عرض > إظهار البيئة).
  4. في القائمة الرئيسية، انقر فوق تتبع الأخطاء > متابعة.
  5. في وحدة التحكم، تظهر الصفوف الخمسة الأولى من trips الجدول.

تصحيح أخطاء مشروع RStudio Desktop