استخدام IntelliJ IDEA مع Databricks الاتصال ل Scala

إشعار

تتناول هذه المقالة الاتصال Databricks لوقت تشغيل Databricks 13.3 LTS وما فوق.

تتناول هذه المقالة كيفية استخدام Databricks الاتصال ل Scala وIntelliJ IDEA مع المكون الإضافي Scala. تمكنك الاتصال Databricks من توصيل IDEs الشائعة وخوادم دفاتر الملاحظات والتطبيقات المخصصة الأخرى بمجموعة Azure Databricks. راجع ما هو Databricks الاتصال؟.

إشعار

قبل البدء في استخدام الاتصال Databricks، يجب عليك إعداد عميل الاتصال Databricks.

لاستخدام Databricks الاتصال وIntelliJ IDEA مع المكون الإضافي Scala لإنشاء نموذج مشروع Scala sbt وتشغيله وتصحيحه، اتبع هذه الإرشادات. تم اختبار هذه التعليمات باستخدام IntelliJ IDEA Community Edition 2023.3.6. إذا كنت تستخدم إصدارا أو إصدارا مختلفا من IntelliJ IDEA، فقد تختلف الإرشادات التالية.

  1. تأكد من تثبيت Java Development Kit (JDK) محليا. توصي Databricks بأن يتطابق إصدار JDK المحلي مع إصدار JDK على مجموعة Azure Databricks.

  2. قم ببدء IntelliJ IDEA.

  3. انقر فوق ملف > مشروع جديد>.

  4. امنح مشروعك اسما ذا معنى.

  5. بالنسبة إلى الموقع، انقر فوق أيقونة المجلد، وأكمل التوجيهات التي تظهر على الشاشة لتحديد المسار إلى مشروع Scala الجديد.

  6. بالنسبة إلى اللغة، انقر فوق Scala.

  7. بالنسبة إلى Build system، انقر فوق sbt.

  8. في القائمة المنسدلة JDK، حدد تثبيتا موجودا ل JDK على جهاز التطوير الخاص بك الذي يطابق إصدار JDK على نظام المجموعة الخاص بك، أو حدد تنزيل JDK واتبع الإرشادات التي تظهر على الشاشة لتنزيل JDK الذي يطابق إصدار JDK على نظام المجموعة الخاص بك.

    إشعار

    قد يؤدي اختيار تثبيت JDK أعلى إصدار JDK أو أسفله على نظام المجموعة إلى نتائج غير متوقعة، أو قد لا يتم تشغيل التعليمات البرمجية الخاصة بك على الإطلاق.

  9. في القائمة المنسدلة sbt ، حدد أحدث إصدار.

  10. في القائمة المنسدلة Scala ، حدد إصدار Scala الذي يطابق إصدار Scala على مجموعتك.

    إشعار

    قد يؤدي اختيار إصدار Scala الموجود أسفل أو أعلى إصدار Scala على نظام المجموعة إلى نتائج غير متوقعة، أو قد لا يتم تشغيل التعليمات البرمجية الخاصة بك على الإطلاق.

  11. بالنسبة لبادئة الحزمة، أدخل قيمة بعض بادئة الحزمة لمصادر مشروعك، على سبيل المثال org.example.application.

  12. تأكد من تحديد المربع إضافة نموذج التعليمات البرمجية .

  13. انقر فوق Create.

  14. أضف حزمة الاتصال Databricks: مع فتح مشروع Scala الجديد، في نافذة أداة Project (عرض > أداة Windows > Project)، افتح الملف المسمى build.sbt، في هدف اسم> المشروع.

  15. أضف التعليمات البرمجية التالية إلى نهاية build.sbt الملف، والتي تعلن تبعية مشروعك على إصدار معين من مكتبة الاتصال Databricks ل Scala:

    libraryDependencies += "com.databricks" % "databricks-connect" % "14.3.1"
    

    استبدل 14.3.1 بإصدار مكتبة الاتصال Databricks التي تطابق إصدار Databricks Runtime على نظام المجموعة. يمكنك العثور على أرقام إصدار مكتبة Databricks الاتصال في مستودع Maven المركزي.

  16. انقر فوق رمز إعلام Load sbt changes لتحديث مشروع Scala الخاص بك بموقع المكتبة الجديدة والتبعية.

  17. انتظر حتى sbt يختفي مؤشر التقدم في أسفل IDE. sbt قد تستغرق عملية التحميل بضع دقائق حتى تكتمل.

  18. إضافة التعليمات البرمجية: في نافذة أداة Project، افتح الملف المسمى Main.scala، في src > main > scala لاسم> المشروع.

  19. استبدل أي تعليمة برمجية موجودة في الملف بالتعليمات البرمجية التالية ثم احفظ الملف:

    package org.example.application
    
    import com.databricks.connect.DatabricksSession
    import org.apache.spark.sql.SparkSession
    
    object Main {
      def main(args: Array[String]): Unit = {
        val spark = DatabricksSession.builder().remote().getOrCreate()
        val df = spark.read.table("samples.nyctaxi.trips")
        df.limit(5).show()
      }
    }
    
  20. تشغيل التعليمات البرمجية: بدء تشغيل نظام المجموعة الهدف في مساحة عمل Azure Databricks البعيدة.

  21. بعد بدء تشغيل نظام المجموعة، في القائمة الرئيسية، انقر فوق تشغيل > تشغيل 'Main'.

  22. في نافذة Run tool (View > Tool Windows > Run)، في علامة التبويب Main، تظهر أول 5 صفوف من samples.nyctaxi.trips الجدول. يتم تشغيل جميع التعليمات البرمجية Scala محليا، بينما يتم إرسال جميع التعليمات البرمجية Scala التي تتضمن عمليات DataFrame على نظام المجموعة في مساحة عمل Azure Databricks البعيدة ويتم إرسال استجابات التشغيل مرة أخرى إلى المتصل المحلي.

  23. تصحيح التعليمات البرمجية: ابدأ تشغيل نظام المجموعة الهدف في مساحة عمل Azure Databricks البعيدة، إذا لم تكن قيد التشغيل بالفعل.

  24. في التعليمات البرمجية السابقة، انقر فوق هامش التوثيق بجوار df.limit(5).show() لتعيين نقطة توقف.

  25. بعد بدء تشغيل نظام المجموعة، في القائمة الرئيسية، انقر فوق تشغيل > تصحيح الأخطاء "الرئيسي".

  26. في نافذة أداة تتبع الأخطاء (View > Tool Windows > Debug)، في علامة التبويب Console ، انقر فوق أيقونة الحاسبة (تقييم التعبير).

  27. أدخل التعبير df.schema وانقر فوق تقييم لإظهار مخطط DataFrame.

  28. في الشريط الجانبي لنافذة أداة التصحيح ، انقر فوق أيقونة السهم الأخضر (استئناف البرنامج).

  29. في جزء وحدة التحكم ، تظهر أول 5 صفوف من samples.nyctaxi.trips الجدول. يتم تشغيل جميع التعليمات البرمجية Scala محليا، بينما يتم إرسال جميع التعليمات البرمجية Scala التي تتضمن عمليات DataFrame على نظام المجموعة في مساحة عمل Azure Databricks البعيدة ويتم إرسال استجابات التشغيل مرة أخرى إلى المتصل المحلي.