استخدام Visual Studio Code مع Databricks الاتصال ل Scala

مقالة
03/01/2024

إشعار

تتناول هذه المقالة الاتصال Databricks لوقت تشغيل Databricks 13.3 LTS وما فوق.

تتناول هذه المقالة كيفية استخدام الاتصال Databricks ل Scala مع Visual Studio Code. تمكنك الاتصال Databricks من توصيل IDEs الشائعة وخوادم دفاتر الملاحظات والتطبيقات المخصصة الأخرى بمجموعة Azure Databricks. راجع ما هو Databricks الاتصال؟. للحصول على إصدار Python من هذه المقالة، راجع استخدام Visual Studio Code مع Databricks الاتصال ل Python.

إشعار

قبل البدء في استخدام الاتصال Databricks، يجب عليك إعداد عميل الاتصال Databricks.

لاستخدام Databricks الاتصال وVisual Studio Code مع ملحق Scala (المعادن) لإنشاء نموذج مشروع Scala sbt وتشغيله وتصحيح أخطائه، اتبع هذه الإرشادات. يمكنك أيضا تكييف هذا النموذج مع مشاريع Scala الحالية.

تأكد من تثبيت Java Development Kit (JDK) وScala محليا. توصي Databricks بأن يتطابق إصدار JDK و Scala المحلي مع إصدار JDK و Scala على نظام مجموعة Azure Databricks.
تأكد من تثبيت أحدث إصدار من sbt محليا.
تثبيت ملحق Scala (المعادن) ل Visual Studio Code.
في Visual Studio Code، افتح المجلد حيث تريد إنشاء مشروع Scala (ملف > فتح المجلد).
على الشريط الجانبي، انقر فوق أيقونة ملحق المعادن، ثم انقر فوق مشروع Scala جديد.
في لوحة الأوامر، اختر القالب المسمى scala/hello-world.g8، وأكمل الإرشادات التي تظهر على الشاشة لإنهاء إنشاء مشروع Scala في المجلد المحدد.
إضافة إعدادات بناء المشروع: في طريقة عرض المستكشف (عرض > المستكشف)، افتح build.sbt الملف من جذر المشروع، واستبدل محتويات الملف بالآتي، واحفظ الملف:
```
scalaVersion := "2.12.15"

libraryDependencies += "com.databricks" % "databricks-connect" % "14.0.0"
```
استبدل 2.12.15 بالإصدار المثبت من Scala، والذي يجب أن يتطابق مع الإصدار المضمن مع إصدار Databricks Runtime على نظام المجموعة الخاص بك.

استبدل 14.0.0 بإصدار مكتبة الاتصال Databricks التي تطابق إصدار Databricks Runtime على نظام المجموعة. يمكنك العثور على أرقام إصدار مكتبة Databricks الاتصال في مستودع Maven المركزي.

إضافة تعليمة Scala البرمجية: افتح src/main/scala/Main.scala الملف بالنسبة إلى جذر المشروع، واستبدل محتويات الملف بالآتي، واحفظ الملف:

import com.databricks.connect.DatabricksSession
import org.apache.spark.sql.SparkSession

object Main extends App {
  val spark = DatabricksSession.builder().remote().getOrCreate()
  val df = spark.read.table("samples.nyctaxi.trips")
  df.limit(5).show()
}

إنشاء المشروع: تشغيل الأمر >المعادن: استيراد بناء من لوحة الأوامر.
إضافة إعدادات تشغيل المشروع: في طريقة العرض تشغيل وتصحيح (عرض > تشغيل)، انقر فوق الارتباط المسمى إنشاء ملف launch.json.
في لوحة الأوامر، حدد Scala Debugger.

أضف تكوين التشغيل التالي إلى launch.json الملف، ثم احفظ الملف:

{
  // Use IntelliSense to learn about possible attributes.
  // Hover to view descriptions of existing attributes.
  // For more information, visit: https://go.microsoft.com/fwlink/?linkid=830387
  "version": "0.2.0",
  "configurations": [
    {
      "type": "scala",
      "request": "launch",
      "name": "Scala: Run main class",
      "mainClass": "Main",
      "args": [],
      "jvmOptions": []
    }
  ]
}

تشغيل المشروع: انقر فوق أيقونة التشغيل (بدء تصحيح الأخطاء) بجوار Scala: تشغيل الفئة الرئيسية. في طريقة عرض وحدة تحكم تتبع الأخطاء (عرض > وحدة تحكم تتبع الأخطاء)، تظهر أول 5 صفوف من samples.nyctaxi.trips الجدول. يتم تشغيل جميع التعليمات البرمجية Scala محليا، بينما يتم إرسال جميع التعليمات البرمجية Scala التي تتضمن عمليات DataFrame على نظام المجموعة في مساحة عمل Azure Databricks البعيدة ويتم إرسال استجابات التشغيل مرة أخرى إلى المتصل المحلي.
تصحيح أخطاء المشروع: قم بتعيين نقاط التوقف في التعليمات البرمجية الخاصة بك، ثم انقر فوق أيقونة التشغيل مرة أخرى. يتم تصحيح جميع التعليمات البرمجية Scala محليا، بينما تستمر جميع التعليمات البرمجية Scala في العمل على نظام المجموعة في مساحة عمل Azure Databricks البعيدة. لا يمكن تصحيح أخطاء التعليمات البرمجية لمحرك Spark الأساسي مباشرة من العميل.

مشاركة عبر

استخدام Visual Studio Code مع Databricks الاتصال ل Scala

الموارد الإضافية