مشاركة عبر


ما هو Databricks Connect؟

إشعار

تتناول هذه المقالة Databricks Connect ل Databricks Runtime 13.3 LTS وما فوق.

للحصول على معلومات حول الإصدار القديم من Databricks Connect، راجع Databricks Connect ل Databricks Runtime 12.2 LTS والإصدارات أدناه.

يتوفر Databricks Connect للغات التالية:

نظرة عامة

يسمح لك Databricks Connect بتوصيل IDEs الشائعة مثل Visual Studio Code وPyCharm وRStudio Desktop وIntelliJ IDEA وخوادم دفتر الملاحظات والتطبيقات المخصصة الأخرى بحساب Azure Databricks. توضح هذه المقالة كيفية عمل Databricks Connect.

إشعار

يتضمن ملحق Databricks ل Visual Studio Code Databricks Connect، لذلك لا تحتاج إلى تثبيت Databricks Connect إذا قمت بتثبيت ملحق Databricks ل Visual Studio Code. راجع تصحيح التعليمات البرمجية باستخدام Databricks Connect لملحق Databricks ل Visual Studio Code.

Databricks Connect هي مكتبة عميل لوقت تشغيل Databricks. يسمح لك بكتابة التعليمات البرمجية باستخدام واجهات برمجة تطبيقات Spark وتشغيلها عن بعد حساب Azure Databricks بدلا من جلسة Spark المحلية.

على سبيل المثال، عند تشغيل الأمر spark.read.format(...).load(...).groupBy(...).agg(...).show() DataFrame باستخدام Databricks Connect، يتم إرسال التمثيل المنطقي للأمر إلى خادم Spark الذي يعمل في Azure Databricks للتنفيذ على الحساب البعيد.

باستخدام Databricks Connect، يمكنك:

  • تشغيل تعليمة Spark البرمجية واسعة النطاق من أي تطبيق Python أو R أو Scala. في أي مكان يمكنك import pyspark استخدامه ل Python أو library(sparklyr) ل R أو import org.apache.spark ل Scala، يمكنك الآن تشغيل تعليمة Spark البرمجية مباشرة من تطبيقك، دون الحاجة إلى تثبيت أي مكونات إضافية ل IDE أو استخدام البرامج النصية لإرسال Spark.

    إشعار

    يدعم Databricks Connect لوقت تشغيل Databricks 13.3 LTS وما فوق تشغيل تطبيقات Python. يتم دعم R وSc scala فقط في Databricks Connect لوقت تشغيل Databricks 13.3 LTS وما فوق.

  • التنقل وتصحيح التعليمات البرمجية في IDE الخاص بك حتى عند العمل مع نظام مجموعة بعيد.

  • التكرار بسرعة عند تطوير المكتبات. لا تحتاج إلى إعادة تشغيل نظام المجموعة بعد تغيير تبعيات مكتبة Python أو Scala في Databricks Connect، لأن كل جلسة عمل عميل معزولة عن بعضها البعض في نظام المجموعة.

  • إيقاف تشغيل أنظمة المجموعات الخاملة دون فقدان العمل. نظرا لأن تطبيق العميل منفصل عن نظام المجموعة، فإنه لا يتأثر بإعادة تشغيل نظام المجموعة أو ترقياته، مما قد يتسبب عادة في فقدان جميع المتغيرات ومجموعات البيانات الموزعة المرنة وعناصر DataFrame المعرفة في دفتر ملاحظات.

بالنسبة إلى Databricks Runtime 13.3 LTS والإصدارات الأحدث، تم الآن إنشاء Databricks Connect على Spark Connect مفتوح المصدر. يقدم Spark Connect بنية خادم عميل منفصلة ل Apache Spark تسمح بالاتصال عن بعد لمجموعات Spark باستخدام واجهة برمجة تطبيقات DataFrame والخطط المنطقية التي لم يتم حلها كبروتوكول. مع هذه البنية الجديدة المستندة إلى Spark Connect، يصبح Databricks Connect عميلا رقيقا بسيطا وسهل الاستخدام. يمكن تضمين Spark Connect في كل مكان للاتصال ب Azure Databricks: في IDEs ودفاتر الملاحظات والتطبيقات، مما يسمح للمستخدمين والشركاء الفرديين على حد سواء ببناء تجارب مستخدم جديدة (تفاعلية) استنادا إلى النظام الأساسي Databricks. لمزيد من المعلومات حول Spark Connect، راجع تقديم Spark Connect.

يحدد Databricks Connect مكان تشغيل التعليمات البرمجية وتصحيح الأخطاء، كما هو موضح في الشكل التالي.

يظهر الشكل عمليات تشغيل وتصحيح أخطاء التعليمات البرمجية ل Databricks Connect

لتشغيل التعليمات البرمجية: يتم تشغيل جميع التعليمات البرمجية محليا، بينما يتم إرسال جميع التعليمات البرمجية التي تتضمن عمليات DataFrame على نظام المجموعة في مساحة عمل Azure Databricks البعيدة واستجابات التشغيل مرة أخرى إلى المتصل المحلي.

بالنسبة إلى التعليمات البرمجية لتصحيح الأخطاء: يتم تصحيح جميع التعليمات البرمجية محليا، بينما يستمر تشغيل جميع التعليمات البرمجية Spark على نظام المجموعة في مساحة عمل Azure Databricks البعيدة. لا يمكن تصحيح أخطاء التعليمات البرمجية لمحرك Spark الأساسي مباشرة من العميل.

الخطوات التالية