Azure Databricks لمطوري Scala
توفر هذه المقالة دليلا لتطوير دفاتر الملاحظات والمهام في Azure Databricks باستخدام لغة Scala. يوفر القسم الأول ارتباطات إلى البرامج التعليمية لسير العمل والمهام الشائعة. يوفر القسم الثاني ارتباطات إلى واجهات برمجة التطبيقات والمكتبات والأدوات الرئيسية.
سير العمل الأساسي للبدء هو:
- استيراد التعليمات البرمجية وتشغيلها باستخدام دفتر ملاحظات Databricks تفاعلي: إما استيراد التعليمات البرمجية الخاصة بك من الملفات أو Git repos أو تجربة برنامج تعليمي مدرج أدناه.
- تشغيل التعليمات البرمجية على نظام مجموعة: إما إنشاء مجموعة خاصة بك أو التأكد من أن لديك أذونات لاستخدام نظام مجموعة مشترك. قم بإرفاق دفتر الملاحظات بالمجموعة وقم بتشغيل دفتر الملاحظات.
بالإضافة إلى ذلك، يمكنك التفريع في مواضيع أكثر تحديدا:
- العمل مع مجموعات بيانات أكبر باستخدام Apache Spark
- إضافة مرئيات
- أتمتة حمل العمل كوظيفة
- التطوير في IDEs
البرامج التعليمية
توفر البرامج التعليمية أدناه أمثلة على التعليمات البرمجية ودفاتر الملاحظات للتعرف على مهام سير العمل الشائعة. راجع استيراد دفتر ملاحظات للحصول على إرشادات حول استيراد أمثلة دفتر الملاحظات إلى مساحة العمل.
- البرنامج التعليمي: تحميل البيانات وتحويلها باستخدام Apache Spark DataFrames
- البرنامج التعليمي: يوفر Delta Lake أمثلة على Scala.
- يساعدك التشغيل السريع Java وSc scala على تعلم أساسيات تتبع عمليات تشغيل التدريب على التعلم الآلي باستخدام MLflow في Scala.
- يوفر استخدام XGBoost على Azure Databricks مثالا على Scala.
المرجع
تسرد الأقسام الفرعية أدناه الميزات والتلميحات الرئيسية لمساعدتك في البدء في التطوير في Azure Databricks باستخدام Scala.
Scala API
توفر هذه الارتباطات مقدمة إلى واجهة برمجة تطبيقات Apache Spark Scala ومرجعا لها.
- البرنامج التعليمي: تحميل البيانات وتحويلها باستخدام Apache Spark DataFrames
- الاستعلام عن سلاسل JSON
- مقدمة إلى الدفق المنظم
- مرجع Apache Spark Core API
- مرجع Apache Spark ML API
إدارة التعليمات البرمجية باستخدام دفاتر الملاحظات ومجلدات Databricks Git
تدعم دفاتر ملاحظات Databricks Scala. توفر دفاتر الملاحظات هذه وظائف مشابهة لوظائف Jupyter، ولكن مع إضافات مثل المرئيات المضمنة باستخدام البيانات الضخمة، وتكاملات Apache Spark لتصحيح الأخطاء ومراقبة الأداء، وتكاملات MLflow لتتبع تجارب التعلم الآلي. ابدأ باستيراد دفتر ملاحظات. بمجرد أن يكون لديك حق الوصول إلى نظام مجموعة، يمكنك إرفاق دفتر ملاحظات إلى نظام المجموعة وتشغيل دفتر الملاحظات.
تلميح
لإعادة تعيين حالة دفتر الملاحظات بالكامل، قد يكون من المفيد إعادة تشغيل النواة. بالنسبة لمستخدمي Jupyter، يتوافق خيار "إعادة تشغيل النواة" في Jupyter مع فصل دفتر ملاحظات وإعادة إرفاقه في Databricks. لإعادة تشغيل النواة في دفتر ملاحظات، انقر فوق محدد الحوسبة في شريط أدوات دفتر الملاحظات وقم بالمرور فوق نظام المجموعة المرفق أو مستودع SQL في القائمة لعرض قائمة جانبية. حدد فصل وإعادة إرفاق. يؤدي ذلك إلى فصل دفتر الملاحظات عن نظام المجموعة وإعادة إرفاقه، مما يؤدي إلى إعادة تشغيل العملية.
تسمح مجلدات Databricks Git للمستخدمين بمزامنة دفاتر الملاحظات والملفات الأخرى مع مستودعات Git. تساعد مجلدات Databricks Git في تعيين إصدار التعليمات البرمجية والتعاون، ويمكنها تبسيط استيراد مستودع كامل من التعليمات البرمجية إلى Azure Databricks، وعرض إصدارات دفتر الملاحظات السابقة، والتكامل مع تطوير IDE. ابدأ بنسخ مستودع Git بعيد. يمكنك بعد ذلك فتح دفاتر الملاحظات أو إنشائها باستخدام نسخة المستودع، وإرفاق دفتر الملاحظات بمجموعة، وتشغيل دفتر الملاحظات.
المجموعات والمكتبات
يوفر حساب Azure Databricks إدارة الحوسبة للمجموعات من أي حجم: من مجموعات عقدة واحدة تصل إلى مجموعات كبيرة. يمكنك تخصيص أجهزة المجموعة والمكتبات وفقا لاحتياجاتك. يبدأ علماء البيانات بشكل عام العمل إما عن طريق إنشاء نظام مجموعة أو باستخدام نظام مجموعة مشترك موجود. بمجرد أن يكون لديك حق الوصول إلى نظام مجموعة، يمكنك إرفاق دفتر ملاحظات إلى نظام المجموعة أو تشغيل مهمة على نظام المجموعة.
- بالنسبة لأحمال العمل الصغيرة التي تتطلب عقدا واحدة فقط، يمكن لعلماء البيانات استخدام حساب عقدة واحدة لتوفير التكاليف.
- للحصول على تلميحات مفصلة، راجع حساب توصيات التكوين
- يمكن للمسؤولين إعداد نهج نظام المجموعة لتبسيط إنشاء نظام المجموعة وتوجيهه.
تستخدم مجموعات Azure Databricks وقت تشغيل Databricks، والذي يوفر العديد من المكتبات الشائعة الجاهزة، بما في ذلك Apache Spark وData Lake والمزيد. يمكنك أيضا تثبيت مكتبات إضافية تابعة لجهة خارجية أو مكتبات مخصصة لاستخدامها مع دفاتر الملاحظات والمهام.
- ابدأ بالمكتبات الافتراضية في إصدارات ملاحظات إصدار Databricks Runtime والتوافق. للحصول على القوائم الكاملة للمكتبات المثبتة مسبقا، راجع إصدارات ملاحظات إصدار Databricks Runtime والتوافق.
- يمكنك أيضا تثبيت مكتبات Scala في نظام مجموعة.
- لمزيد من التفاصيل، راجع المكتبات.
الرسوم المرئية
تحتوي دفاتر ملاحظات Azure Databricks Scala على دعم مضمن للعديد من أنواع المرئيات. يمكنك أيضا استخدام المرئيات القديمة:
إمكانية التشغيل التفاعلي
يصف هذا القسم الميزات التي تدعم إمكانية التشغيل التفاعلي بين Scala وSQL.
المهام
يمكنك أتمتة أحمال عمل Scala كمهام مجدولة أو مشغلة في Azure Databricks. يمكن للوظائف تشغيل دفاتر الملاحظات وJARs.
- للحصول على تفاصيل حول إنشاء وظيفة عبر واجهة المستخدم، راجع تكوين مهام Databricks وتحريرها.
- تسمح لك Databricks SDKs بإنشاء المهام وتحريرها وحذفها برمجيا.
- يوفر Databricks CLI واجهة سطر أوامر ملائمة لأتمتة المهام.
IDEs وأدوات المطور وSDKs
بالإضافة إلى تطوير تعليمة Scala البرمجية داخل دفاتر ملاحظات Azure Databricks، يمكنك التطوير خارجيا باستخدام بيئات التطوير المتكاملة (IDEs) مثل IntelliJ IDEA. لمزامنة العمل بين بيئات التطوير الخارجية وAzure Databricks، هناك العديد من الخيارات:
- التعليمات البرمجية: يمكنك مزامنة التعليمات البرمجية باستخدام Git. راجع تكامل Git لمجلدات Databricks Git.
- المكتبات والمهام: يمكنك إنشاء مكتبات خارجيا وتحميلها إلى Azure Databricks. قد يتم استيراد هذه المكتبات داخل دفاتر ملاحظات Azure Databricks، أو يمكن استخدامها لإنشاء وظائف. راجع المكتبات وجدولة مهام سير العمل وتنسيقها.
- تنفيذ الجهاز عن بعد: يمكنك تشغيل التعليمات البرمجية من بيئة التطوير المتكامل المحلية للتطوير والاختبار التفاعليين. يمكن ل IDE الاتصال ب Azure Databricks لتنفيذ حسابات كبيرة على مجموعات Azure Databricks. على سبيل المثال، يمكنك استخدام IntelliJ IDEA مع Databricks Connect.
يوفر Databricks مجموعة من SDKs التي تدعم الأتمتة والتكامل مع الأدوات الخارجية. يمكنك استخدام Databricks SDKs لإدارة الموارد مثل المجموعات والمكتبات، التعليمات البرمجية وعناصر مساحة العمل الأخرى، وأحمال العمل والمهام، والمزيد. راجع Databricks SDKs.
لمزيد من المعلومات حول IDEs وأدوات المطور وSDKs، راجع أدوات المطور.
الموارد الإضافية
- تقدم أكاديمية Databricks دورات تدريبية ذاتية الوتيرة بقيادة مدرب حول العديد من الموضوعات.