ما هي حزم أصول Databricks؟
تعد حزم أصول Databricks (DABs) أداة لتسهيل اعتماد أفضل ممارسات هندسة البرمجيات، بما في ذلك التحكم بالمصادر ومراجعة التعليمات البرمجية والاختبار والتكامل والتسليم المستمر (CI/CD) لبياناتك ومشاريع الذكاء الاصطناعي. تجعل الحزم من الممكن وصف موارد Databricks مثل الوظائف والتدفقات ودفاتر الملاحظات كملفات مصدر. توفر هذه الملفات المصدر تعريفا شاملا للمشروع، بما في ذلك كيفية تنظيمه واختباره ونشره، مما يسهل التعاون في المشاريع أثناء التطوير النشط.
توفر الحزم طريقة لتضمين بيانات التعريف جنبا إلى جنب مع ملفات مصدر المشروع. عند نشر مشروع باستخدام حزم، يتم استخدام بيانات التعريف هذه لتوفير البنية الأساسية والموارد الأخرى. ثم يتم نشر مجموعة المشروع من الملفات المصدر وبيانات التعريف كحزمة واحدة إلى البيئة المستهدفة. تتضمن المجموعة الأجزاء التالية:
- البنية الأساسية السحابية المطلوبة وتكوينات مساحة العمل
- الملفات المصدر، مثل دفاتر الملاحظات وملفات Python، التي تتضمن منطق العمل
- التعريفات والإعدادات لموارد Databricks، مثل وظائف Azure Databricks، وخطوط أنابيب Delta Live Tables، ونقاط نهاية خدمة النموذج، وتجارب MLflow، والنماذج المسجلة في MLflow
- اختبارات الوحدة واختبارات التكامل
يوفر الرسم التخطيطي التالي طريقة عرض عالية المستوى للتطوير وتدفق CI/CD مع حزم:
متى يجب استخدام حزم أصول Databricks؟
حزم أصول Databricks هي نهج البنية التحتية كتعليمية (IaC) لإدارة مشاريع Databricks الخاصة بك. استخدمها عندما تريد إدارة المشاريع المعقدة حيث يكون العديد من المساهمين والأتمتة ضرورية، والتكامل والنشر المستمر (CI/CD) مطلبا. نظرا لأن الحزم يتم تعريفها وإدارتها من خلال قوالب YAML والملفات التي تقوم بإنشائها وصيانتها جنبا إلى جنب مع التعليمات البرمجية المصدر، فإنها تعين بشكل جيد إلى السيناريوهات التي يكون فيها IaC نهجا مناسبا.
تتضمن بعض السيناريوهات المثالية للحزم ما يلي:
- تطوير البيانات والتحليلات ومشاريع التعلم الآلي في بيئة قائمة على الفريق. يمكن أن تساعدك الحزم على تنظيم وإدارة ملفات المصدر المختلفة بكفاءة. وهذا يضمن التعاون السلس والعمليات المبسطة.
- تكرار مشاكل التعلم الآلي بشكل أسرع. إدارة موارد البنية الأساسية لبرنامج ربط العمليات التجارية ML (مثل التدريب ووظائف الاستدلال الدفعي) باستخدام مشاريع التعلم الآلي التي تتبع أفضل ممارسات الإنتاج من البداية.
- قم بتعيين المعايير التنظيمية للمشاريع الجديدة عن طريق تأليف قوالب حزم مخصصة تتضمن الأذونات الافتراضية وكيانات الخدمة وتكوينات CI/CD.
- الامتثال التنظيمي: في الصناعات التي يمثل فيها الامتثال التنظيمي مصدر قلق كبير، يمكن أن تساعد الحزم في الحفاظ على تاريخ تم إصداره من عمل التعليمات البرمجية والبنية التحتية. وهذا يساعد في الحوكمة ويضمن استيفاء معايير الامتثال الضرورية.
كيف تعمل مجموعات أصول Databricks؟
يتم تعريف بيانات تعريف المجموعة باستخدام ملفات YAML التي تحدد البيانات الاصطناعية والموارد وتكوين مشروع Databricks. يمكنك إنشاء ملف YAML هذا يدويا أو إنشاء ملف باستخدام قالب مجموعة. يمكن بعد ذلك استخدام Databricks CLI للتحقق من صحة الحزم ونشرها وتشغيلها باستخدام ملفات YAML هذه. يمكنك تشغيل مشاريع المجموعة من IDEs أو المحطات الطرفية أو داخل Databricks مباشرة. تستخدم هذه المقالة Databricks CLI.
يمكن إنشاء الحزم يدويا أو استنادا إلى قالب. يوفر Databricks CLI قوالب افتراضية لحالات الاستخدام البسيطة، ولكن بالنسبة للوظائف الأكثر تحديدا أو تعقيدا، يمكنك إنشاء قوالب حزم مخصصة لتنفيذ أفضل ممارسات فريقك والحفاظ على اتساق التكوينات الشائعة.
لمزيد من التفاصيل حول التكوين YAML المستخدم للتعبير عن حزم أصول Databricks، راجع تكوين مجموعة أصول Databricks.
تكوين بيئتك لاستخدام الحزم
استخدم Databricks CLI لنشر الحزم بسهولة من سطر الأوامر. لتثبيت Databricks CLI، راجع تثبيت Databricks CLI أو تحديثه.
تتوفر حزم أصول Databricks في Databricks CLI الإصدار 0.218.0 أو أعلى. للعثور على إصدار Databricks CLI المثبت، قم بتشغيل الأمر التالي:
databricks --version
بعد تثبيت Databricks CLI، تحقق من تكوين مساحات عمل Databricks البعيدة بشكل صحيح. تتطلب الحزم تمكين ميزة ملفات مساحة العمل لأن هذه الميزة تدعم العمل مع ملفات أخرى غير دفاتر ملاحظات Databricks، مثل .py
والملفات .yml
. إذا كنت تستخدم Databricks Runtime الإصدار 11.3 LTS أو أعلى، يتم تمكين هذه الميزة بشكل افتراضي.
المصادقة
يوفر Azure Databricks العديد من أساليب المصادقة:
- بالنسبة لسيناريوهات المصادقة التي تمت حضورها ، مثل مهام سير العمل اليدوية حيث تستخدم مستعرض الويب لتسجيل الدخول إلى مساحة عمل Azure Databricks المستهدفة (عند مطالبتك بواسطة Databricks CLI)، استخدم مصادقة المستخدم إلى الجهاز (U2M) OAuth. هذه الطريقة مثالية لتجربة البرامج التعليمية للبدء لحزم أصول Databricks أو للتطوير السريع للحزم.
- بالنسبة لسيناريوهات المصادقة غير المراقب ، مثل مهام سير العمل التلقائية بالكامل التي لا توجد فيها فرصة لاستخدام مستعرض الويب الخاص بك لتسجيل الدخول إلى مساحة عمل Azure Databricks المستهدفة في ذلك الوقت، استخدم مصادقة OAuth من جهاز إلى جهاز (M2M). يتطلب هذا الأسلوب استخدام أساسيات خدمة Azure Databricks وهو مثالي لاستخدام حزم أصول Databricks مع أنظمة CI/CD مثل GitHub.
لمصادقة OAuth U2M، قم بما يلي:
استخدم Databricks CLI لبدء إدارة الرمز المميز OAuth محليا عن طريق تشغيل الأمر التالي لكل مساحة عمل هدف.
في الأمر التالي، استبدل
<workspace-url>
بعنوان URL الخاص ب Azure Databricks لكل مساحة عمل، على سبيل المثالhttps://adb-1234567890123456.7.azuredatabricks.net
.databricks auth login --host <workspace-url>
يطالبك Databricks CLI بحفظ المعلومات التي أدخلتها كملف تعريف تكوين Azure Databricks. اضغط
Enter
لقبول اسم ملف التعريف المقترح، أو أدخل اسم ملف تعريف جديد أو موجود. تتم الكتابة فوق أي ملف تعريف موجود بنفس الاسم بالمعلومات التي أدخلتها. يمكنك استخدام ملفات التعريف لتبديل سياق المصادقة بسرعة عبر مساحات عمل متعددة.للحصول على قائمة بأي ملفات تعريف موجودة، في محطة طرفية منفصلة أو موجه أوامر، استخدم Databricks CLI لتشغيل الأمر
databricks auth profiles
. لعرض الإعدادات الموجودة لملف تعريف معين، قم بتشغيل الأمرdatabricks auth env --profile <profile-name>
.في مستعرض الويب الخاص بك، أكمل الإرشادات التي تظهر على الشاشة لتسجيل الدخول إلى مساحة عمل Azure Databricks.
لعرض قيمة رمز OAuth المميز الحالي لملف التعريف والطوابع الزمنية لانتهاء الصلاحية القادمة للرمز المميز، قم بتشغيل أحد الأوامر التالية:
databricks auth token --host <workspace-url>
databricks auth token -p <profile-name>
databricks auth token --host <workspace-url> -p <profile-name>
إذا كان لديك ملفات تعريف متعددة بنفس
--host
القيمة، فقد تحتاج إلى تحديد--host
الخيارات و-p
معا لمساعدة Databricks CLI في العثور على معلومات الرمز المميز OAuth المتطابقة الصحيحة.
يمكنك استخدام اسم ملف تعريف التكوين هذا بطريقة واحدة أو أكثر من الطرق التالية كلما قمت بالتحقق من صحة الحزم أو نشرها أو تشغيلها أو إتلافها:
- مع خيار
-p <profile-name>
سطر الأوامر ، ملحق بالأوامرdatabricks bundle validate
أوdatabricks bundle deploy
databricks bundle run
أو أو .databricks bundle destroy
راجع تطوير حزم أصول Databricks. - كقيمة
profile
التعيين في تعيين المستوىworkspace
الأعلى لملف تكوين الحزمة (على الرغم من أن Databricks يوصي باستخدامhost
التعيين المعين إلى عنوان URL لمساحة عمل Azure Databricks بدلا منprofile
التعيين، لأنه يجعل ملفات تكوين الحزمة أكثر قابلية للنقل). راجع تغطيةprofile
التعيين في مساحة العمل. - إذا كان اسم ملف تعريف التكوين هو
DEFAULT
، استخدامه بشكل افتراضي عند عدم تحديد خيار-p <profile-name>
سطر الأوامر أوprofile
(أوhost
) التعيين .
لمصادقة OAuth M2M، قم بما يلي:
أكمل إرشادات إعداد مصادقة OAuth M2M. راجع مصادقة الوصول إلى Azure Databricks باستخدام كيان خدمة باستخدام OAuth (OAuth M2M).
تثبيت Databricks CLI على مورد الحوسبة الهدف بإحدى الطرق التالية:
- لتثبيت Databricks CLI يدويا على مورد الحساب في الوقت الفعلي، راجع تثبيت Databricks CLI أو تحديثه.
- لاستخدام إجراءات GitHub لتثبيت Databricks CLI تلقائيا على جهاز ظاهري GitHub، راجع setup-cli في GitHub.
- لاستخدام أنظمة CI/CD الأخرى لتثبيت Databricks CLI تلقائيا على جهاز ظاهري، راجع وثائق موفر نظام CI/CD وتثبيت Databricks CLI أو تحديثه.
تعيين متغيرات البيئة التالية على مورد الحساب كما يلي:
DATABRICKS_HOST
، قم بتعيين إلى عنوان URL الخاص ب Azure Databricks لكل مساحة عمل، على سبيل المثالhttps://adb-1234567890123456.7.azuredatabricks.net
.DATABRICKS_CLIENT_ID
، قم بتعيين إلى قيمة معرف التطبيق لمدير خدمة Azure Databricks.DATABRICKS_CLIENT_SECRET
، قم بتعيين إلى قيمة OAuth Secret الخاصة بكيان خدمة Azure Databricks.
لتعيين متغيرات البيئة هذه، راجع وثائق نظام تشغيل مورد الحوسبة الهدف أو نظام CI/CD.
تطوير أول مجموعة أصول Databricks
أسرع طريقة لبدء تطوير الحزمة هي باستخدام قالب مشروع مجموعة. أنشئ مشروع الحزمة الأول باستخدام الأمر Init لحزمة Databricks CLI. يقدم هذا الأمر اختيارا لقوالب الحزم الافتراضية التي توفرها Databricks ويطرح سلسلة من الأسئلة لتهيئة متغيرات المشروع.
databricks bundle init
يعد إنشاء مجموعتك الخطوة الأولى في دورة حياة المجموعة. الخطوة الثانية هي تطوير الحزمة الخاصة بك، عنصر رئيسي منها هو تحديد إعدادات المجموعة والموارد في databricks.yml
ملفات تكوين الموارد و. للحصول على معلومات حول تكوين المجموعة، راجع تكوين مجموعة أصول Databricks.
تلميح
يمكن العثور على أمثلة تكوين المجموعة في أمثلة تكوين الحزمة ومستودع أمثلة الحزمة في GitHub.
الخطوات التالية
- إنشاء مجموعة تنشر دفتر ملاحظات إلى مساحة عمل Azure Databricks ثم تشغل دفتر الملاحظات الذي تم نشره كمهمة Azure Databricks. راجع تطوير وظيفة على Azure Databricks باستخدام حزم أصول Databricks.
- إنشاء حزمة تنشر دفتر ملاحظات إلى مساحة عمل Azure Databricks ثم تشغل دفتر الملاحظات الذي نشر كبنية أساسية لبرنامج ربط العمليات التجارية Delta Live Tables. راجع تطوير خطوط أنابيب Delta Live Tables باستخدام حزم أصول Databricks.
- إنشاء حزمة تقوم بنشر وتشغيل مكدس MLOps. راجع حزم أصول Databricks ل MLOps Stacks.
- أضف مجموعة إلى سير عمل CI/CD (التكامل المستمر/النشر المستمر) في GitHub. راجع تشغيل سير عمل CI/CD باستخدام مجموعة أصول Databricks وإجراءات GitHub.
- إنشاء حزمة تقوم بإنشاء ملف عجلة Python ونشره واستدعاءه. راجع تطوير ملف عجلة Python باستخدام حزم أصول Databricks.
- إنشاء قالب مخصص يمكنك أنت والآخرين استخدامه لإنشاء مجموعة. قد يتضمن القالب المخصص الأذونات الافتراضية وكيانات الخدمة وتكوين CI/CD المخصص. راجع قوالب مشروع مجموعة أصول Databricks.
- ترحيل من dbx إلى Databricks Asset Bundles. راجع الترحيل من dbx إلى الحزم.
- اكتشف أحدث الميزات الجديدة الرئيسية التي تم إصدارها لحزم أصول Databricks. راجع ملاحظات إصدار ميزة حزم أصول Databricks.