ما هي حزم أصول Databricks؟

تعد حزم أصول Databricks (DABs) أداة لتسهيل اعتماد أفضل ممارسات هندسة البرمجيات، بما في ذلك التحكم بالمصادر ومراجعة التعليمات البرمجية والاختبار والتكامل والتسليم المستمر (CI/CD) لبياناتك ومشاريع الذكاء الاصطناعي. تجعل الحزم من الممكن وصف موارد Databricks مثل الوظائف والتدفقات ودفاتر الملاحظات كملفات مصدر. توفر هذه الملفات المصدر تعريفا شاملا للمشروع، بما في ذلك كيفية تنظيمه واختباره ونشره، مما يسهل التعاون في المشاريع أثناء التطوير النشط.

توفر الحزم طريقة لتضمين بيانات التعريف جنبا إلى جنب مع ملفات مصدر المشروع. عند نشر مشروع باستخدام حزم، يتم استخدام بيانات التعريف هذه لتوفير البنية الأساسية والموارد الأخرى. ثم يتم نشر مجموعة المشروع من الملفات المصدر وبيانات التعريف كحزمة واحدة إلى البيئة المستهدفة. تتضمن المجموعة الأجزاء التالية:

  • البنية الأساسية السحابية المطلوبة وتكوينات مساحة العمل
  • الملفات المصدر، مثل دفاتر الملاحظات وملفات Python، التي تتضمن منطق العمل
  • التعريفات والإعدادات لموارد Databricks، مثل وظائف Azure Databricks، وخطوط أنابيب Delta Live Tables، ونقاط نهاية خدمة النموذج، وتجارب MLflow، والنماذج المسجلة في MLflow
  • اختبارات الوحدة واختبارات التكامل

يوفر الرسم التخطيطي التالي طريقة عرض عالية المستوى للتطوير وتدفق CI/CD مع حزم:

نظرة عامة على حزم أصول Databricks

متى يجب استخدام حزم أصول Databricks؟

حزم أصول Databricks هي نهج البنية التحتية كتعليمية (IaC) لإدارة مشاريع Databricks الخاصة بك. استخدمها عندما تريد إدارة المشاريع المعقدة حيث يكون العديد من المساهمين والأتمتة ضرورية، والتكامل والنشر المستمر (CI/CD) مطلبا. نظرا لأن الحزم يتم تعريفها وإدارتها من خلال قوالب YAML والملفات التي تقوم بإنشائها وصيانتها جنبا إلى جنب مع التعليمات البرمجية المصدر، فإنها تعين بشكل جيد إلى السيناريوهات التي يكون فيها IaC نهجا مناسبا.

تتضمن بعض السيناريوهات المثالية للحزم ما يلي:

  • تطوير البيانات والتحليلات ومشاريع التعلم الآلي في بيئة قائمة على الفريق. يمكن أن تساعدك الحزم على تنظيم وإدارة ملفات المصدر المختلفة بكفاءة. وهذا يضمن التعاون السلس والعمليات المبسطة.
  • تكرار مشاكل التعلم الآلي بشكل أسرع. إدارة موارد البنية الأساسية لبرنامج ربط العمليات التجارية ML (مثل التدريب ووظائف الاستدلال الدفعي) باستخدام مشاريع التعلم الآلي التي تتبع أفضل ممارسات الإنتاج من البداية.
  • قم بتعيين المعايير التنظيمية للمشاريع الجديدة عن طريق تأليف قوالب حزم مخصصة تتضمن الأذونات الافتراضية وكيانات الخدمة وتكوينات CI/CD.
  • الامتثال التنظيمي: في الصناعات التي يمثل فيها الامتثال التنظيمي مصدر قلق كبير، يمكن أن تساعد الحزم في الحفاظ على تاريخ تم إصداره من عمل التعليمات البرمجية والبنية التحتية. وهذا يساعد في الحوكمة ويضمن استيفاء معايير الامتثال الضرورية.

كيف تعمل مجموعات أصول Databricks؟

يتم تعريف بيانات تعريف المجموعة باستخدام ملفات YAML التي تحدد البيانات الاصطناعية والموارد وتكوين مشروع Databricks. يمكنك إنشاء ملف YAML هذا يدويا أو إنشاء ملف باستخدام قالب مجموعة. يمكن بعد ذلك استخدام Databricks CLI للتحقق من صحة الحزم ونشرها وتشغيلها باستخدام ملفات YAML هذه. يمكنك تشغيل مشاريع المجموعة من IDEs أو المحطات الطرفية أو داخل Databricks مباشرة. تستخدم هذه المقالة Databricks CLI.

يمكن إنشاء الحزم يدويا أو استنادا إلى قالب. يوفر Databricks CLI قوالب افتراضية لحالات الاستخدام البسيطة، ولكن بالنسبة للوظائف الأكثر تحديدا أو تعقيدا، يمكنك إنشاء قوالب حزم مخصصة لتنفيذ أفضل ممارسات فريقك والحفاظ على اتساق التكوينات الشائعة.

لمزيد من التفاصيل حول التكوين YAML المستخدم للتعبير عن حزم أصول Databricks، راجع تكوين مجموعة أصول Databricks.

تكوين بيئتك لاستخدام الحزم

استخدم Databricks CLI لنشر الحزم بسهولة من سطر الأوامر. لتثبيت Databricks CLI، راجع تثبيت Databricks CLI أو تحديثه.

تتوفر حزم أصول Databricks في Databricks CLI الإصدار 0.218.0 أو أعلى. للعثور على إصدار Databricks CLI المثبت، قم بتشغيل الأمر التالي:

databricks --version

بعد تثبيت Databricks CLI، تحقق من تكوين مساحات عمل Databricks البعيدة بشكل صحيح. تتطلب الحزم تمكين ميزة ملفات مساحة العمل لأن هذه الميزة تدعم العمل مع ملفات أخرى غير دفاتر ملاحظات Databricks، مثل .py والملفات .yml . إذا كنت تستخدم Databricks Runtime الإصدار 11.3 LTS أو أعلى، يتم تمكين هذه الميزة بشكل افتراضي.

المصادقة

يوفر Azure Databricks العديد من أساليب المصادقة:

  • بالنسبة لسيناريوهات المصادقة التي تمت حضورها ، مثل مهام سير العمل اليدوية حيث تستخدم مستعرض الويب لتسجيل الدخول إلى مساحة عمل Azure Databricks المستهدفة (عند مطالبتك بواسطة Databricks CLI)، استخدم مصادقة المستخدم إلى الجهاز (U2M) OAuth. هذه الطريقة مثالية لتجربة البرامج التعليمية للبدء لحزم أصول Databricks أو للتطوير السريع للحزم.
  • بالنسبة لسيناريوهات المصادقة غير المراقب ، مثل مهام سير العمل التلقائية بالكامل التي لا توجد فيها فرصة لاستخدام مستعرض الويب الخاص بك لتسجيل الدخول إلى مساحة عمل Azure Databricks المستهدفة في ذلك الوقت، استخدم مصادقة OAuth من جهاز إلى جهاز (M2M). يتطلب هذا الأسلوب استخدام أساسيات خدمة Azure Databricks وهو مثالي لاستخدام حزم أصول Databricks مع أنظمة CI/CD مثل GitHub.

لمصادقة OAuth U2M، قم بما يلي:

  1. استخدم Databricks CLI لبدء إدارة الرمز المميز OAuth محليا عن طريق تشغيل الأمر التالي لكل مساحة عمل هدف.

    في الأمر التالي، استبدل <workspace-url> بعنوان URL الخاص ب Azure Databricks لكل مساحة عمل، على سبيل المثال https://adb-1234567890123456.7.azuredatabricks.net.

    databricks auth login --host <workspace-url>
    
  2. يطالبك Databricks CLI بحفظ المعلومات التي أدخلتها كملف تعريف تكوين Azure Databricks. اضغط Enter لقبول اسم ملف التعريف المقترح، أو أدخل اسم ملف تعريف جديد أو موجود. تتم الكتابة فوق أي ملف تعريف موجود بنفس الاسم بالمعلومات التي أدخلتها. يمكنك استخدام ملفات التعريف لتبديل سياق المصادقة بسرعة عبر مساحات عمل متعددة.

    للحصول على قائمة بأي ملفات تعريف موجودة، في محطة طرفية منفصلة أو موجه أوامر، استخدم Databricks CLI لتشغيل الأمر databricks auth profiles. لعرض الإعدادات الموجودة لملف تعريف معين، قم بتشغيل الأمر databricks auth env --profile <profile-name>.

  3. في مستعرض الويب الخاص بك، أكمل الإرشادات التي تظهر على الشاشة لتسجيل الدخول إلى مساحة عمل Azure Databricks.

  4. لعرض قيمة رمز OAuth المميز الحالي لملف التعريف والطوابع الزمنية لانتهاء الصلاحية القادمة للرمز المميز، قم بتشغيل أحد الأوامر التالية:

    • databricks auth token --host <workspace-url>
    • databricks auth token -p <profile-name>
    • databricks auth token --host <workspace-url> -p <profile-name>

    إذا كان لديك ملفات تعريف متعددة بنفس --host القيمة، فقد تحتاج إلى تحديد --host الخيارات و -p معا لمساعدة Databricks CLI في العثور على معلومات الرمز المميز OAuth المتطابقة الصحيحة.

يمكنك استخدام اسم ملف تعريف التكوين هذا بطريقة واحدة أو أكثر من الطرق التالية كلما قمت بالتحقق من صحة الحزم أو نشرها أو تشغيلها أو إتلافها:

  • مع خيار -p <profile-name>سطر الأوامر ، ملحق بالأوامر databricks bundle validateأو databricks bundle deploydatabricks bundle runأو أو .databricks bundle destroy راجع تطوير حزم أصول Databricks.
  • كقيمة profile التعيين في تعيين المستوى workspace الأعلى لملف تكوين الحزمة (على الرغم من أن Databricks يوصي باستخدام host التعيين المعين إلى عنوان URL لمساحة عمل Azure Databricks بدلا من profile التعيين، لأنه يجعل ملفات تكوين الحزمة أكثر قابلية للنقل). راجع تغطية profile التعيين في مساحة العمل.
  • إذا كان اسم ملف تعريف التكوين هو DEFAULT، استخدامه بشكل افتراضي عند عدم تحديد خيار -p <profile-name> سطر الأوامر أو profile (أو host) التعيين .

لمصادقة OAuth M2M، قم بما يلي:

  1. أكمل إرشادات إعداد مصادقة OAuth M2M. راجع مصادقة الوصول إلى Azure Databricks باستخدام كيان خدمة باستخدام OAuth (OAuth M2M).

  2. تثبيت Databricks CLI على مورد الحوسبة الهدف بإحدى الطرق التالية:

    • لتثبيت Databricks CLI يدويا على مورد الحساب في الوقت الفعلي، راجع تثبيت Databricks CLI أو تحديثه.
    • لاستخدام إجراءات GitHub لتثبيت Databricks CLI تلقائيا على جهاز ظاهري GitHub، راجع setup-cli في GitHub.
    • لاستخدام أنظمة CI/CD الأخرى لتثبيت Databricks CLI تلقائيا على جهاز ظاهري، راجع وثائق موفر نظام CI/CD وتثبيت Databricks CLI أو تحديثه.
  3. تعيين متغيرات البيئة التالية على مورد الحساب كما يلي:

    • DATABRICKS_HOST، قم بتعيين إلى عنوان URL الخاص ب Azure Databricks لكل مساحة عمل، على سبيل المثال https://adb-1234567890123456.7.azuredatabricks.net.
    • DATABRICKS_CLIENT_ID، قم بتعيين إلى قيمة معرف التطبيق لمدير خدمة Azure Databricks.
    • DATABRICKS_CLIENT_SECRET، قم بتعيين إلى قيمة OAuth Secret الخاصة بكيان خدمة Azure Databricks.

    لتعيين متغيرات البيئة هذه، راجع وثائق نظام تشغيل مورد الحوسبة الهدف أو نظام CI/CD.

تطوير أول مجموعة أصول Databricks

أسرع طريقة لبدء تطوير الحزمة هي باستخدام قالب مشروع مجموعة. أنشئ مشروع الحزمة الأول باستخدام الأمر Init لحزمة Databricks CLI. يقدم هذا الأمر اختيارا لقوالب الحزم الافتراضية التي توفرها Databricks ويطرح سلسلة من الأسئلة لتهيئة متغيرات المشروع.

databricks bundle init

يعد إنشاء مجموعتك الخطوة الأولى في دورة حياة المجموعة. الخطوة الثانية هي تطوير الحزمة الخاصة بك، عنصر رئيسي منها هو تحديد إعدادات المجموعة والموارد في databricks.yml ملفات تكوين الموارد و. للحصول على معلومات حول تكوين المجموعة، راجع تكوين مجموعة أصول Databricks.

تلميح

يمكن العثور على أمثلة تكوين المجموعة في أمثلة تكوين الحزمة ومستودع أمثلة الحزمة في GitHub.

الخطوات التالية