اقرأ باللغة الإنجليزية

مشاركة عبر


الحدود والأسئلة المتداولة لتكامل Git مع مجلدات Databricks Git

تحتوي مجلدات Databricks Git وتكامل Git على حدود محددة في الأقسام التالية. للحصول على معلومات عامة، راجع حدود Databricks.

الانتقال إلى:

حدود الملفات وحدود المستودع

لا يفرض Azure Databricks حدا على حجم المستودع. ورغم ذلك:

  • تقتصر الفروع العاملة على 1 غيغابايت (GB).
  • لا يمكن عرض الملفات التي يزيد حجمها عن 10 ميغابايت في واجهة مستخدم Azure Databricks.
  • تخضع ملفات مساحة العمل الفردية إلى حد حجم منفصل. لمزيد من التفاصيل، اقرأ القيود.

توصي Databricks بأن في المستودع:

  • لا يتجاوز العدد الإجمالي لجميع أصول وملفات مساحة العمل 20,000.

بالنسبة لأي عملية Git، يقتصر استخدام الذاكرة على 2 غيغابايت، وتقتصر عمليات كتابة القرص على 4 غيغابايت. نظرا لأن الحد هو لكل عملية، تحصل على فشل إذا حاولت استنساخ مستودع Git بحجم 5 غيغابايت في الحجم الحالي. ومع ذلك، إذا قمت باستنساخ مستودع Git بحجم 3 غيغابايت في عملية واحدة ثم أضفت 2 غيغابايت إليه لاحقا، فستنجح عملية السحب التالية.

قد تتلقى رسالة خطأ إذا تجاوز المستودع هذه الحدود. قد تتلقى أيضا خطأ انتهاء المهلة عند استنساخ المستودع، ولكن قد تكتمل العملية في الخلفية.

للعمل مع مستودع أكبر من حدود الحجم، جرب السحب المتناثر.

إذا كان يجب عليك كتابة ملفات مؤقتة لا تريد الاحتفاظ بها بعد إيقاف تشغيل نظام المجموعة، فقم بكتابة الملفات المؤقتة لتجنب $TEMPDIR تجاوز حدود حجم الفرع وأداء أفضل من الكتابة إلى دليل العمل الحالي (CWD) إذا كان CWD في نظام ملفات مساحة العمل. لمزيد من المعلومات، راجع أين يجب كتابة ملفات مؤقتة على Azure Databricks؟.

الحد الأقصى لعدد مجلدات Git لكل مساحة عمل

يمكنك الحصول على 2000 مجلد Git كحد أقصى لكل مساحة عمل. إذا كنت بحاجة إلى المزيد، فاتصل بدعم Databricks.

استرداد الملفات المحذوفة من مجلدات Git في مساحة العمل

تختلف إجراءات مساحة العمل على مجلدات Git في إمكانية استرداد الملفات. تسمح بعض الإجراءات باسترداد البيانات من خلال مجلد سلة المهملات بينما لا تسمح إجراءات أخرى بذلك. يمكن استعادة الملفات التي تم تثبيتها مسبقا ودفعها إلى فرع بعيد باستخدام محفوظات تثبيت Git لمستودع Git البعيد. يوضح هذا الجدول سلوك كل إجراء وقابليته للاسترداد:

الإجراء هل الملف قابل للاسترداد؟
حذف ملف باستخدام مستعرض مساحة العمل نعم، من مجلد سلة المهملات
تجاهل ملف جديد باستخدام مربع حوار مجلد Git نعم، من مجلد سلة المهملات
تجاهل ملف معدل باستخدام مربع حوار مجلد Git لا، الملف قد اختفى
reset (الثابت) لتعديلات الملفات غير الملتزم بها لا، لقد اختفت تعديلات الملفات
reset (الثابت) للملفات غير الملتزم بها التي تم إنشاؤها حديثا لا، لقد اختفت تعديلات الملفات
تبديل الفروع باستخدام مربع حوار مجلد Git نعم، من مستودع Git البعيد
عمليات Git الأخرى (الالتزام والدفع وما إلى ذلك) من مربع حوار مجلد Git نعم، من مستودع Git البعيد
PATCH عمليات التحديث /repos/id من Repos API نعم، من مستودع Git البعيد

يمكن استرداد الملفات المحذوفة من مجلد Git من خلال عمليات Git من واجهة مستخدم مساحة العمل من محفوظات الفرع البعيد باستخدام سطر أوامر Git (أو أدوات Git الأخرى) إذا تم تثبيت هذه الملفات مسبقا ودفعها إلى المستودع البعيد. تختلف إجراءات مساحة العمل في إمكانية استرداد الملف. تسمح بعض الإجراءات باسترداد البيانات من خلال سلة المهملات، بينما لا تسمح إجراءات أخرى بذلك. يمكن استعادة الملفات التي تم تثبيتها مسبقا ودفعها إلى فرع بعيد عبر محفوظات تثبيت Git. يوضح الجدول أدناه سلوك كل إجراء وقابليته للاسترداد:

دعم Monorepo

توصي Databricks بعدم إنشاء مجلدات Git مدعومة بمستودعات، حيث monorepo هو مستودع Git كبير من مؤسسة واحدة مع العديد من الآلاف من الملفات عبر العديد من المشاريع.

أنواع الأصول المدعومة في مجلدات Git

يتم دعم أنواع أصول Azure Databricks معينة فقط بواسطة مجلدات Git. يمكن تسلسل نوع الأصل المدعوم والتحكم في الإصدار ودفعه إلى مستودع Git المدعوم.

حاليا، أنواع الأصول المدعومة هي:

نوع الأصل التفاصيل
ملف الملفات عبارة عن بيانات متسلسلة، ويمكن أن تتضمن أي شيء من المكتبات إلى الثنائيات إلى التعليمات البرمجية إلى الصور. لمزيد من المعلومات، اقرأ ما هي ملفات مساحة العمل؟
دفتر دفاتر الملاحظات هي على وجه التحديد تنسيقات ملفات دفتر الملاحظات التي يدعمها Databricks. تعتبر دفاتر الملاحظات نوع أصل Azure Databricks منفصلا عن الملفات نظرا لعدم تسلسلها. تحدد مجلدات Git دفتر ملاحظات بواسطة ملحق الملف (مثل .ipynb) أو بواسطة ملحقات الملفات المقترنة بعلامة خاصة في محتوى الملف (على سبيل المثال، # Databricks notebook source تعليق في بداية .py الملفات المصدر).
مجلد المجلد هو بنية خاصة ب Azure Databricks تمثل معلومات متسلسلة حول تجميع منطقي للملفات في Git. كما هو متوقع، يواجه المستخدم هذا ك "مجلد" عند عرض مجلد Azure Databricks Git أو الوصول إليه باستخدام Azure Databricks CLI.

تتضمن أنواع أصول Azure Databricks غير المدعومة حاليا في مجلدات Git ما يلي:

  • استعلامات DBSQL
  • التنبيهات
  • لوحات المعلومات (بما في ذلك لوحات المعلومات القديمة)
  • التجارب
  • مساحات الجني

عند العمل مع الأصول الخاصة بك في Git، لاحظ القيود التالية في تسمية الملفات:

  • لا يمكن أن يحتوي المجلد على دفتر ملاحظات بنفس اسم دفتر ملاحظات أو ملف أو مجلد آخر في نفس مستودع Git، حتى إذا كان ملحق الملف مختلفا. (بالنسبة لدفاتر الملاحظات بتنسيق المصدر، يكون .py الملحق ل python وSc .scala scala .sql وSQL وR .r . بالنسبة لدفاتر الملاحظات بتنسيق IPYNB، يكون الملحق هو .ipynb.) على سبيل المثال، لا يمكنك استخدام دفتر ملاحظات بتنسيق المصدر يسمى test1.py ودفتر ملاحظات IPYNB يسمى test1 في نفس مجلد Git لأنه سيتم تسلسل ملف دفتر ملاحظات Python بتنسيق المصدر (test1.py) كما test1 سيحدث تعارض.
  • الحرف / غير معتمد في أسماء الملفات. على سبيل المثال، لا يمكنك الحصول على ملف مسمى i/o.py في مجلد Git الخاص بك.

إذا حاولت تنفيذ عمليات Git على الملفات التي تحتوي على أسماء تحتوي على هذه الأنماط، فستتلقى رسالة "خطأ في إحضار حالة Git". إذا تلقيت هذا الخطأ بشكل غير متوقع، فراجع أسماء ملفات الأصول في مستودع Git الخاص بك. إذا عثرت على ملفات بأسماء تحتوي على هذه الأنماط المتعارضة، فقم بإعادة تسميتها وحاول تنفيذ العملية مرة أخرى.

ملاحظة

يمكنك نقل الأصول الحالية غير المدعومة إلى مجلد Git، ولكن لا يمكنك تثبيت التغييرات على هذه الأصول مرة أخرى إلى المستودع. لا يمكنك إنشاء أصول جديدة غير مدعومة في مجلد Git.

تنسيقات دفتر الملاحظات

تعتبر Databricks نوعين من تنسيقات دفتر الملاحظات عالية المستوى، خاصة ب Databricks: "المصدر" و"ipynb". عندما يقوم مستخدم بتثبيت دفتر ملاحظات بتنسيق "المصدر"، يقوم النظام الأساسي Azure Databricks بتثبيت ملف ثابت بلاحقة لغة، مثل .pyأو .sql.scala.r. يحتوي دفتر الملاحظات بتنسيق "المصدر" على التعليمات البرمجية المصدر فقط ولا يحتوي على مخرجات مثل عرض الجدول والمرئيات التي هي نتائج تشغيل دفتر الملاحظات.

ومع ذلك، فإن تنسيق "ipynb" يحتوي على مخرجات مقترنة به، ويتم دفع هذه البيانات الاصطناعية تلقائيا إلى مستودع Git الذي يدعم مجلد Git عند دفع دفتر الملاحظات .ipynb الذي أنشأها. إذا كنت تريد تثبيت المخرجات مع التعليمات البرمجية، فاستخدم تنسيق دفتر الملاحظات "ipynb" وقم بإعداد التكوين للسماح للمستخدم بتثبيت أي مخرجات تم إنشاؤها. ونتيجة لذلك، يدعم "ipynb" أيضا تجربة عرض أفضل في Databricks لدفاتر الملاحظات التي يتم دفعها إلى مستودع Git البعيد من خلال مجلدات Git.

تنسيق مصدر دفتر الملاحظات التفاصيل
المصدر يمكن أن يكون أي ملف تعليمة برمجية مع لاحقة ملف قياسية تشير إلى لغة التعليمات البرمجية، مثل .pyو .scala.r و.sql. يتم التعامل مع دفاتر الملاحظات "المصدر" كملفات نصية ولن تتضمن أي مخرجات مقترنة عند تثبيتها مرة أخرى في مستودع Git.
ipynb تنتهي ملفات "ipynb" ب .ipynb ويمكن، إذا تم تكوينها، دفع المخرجات (مثل المرئيات) من مجلد Databricks Git إلى مستودع Git المدعوم. .ipnynb يمكن أن يحتوي دفتر الملاحظات على تعليمات برمجية py بأي لغة تدعمها دفاتر ملاحظات Databricks (على الرغم من جزء )..ipynb

إذا كنت تريد إرجاع المخرجات إلى المستودع بعد تشغيل دفتر ملاحظات، فاستخدم .ipynb دفتر ملاحظات (Jupyter). إذا كنت تريد فقط تشغيل دفتر الملاحظات وإدارته في Git، فاستخدم تنسيق "المصدر" مثل .py.

لمزيد من التفاصيل حول تنسيقات دفتر الملاحظات المدعومة، اقرأ تصدير دفاتر ملاحظات Databricks واستيرادها.

ملاحظة

ما هي "المخرجات"؟

المخرجات هي نتائج تشغيل دفتر ملاحظات على النظام الأساسي Databricks، بما في ذلك عرض الجدول والمرئيات.

كيف أعمل معرفة التنسيق الذي يستخدمه دفتر الملاحظات، بخلاف ملحق الملف؟

في أعلى دفتر ملاحظات تديره Databricks، عادة ما يكون هناك تعليق من سطر واحد يشير إلى التنسيق. على سبيل المثال، بالنسبة لدفتر .py الملاحظات "المصدر"، سترى سطرا يبدو كما يلي:

# Databricks notebook source

بالنسبة للملفات .ipynb ، يتم استخدام لاحقة الملف للإشارة إلى أنه تنسيق دفتر الملاحظات "ipynb".

دفاتر ملاحظات IPYNB في مجلدات Databricks Git

يتوفر دعم دفاتر ملاحظات Jupyter (.ipynb الملفات) في مجلدات Git. يمكنك استنساخ المستودعات باستخدام .ipynb دفاتر الملاحظات، والعمل معها في Azure Databricks، ثم تثبيتها ودفعها كدفاتر .ipynb ملاحظات. يتم الاحتفاظ ببيانات التعريف، مثل لوحة معلومات دفتر الملاحظات. يمكن للمسؤولين التحكم فيما إذا كان يمكن تنفيذ المخرجات أم لا.

السماح بتثبيت إخراج دفتر الملاحظات .ipynb

بشكل افتراضي، لا يسمح .ipynb إعداد المسؤول لمجلدات Git بتثبيت إخراج دفتر الملاحظات. يمكن لمسؤولي مساحة العمل تغيير هذا الإعداد:

  1. انتقل إلى إعدادات > المسؤول إعدادات مساحة العمل.

  2. ضمن مجلدات > Git السماح لمجلدات Git بتصدير مخرجات IPYNB، حدد السماح: يمكن تبديل مخرجات IPYNB.

    وحدة تحكم المسؤول: السماح لمجلدات Git بتصدير مخرجات IPYNB.

هام

عند تضمين المخرجات، يتم الاحتفاظ بالتصور وتكوينات لوحة المعلومات بتنسيق ملف .ipynb.

التحكم في عمليات تثبيت البيانات الاصطناعية لإخراج دفتر ملاحظات IPYNB

عند تثبيت .ipynb ملف، ينشئ Databricks ملف تكوين يتيح لك التحكم في كيفية تنفيذ المخرجات: .databricks/commit_outputs.

  1. إذا كان لديك ملف دفتر ملاحظات ولكن لم يكن لديك .ipynb ملف تكوين في المستودع، فافتح نموذج حالة Git.

  2. في مربع حوار الإعلام، انقر فوق إنشاء ملف commit_outputs.

    واجهة مستخدم تثبيت دفتر الملاحظات: إنشاء زر ملف commit_outputs.

يمكنك أيضا إنشاء ملفات التكوين من القائمة ملف . تحتوي القائمة ملف على عنصر تحكم يتيح لك تحديث ملف التكوين تلقائيا لتحديد تضمين أو استبعاد المخرجات لدفتر ملاحظات معين.

  1. في القائمة ملف ، حدد Commit notebooks outputs.

    محرر دفتر الملاحظات: تثبيت دفاتر الملاحظات إخراج الحالة والتحكم.

  2. في مربع الحوار، تأكد من اختيارك لتثبيت مخرجات دفتر الملاحظات.

    مربع حوار تنفيذ مخرجات دفاتر الملاحظات.

تحويل دفتر ملاحظات مصدر إلى IPYNB

يمكنك تحويل دفتر ملاحظات مصدر موجود في مجلد Git إلى دفتر ملاحظات IPYNB من خلال واجهة مستخدم Azure Databricks.

  1. افتح دفتر ملاحظات مصدر في مساحة العمل.

  2. حدد ملف من قائمة مساحة العمل، ثم حدد تغيير تنسيق دفتر الملاحظات [المصدر]. إذا كان دفتر الملاحظات بتنسيق IPYNB بالفعل، فسيكون [المصدر] [ipynb] في عنصر القائمة.

    قائمة ملف مساحة العمل، موسعة، تعرض خيار تغيير تنسيق دفتر الملاحظات.

  3. في مربع الحوار المشروط، حدد "تنسيق دفتر ملاحظات Jupyter (.ipynb)" وانقر فوق تغيير.

    مربع الحوار المشروط حيث يمكنك تحديد تنسيق دفتر ملاحظات IPYNB.

يمكنك أيضًا:

  • إنشاء دفاتر ملاحظات جديدة .ipynb .
  • عرض diffs كشفرة diff (تغييرات التعليمات البرمجية في الخلايا) أو Raw diff (يتم تقديم تغييرات التعليمات البرمجية كبناء جملة JSON، والذي يتضمن مخرجات دفتر الملاحظات كبيانات تعريف).

لمزيد من المعلومات حول أنواع دفاتر الملاحظات المدعومة في Azure Databricks، اقرأ تصدير دفاتر ملاحظات Databricks واستيرادها.

الأسئلة المتداولة: تكوين مجلد Git

أين يتم تخزين محتوى مستودع Azure Databricks؟

يتم نسخ محتويات المستودع مؤقتا على القرص في مستوى التحكم. يتم تخزين ملفات دفتر ملاحظات Azure Databricks في قاعدة بيانات وحدة التحكم تماما مثل دفاتر الملاحظات في مساحة العمل الرئيسية. يتم تخزين الملفات غير المتعلقة بدفتر الملاحظات على القرص لمدة تصل إلى 30 يوما.

هل تدعم مجلدات Git خوادم Git المحلية أو المستضافة ذاتيا؟

تدعم مجلدات Databricks Git تكامل GitHub Enterprise وBitbucket Server وAzure DevOps Server وGitLab Self-managed، إذا كان الخادم متاحا للإنترنت. للحصول على تفاصيل حول دمج مجلدات Git مع خادم Git داخلي، اقرأ Git Proxy Server لمجلدات Git.

للتكامل مع خادم Bitbucket أو GitHub Enterprise Server أو مثيل اشتراك مدار ذاتيا من GitLab لا يمكن الوصول إليه عبر الإنترنت، اتصل بفريق حساب Azure Databricks.

ما هي أنواع أصول Databricks التي تدعمها مجلدات Git؟

للحصول على تفاصيل حول أنواع الأصول المدعومة، اقرأ أنواع الأصول المدعومة في مجلدات Git.

هل تدعم .gitignore مجلدات Git الملفات؟

نعم. إذا أضفت ملفا إلى المستودع الخاص بك ولا تريد تعقبه بواسطة Git، فقم بإنشاء ملف أو استخدم ملفا مستنسخا .gitignore من المستودع البعيد وأضف اسم الملف، بما في ذلك الملحق.

.gitignore يعمل فقط للملفات التي لم يتم تعقبها بالفعل بواسطة Git. إذا قمت بإضافة ملف تم تعقبه بالفعل بواسطة Git إلى .gitignore ملف، فلا يزال يتم تعقب الملف بواسطة Git.

هل يمكنني إنشاء مجلدات من المستوى الأعلى ليست مجلدات مستخدم؟

نعم، يمكن للمسؤولين إنشاء مجلدات من المستوى الأعلى إلى عمق واحد. لا تدعم مجلدات Git مستويات المجلدات الإضافية.

هل تدعم مجلدات Git قوالب Git الفرعية؟

‏‏لا. يمكنك استنساخ مستودع يحتوي على قوالب Git الفرعية، ولكن لا يتم استنساخ القالب الفرعي.

هل يدعم Azure Data Factory (ADF) مجلدات Git؟

نعم.

إدارة المصدر

لماذا تختفي لوحات معلومات دفتر الملاحظات عند سحب فرع مختلف أو سحبه؟

هذا قيد حاليا لأن ملفات مصدر دفتر ملاحظات Azure Databricks لا تخزن معلومات لوحة معلومات دفتر الملاحظات.

إذا كنت تريد الاحتفاظ بلوحات المعلومات في مستودع Git، فغير تنسيق دفتر الملاحظات إلى .ipynb (تنسيق دفتر ملاحظات Jupyter). بشكل افتراضي، .ipynb يدعم تعريفات لوحة المعلومات والتصور. إذا كنت تريد الاحتفاظ ببيانات الرسم البياني (نقاط البيانات)، فيجب عليك تثبيت دفتر الملاحظات بالمخرجات.

للتعرف على تثبيت .ipynb مخرجات دفتر الملاحظات، راجع السماح بتثبيت .ipynb إخراج دفتر الملاحظات.

هل تدعم مجلدات Git دمج الفروع؟

نعم. يمكنك أيضا إنشاء طلب سحب ودمج من خلال موفر Git الخاص بك.

هل يمكنني حذف فرع من مستودع Azure Databricks؟

‏‏لا. لحذف فرع، يجب العمل في موفر Git الخاص بك.

إذا تم تثبيت مكتبة على نظام مجموعة، وتم تضمين مكتبة بنفس الاسم في مجلد داخل مستودع، فما هي المكتبة التي يتم استيرادها؟

يتم استيراد المكتبة في المستودع. لمزيد من المعلومات حول أسبقية المكتبة في Python، راجع أسبقية مكتبة Python.

هل يمكنني سحب أحدث إصدار من مستودع من Git قبل تشغيل وظيفة دون الاعتماد على أداة تنسيق خارجية؟

‏‏لا. عادة ما يمكنك دمج هذا كتثبيت مسبق على خادم Git بحيث يقوم كل دفع إلى فرع (رئيسي/prod) بتحديث مستودع الإنتاج.

هل يمكنني تصدير مستودع؟

يمكنك تصدير دفاتر الملاحظات أو المجلدات أو المستودع بأكمله. لا يمكنك تصدير الملفات غير الموجودة في دفتر الملاحظات. إذا قمت بتصدير مستودع كامل، فلن يتم تضمين الملفات غير الموجودة في دفتر الملاحظات. للتصدير، استخدم workspace export الأمر في Databricks CLI أو استخدم واجهة برمجة تطبيقات مساحة العمل.

الأمان والمصادقة والرموز المميزة

مشكلة في نهج الوصول المشروط (CAP) لمعرف Microsoft Entra

عند محاولة استنساخ مستودع، قد تتلقى رسالة خطأ "تم رفض الوصول" عندما:

  • تم تكوين Azure Databricks لاستخدام Azure DevOps مع مصادقة معرف Microsoft Entra.
  • لقد قمت بتمكين نهج وصول مشروط في Azure DevOps ونهج الوصول المشروط لمعرف Microsoft Entra.

لحل هذه المشكلة، أضف استثناء إلى نهج الوصول المشروط (CAP) لعنوان IP أو مستخدمي Azure Databricks.

لمزيد من المعلومات، راجع نهج الوصول المشروط.

السماح بالقائمة باستخدام رموز Azure AD المميزة

إذا كنت تستخدم Azure Active Directory (AAD) للمصادقة مع Azure DevOps، فإن قائمة السماح الافتراضية تقيد عناوين URL ل Git بما يلي:

  • dev.azure.com
  • visualstudio.com

لمزيد من المعلومات، راجع السماح بالقوائم بتقييد استخدام المستودع عن بعد.

هل محتويات مجلدات Azure Databricks Git مشفرة؟

يتم تشفير محتويات مجلدات Azure Databricks Git بواسطة Azure Databricks باستخدام مفتاح افتراضي. التشفير باستخدام المفاتيح التي يديرها العميل غير مدعوم إلا عند تشفير بيانات اعتماد Git.

كيف وأين يتم تخزين رموز GitHub المميزة في Azure Databricks؟ من يمكنه الوصول من Azure Databricks؟

  • يتم تخزين رموز المصادقة المميزة في وحدة التحكم Azure Databricks، ويمكن لموظف Azure Databricks الوصول فقط من خلال بيانات اعتماد مؤقتة يتم تدقيقها.
  • يسجل Azure Databricks إنشاء هذه الرموز المميزة وحذفها، ولكن ليس استخدامها. يحتوي Azure Databricks على تسجيل يتعقب عمليات Git التي يمكن استخدامها لتدقيق استخدام الرموز المميزة بواسطة تطبيق Azure Databricks.
  • تدقق مؤسسة GitHub استخدام الرمز المميز. قد تحتوي خدمات Git الأخرى أيضا على تدقيق خادم Git.

هل تدعم مجلدات Git توقيع GPG على التثبيتات؟

‏‏لا.

هل تدعم مجلدات Git SSH؟

لا، فقط HTTPS.

خطأ في توصيل Azure Databricks بم repo Azure DevOps في إيجار مختلف

عند محاولة الاتصال ب DevOps في إيجار منفصل، قد تتلقى الرسالة Unable to parse credentials from Azure Active Directory account. إذا كان مشروع Azure DevOps في إيجار معرف Microsoft Entra مختلف من Azure Databricks، فأنت بحاجة إلى استخدام رمز مميز للوصول من Azure DevOps. راجع الاتصال ب Azure DevOps باستخدام رمز DevOps المميز.

CI/CD وMLOps

التغييرات الواردة تمسح حالة دفتر الملاحظات

تؤدي عمليات Git التي تغير التعليمات البرمجية المصدر لدفتر الملاحظات إلى فقدان حالة دفتر الملاحظات، بما في ذلك مخرجات الخلايا والتعليقات ومحفوظات الإصدارات وعناصر واجهة المستخدم. على سبيل المثال، git pull يمكن تغيير التعليمات البرمجية المصدر لدفتر الملاحظات. في هذه الحالة، يجب أن تستبدل مجلدات Databricks Git دفتر الملاحظات الموجود لاستيراد التغييرات. git commit أو push إنشاء فرع جديد لا يؤثر على التعليمات البرمجية المصدر لدفتر الملاحظات، لذلك يتم الاحتفاظ بحالة دفتر الملاحظات في هذه العمليات.

هام

لا تعمل تجارب MLflow في مجلدات Git مع DBR 14.x أو إصدارات أقل.

هل يمكنني إنشاء تجربة MLflow في مستودع؟

هناك نوعان من تجارب MLflow: مساحة العمل ودفتر الملاحظات. للحصول على تفاصيل حول نوعي تجارب MLflow، راجع تنظيم عمليات تشغيل التدريب باستخدام تجارب MLflow.

في مجلدات Git، يمكنك استدعاء mlflow.set_experiment("/path/to/experiment") تجربة MLflow من أي من النوعين وتشغيل السجل إليها، ولكن لن يتم التحقق من هذه التجربة وتشغيلات المقترنة في التحكم بالمصادر.

تجارب MLflow لمساحة العمل

لا يمكنك إنشاء تجارب MLflow لمساحة العمل في مجلد Databricks Git (مجلد Git). إذا كان العديد من المستخدمين يستخدمون مجلدات Git منفصلة للتعاون في نفس التعليمات البرمجية ل ML، يتم تشغيل log MLflow إلى تجربة MLflow التي تم إنشاؤها في مجلد مساحة عمل عادي.

تجارب Notebook MLflow

يمكنك إنشاء تجارب دفتر الملاحظات في مجلد Databricks Git. إذا قمت بالتحقق من دفتر الملاحظات الخاص بك في التحكم بالمصادر كملف .ipynb ، يمكنك تسجيل تشغيل MLflow إلى تجربة MLflow تم إنشاؤها تلقائيا والمقترنة بها. لمزيد من التفاصيل، اقرأ حول إنشاء تجارب دفتر الملاحظات.

منع فقدان البيانات في تجارب MLflow

يتم تخزين تجارب Notebook MLflow التي تم إنشاؤها باستخدام وظائف Databricks مع التعليمات البرمجية المصدر في مستودع بعيد في موقع تخزين مؤقت. تستمر هذه التجارب في البداية بعد تنفيذ سير العمل ولكنها معرضة لخطر الحذف لاحقا أثناء الإزالة المجدولة للملفات في التخزين المؤقت. توصي Databricks باستخدام تجارب MLflow لمساحة العمل مع الوظائف ومصادر Git البعيدة.

تحذير

في أي وقت تقوم فيه بالتبديل إلى فرع لا يحتوي على دفتر الملاحظات، فإنك تخاطر بفقدان بيانات تجربة MLflow المقترنة. تصبح هذه الخسارة متكررة إذا لم يتم الوصول إلى الفرع السابق في غضون 30 يوما.

لاسترداد بيانات التجربة المفقودة قبل انتهاء صلاحية 30 يوما، أعد تسمية دفتر الملاحظات مرة أخرى إلى الاسم الأصلي، وافتح دفتر الملاحظات، وانقر فوق أيقونة "التجربة" في الجزء الأيسر (وهذا يستدعي mlflow.get_experiment_by_name() أيضا واجهة برمجة التطبيقات بشكل فعال)، وستتمكن من رؤية التجربة التي تم استردادها وتشغيلها. بعد 30 يوما، سيتم إزالة أي تجارب MLflow المعزولة لتلبية سياسات التوافق مع القانون العام لحماية البيانات (GDPR).

لمنع هذا الموقف، يوصي Databricks إما بتجنب إعادة تسمية دفاتر الملاحظات في المستودعات تماما، أو إذا قمت بإعادة تسمية دفتر ملاحظات، فانقر فوق أيقونة "التجربة" في الجزء الأيسر مباشرة بعد إعادة تسمية دفتر ملاحظات.

ماذا يحدث إذا كانت مهمة دفتر الملاحظات قيد التشغيل في مساحة عمل أثناء عملية Git قيد التقدم؟

في أي وقت أثناء عملية Git قيد التقدم، ربما تم تحديث بعض دفاتر الملاحظات في المستودع بينما لم يحدث البعض الآخر. قد يتسبب ذلك في سلوك غير متوقع.

على سبيل المثال، افترض استدعاءات notebook A notebook Z باستخدام أمر %run . إذا بدأت مهمة قيد التشغيل أثناء عملية Git أحدث إصدار من notebook A، ولكن notebook Z لم يتم تحديثها بعد، فقد يبدأ الأمر في دفتر الملاحظات %run A الإصدار الأقدم من notebook Z. أثناء عملية Git، لا يمكن التنبؤ بحالات دفتر الملاحظات وقد تفشل المهمة أو تشغل notebook A ومن notebook Z عمليات تثبيت مختلفة.

لتجنب هذا الموقف، استخدم الوظائف المستندة إلى Git (حيث يكون المصدر موفر Git وليس مسار مساحة عمل) بدلا من ذلك. لمزيد من التفاصيل، اقرأ استخدام Git مع الوظائف.

الموارد

للحصول على تفاصيل حول ملفات مساحة عمل Databricks، راجع ما هي ملفات مساحة العمل؟.