مكتبات Python ذات نطاق دفتر الملاحظات

تتيح لك المكتبات ذات نطاق دفتر الملاحظات إنشاء بيئات Python المخصصة الخاصة بدفتر الملاحظات وتعديلها وحفظها وإعادة استخدامها ومشاركتها. عند تثبيت مكتبة ذات نطاق دفتر ملاحظات، يمكن فقط لدفتر الملاحظات الحالي وأي مهام مقترنة بدفتر الملاحظات هذا الوصول إلى تلك المكتبة. لا تتأثر دفاتر الملاحظات الأخرى المرفقة بنفس المجموعة.

لا تستمر المكتبات ذات نطاق دفتر الملاحظات عبر جلسات العمل. يجب إعادة تثبيت المكتبات ذات نطاق دفتر الملاحظات في بداية كل جلسة عمل، أو كلما تم فصل دفتر الملاحظات عن نظام مجموعة.

توصي Databricks باستخدام %pip الأمر السحري لتثبيت مكتبات Python ذات نطاق دفتر الملاحظات.

يمكنك استخدام %pip في دفاتر الملاحظات المجدولة كمهام. إذا كنت بحاجة إلى إدارة بيئة Python في دفتر ملاحظات Scala أو SQL أو R، فاستخدم %python الأمر السحري بالتزامن مع %pip.

قد تواجه المزيد من حركة المرور إلى عقدة برنامج التشغيل عند العمل مع تثبيتات المكتبة ذات نطاق دفتر الملاحظات. راجع ما حجم عقدة برنامج التشغيل عند العمل مع المكتبات ذات نطاق دفتر الملاحظات؟.

لتثبيت مكتبات لكافة دفاتر الملاحظات المرفقة بمجموعة، استخدم مكتبات نظام المجموعة. راجع مكتبات نظام المجموعة.

إشعار

في Databricks Runtime 10.4 LTS وما يليه، يمكنك استخدام الأداة المساعدة (القديمة) لمكتبة Azure Databricks. يتم دعم الأداة المساعدة للمكتبة فقط على Databricks Runtime، وليس Databricks Runtime ML. راجع الأداة المساعدة للمكتبة (dbutils.library) (قديم).

إدارة المكتبات باستخدام %pip الأوامر

%pip الأمر مكافئ لأمر pip ويدعم نفس واجهة برمجة التطبيقات. تعرض الأقسام التالية أمثلة حول كيفية استخدام %pip الأوامر لإدارة بيئتك. لمزيد من المعلومات حول تثبيت حزم Python باستخدام pip، راجع وثائق تثبيت pip والصفحات ذات الصلة.

هام

  • بدءا من أوامر Databricks Runtime 13.0 %pip لا تعيد تشغيل عملية Python تلقائيا. إذا قمت بتثبيت حزمة جديدة أو تحديث حزمة موجودة، فقد تحتاج إلى استخدام dbutils.library.restartPython() لمشاهدة الحزم الجديدة. راجع إعادة تشغيل عملية Python على Azure Databricks.
  • في Databricks Runtime 12.2 LTS وما يلي، توصي Databricks بوضع جميع %pip الأوامر في بداية دفتر الملاحظات. تتم إعادة تعيين حالة دفتر الملاحظات بعد أي %pip أمر يعدل البيئة. إذا قمت بإنشاء أساليب أو متغيرات Python في دفتر ملاحظات، ثم استخدمت %pip الأوامر في خلية لاحقة، يتم فقدان الأساليب أو المتغيرات.
  • قد تؤدي ترقية أو تعديل أو إلغاء تثبيت حزم Python الأساسية (مثل IPython) مع %pip إلى توقف بعض الميزات عن العمل كما هو متوقع. إذا واجهت مثل هذه المشاكل، قم بإعادة تعيين البيئة عن طريق فصل دفتر الملاحظات وإعادة إرفاقه أو عن طريق إعادة تشغيل نظام المجموعة.

تثبيت مكتبة باستخدام %pip

%pip install matplotlib

تثبيت حزمة عجلة Python باستخدام %pip

%pip install /path/to/my_package.whl

إلغاء تثبيت مكتبة باستخدام %pip

إشعار

لا يمكنك إلغاء تثبيت مكتبة مضمنة في إصدارات ملاحظات إصدار Databricks Runtime والتوافق أو مكتبة تم تثبيتها كمكتبة نظام مجموعة. إذا قمت بتثبيت إصدار مكتبة مختلف عن الإصدار المضمن في Databricks Runtime أو الإصدار المثبت على نظام المجموعة، يمكنك استخدام %pip uninstall لإعادة المكتبة إلى الإصدار الافتراضي في Databricks Runtime أو الإصدار المثبت على نظام المجموعة، ولكن لا يمكنك استخدام %pip أمر لإلغاء تثبيت إصدار مكتبة مضمن في Databricks Runtime أو مثبت على نظام المجموعة.

%pip uninstall -y matplotlib

-y الخيار مطلوب.

تثبيت مكتبة من نظام التحكم بالإصدار باستخدام %pip

%pip install git+https://github.com/databricks/databricks-cli

يمكنك إضافة معلمات إلى عنوان URL لتحديد أشياء مثل الإصدار أو الدليل الفرعي git. راجع دعم VCS لمزيد من المعلومات وعلى سبيل المثال باستخدام أنظمة التحكم في الإصدار الأخرى.

تثبيت حزمة خاصة مع بيانات الاعتماد التي تديرها أسرار Databricks باستخدام %pip

يدعم Pip تثبيت الحزم من مصادر خاصة مع المصادقة الأساسية، بما في ذلك أنظمة التحكم في الإصدار الخاص ومستودعات الحزم الخاصة، مثل Nexus و Artifactory. تتوفر إدارة البيانات السرية عبر Databricks Secrets API، والتي تسمح لك بتخزين رموز المصادقة المميزة وكلمات المرور. استخدم واجهة برمجة تطبيقات DBUtils للوصول إلى البيانات السرية من دفتر ملاحظاتك. لاحظ أنه يمكنك استخدام $variables في الأوامر السحرية.

لتثبيت حزمة من مستودع خاص، حدد عنوان URL للمستودع مع --index-url خيار أو إضافته إلى %pip installpip ملف التكوين في ~/.pip/pip.conf.

token = dbutils.secrets.get(scope="scope", key="key")
%pip install --index-url https://<user>:$token@<your-package-repository>.com/<path/to/repo> <package>==<version> --extra-index-url https://pypi.org/simple/

وبالمثل، يمكنك استخدام الإدارة السرية مع الأوامر السحرية لتثبيت الحزم الخاصة من أنظمة التحكم في الإصدار.

token = dbutils.secrets.get(scope="scope", key="key")
%pip install git+https://<user>:$token@<gitprovider>.com/<path/to/repo>

تثبيت حزمة من DBFS باستخدام %pip

هام

يمكن لأي مستخدم مساحة عمل تعديل الملفات المخزنة في DBFS. توصي Azure Databricks بتخزين الملفات في مساحات العمل أو على وحدات تخزين كتالوج Unity.

يمكنك استخدام %pip لتثبيت حزمة خاصة تم حفظها على DBFS.

عند تحميل ملف إلى DBFS، فإنه يعيد تسمية الملف تلقائيا، ويستبدل المسافات والنقاط والواصلات بتسطير أسفل السطر. بالنسبة لملفات عجلة Python، pip يتطلب استخدام اسم الملف لفترات في الإصدار (على سبيل المثال، 0.1.0) والواصلات بدلا من المسافات أو التسطير السفلي، لذلك لا يتم تغيير أسماء الملفات هذه.

%pip install /dbfs/mypackage-0.0.1-py3-none-any.whl

تثبيت حزمة من وحدة تخزين باستخدام %pip

هام

هذه الميزة في المعاينة العامة.

باستخدام Databricks Runtime 13.3 LTS وما فوق، يمكنك استخدام %pip لتثبيت حزمة خاصة تم حفظها في وحدة تخزين.

عند تحميل ملف إلى وحدة تخزين، يقوم تلقائيا بإعادة تسمية الملف، واستبدال المسافات والنقاط والواصلات بتسطير أسفل السطر. بالنسبة لملفات عجلة Python، pip يتطلب استخدام اسم الملف لفترات في الإصدار (على سبيل المثال، 0.1.0) والواصلات بدلا من المسافات أو التسطير السفلي، لذلك لا يتم تغيير أسماء الملفات هذه.

%pip install /Volumes/<catalog>/<schema>/<path-to-library>/mypackage-0.0.1-py3-none-any.whl

تثبيت حزمة مخزنة كملف مساحة عمل باستخدام %pip

باستخدام Databricks Runtime 11.3 LTS وما فوق، يمكنك استخدام %pip لتثبيت حزمة خاصة تم حفظها كملف مساحة عمل.

%pip install /Workspace/<path-to-whl-file>/mypackage-0.0.1-py3-none-any.whl

حفظ المكتبات في ملف متطلبات

%pip freeze > /Workspace/shared/prod_requirements.txt

يجب أن تكون أي دلائل فرعية في مسار الملف موجودة بالفعل. إذا قمت بتشغيل %pip freeze > /Workspace/<new-directory>/requirements.txt، يفشل الأمر إذا لم يكن الدليل /Workspace/<new-directory> موجودا بالفعل.

استخدام ملف متطلبات لتثبيت المكتبات

يحتوي ملف المتطلبات على قائمة بالحزم التي سيتم تثبيتها باستخدام pip. مثال على استخدام ملف متطلبات هو:

%pip install -r /Workspace/shared/prod_requirements.txt

راجع تنسيق ملف المتطلبات للحصول على مزيد من المعلومات حول requirements.txt الملفات.

ما حجم عقدة برنامج التشغيل عند العمل مع المكتبات ذات نطاق دفتر الملاحظات؟

قد يؤدي استخدام المكتبات ذات نطاق دفتر الملاحظات إلى المزيد من نسبة استخدام الشبكة إلى عقدة برنامج التشغيل لأنها تعمل للحفاظ على البيئة متسقة عبر عقد المنفذ.

عند استخدام نظام مجموعة مع 10 عقد أو أكثر، توصي Databricks بهذه المواصفات كحد أدنى لمتطلبات عقدة برنامج التشغيل:

  • بالنسبة إلى مجموعة وحدة المعالجة المركزية 100 عقدة، استخدم Standard_DS5_v2.
  • بالنسبة إلى مجموعة GPU مكونة من 10 عقدة، استخدم Standard_NC12.

بالنسبة للمجموعات الأكبر، استخدم عقدة برنامج تشغيل أكبر.

هل يمكنني استخدام %sh pipأو !pipأو pip؟ ما الفارق؟

%shوتنفيذ ! أمر shell في دفتر ملاحظات؛ الأول هو أمر سحري مساعد Databricks بينما الأخير هو ميزة من ميزات IPython. pip هو اختصار عند %pipتمكين automagic ، وهو الافتراضي في دفاتر ملاحظات Azure Databricks Python.

في Databricks Runtime 11.3 LTS وما فوق، ، و، %pip%sh pipوكلها !pip تثبت مكتبة كمكتبة Python ذات نطاق دفتر ملاحظات. في Databricks Runtime 10.4 LTS والإدناه، توصي Databricks باستخدام المكتبات ذات نطاق دفتر الملاحظات فقط %pip أو pip تثبيتها. سلوك %sh pip و !pip غير متناسق في Databricks Runtime 10.4 LTS وما دونه.

المشكلات المعروفة

  • في Databricks Runtime 9.1 LTS، المكتبات ذات نطاق دفتر الملاحظات غير متوافقة مع مهام دفق الدفعات. توصي Databricks باستخدام مكتبات نظام المجموعة أو نواة IPython بدلا من ذلك.