مكتبات Python ذات نطاق دفتر الملاحظات
تتيح لك المكتبات ذات نطاق دفتر الملاحظات إنشاء بيئات Python المخصصة الخاصة بدفتر الملاحظات وتعديلها وحفظها وإعادة استخدامها ومشاركتها. عند تثبيت مكتبة ذات نطاق دفتر ملاحظات، يمكن فقط لدفتر الملاحظات الحالي وأي مهام مقترنة بدفتر الملاحظات هذا الوصول إلى تلك المكتبة. لا تتأثر دفاتر الملاحظات الأخرى المرفقة بنفس المجموعة.
لا تستمر المكتبات ذات نطاق دفتر الملاحظات عبر جلسات العمل. يجب إعادة تثبيت المكتبات ذات نطاق دفتر الملاحظات في بداية كل جلسة عمل، أو كلما تم فصل دفتر الملاحظات عن نظام مجموعة.
توصي Databricks باستخدام %pip
الأمر السحري لتثبيت مكتبات Python ذات نطاق دفتر الملاحظات.
يمكنك استخدام %pip
في دفاتر الملاحظات المجدولة كمهام. إذا كنت بحاجة إلى إدارة بيئة Python في دفتر ملاحظات Scala أو SQL أو R، فاستخدم %python
الأمر السحري بالتزامن مع %pip
.
قد تواجه المزيد من حركة المرور إلى عقدة برنامج التشغيل عند العمل مع تثبيتات المكتبة ذات نطاق دفتر الملاحظات. راجع ما حجم عقدة برنامج التشغيل عند العمل مع المكتبات ذات نطاق دفتر الملاحظات؟.
لتثبيت مكتبات لكافة دفاتر الملاحظات المرفقة بمجموعة، استخدم مكتبات نظام المجموعة. راجع مكتبات نظام المجموعة.
إشعار
في Databricks Runtime 10.4 LTS وما يليه، يمكنك استخدام الأداة المساعدة (القديمة) لمكتبة Azure Databricks. يتم دعم الأداة المساعدة للمكتبة فقط على Databricks Runtime، وليس Databricks Runtime ML. راجع الأداة المساعدة للمكتبة (dbutils.library) (قديم).
إدارة المكتبات باستخدام %pip
الأوامر
%pip
الأمر مكافئ لأمر pip ويدعم نفس واجهة برمجة التطبيقات. تعرض الأقسام التالية أمثلة حول كيفية استخدام %pip
الأوامر لإدارة بيئتك. لمزيد من المعلومات حول تثبيت حزم Python باستخدام pip
، راجع وثائق تثبيت pip والصفحات ذات الصلة.
هام
- بدءا من أوامر Databricks Runtime 13.0
%pip
لا تعيد تشغيل عملية Python تلقائيا. إذا قمت بتثبيت حزمة جديدة أو تحديث حزمة موجودة، فقد تحتاج إلى استخدامdbutils.library.restartPython()
لمشاهدة الحزم الجديدة. راجع إعادة تشغيل عملية Python على Azure Databricks. - في Databricks Runtime 12.2 LTS وما يلي، توصي Databricks بوضع جميع
%pip
الأوامر في بداية دفتر الملاحظات. تتم إعادة تعيين حالة دفتر الملاحظات بعد أي%pip
أمر يعدل البيئة. إذا قمت بإنشاء أساليب أو متغيرات Python في دفتر ملاحظات، ثم استخدمت%pip
الأوامر في خلية لاحقة، يتم فقدان الأساليب أو المتغيرات. - قد تؤدي ترقية أو تعديل أو إلغاء تثبيت حزم Python الأساسية (مثل IPython) مع
%pip
إلى توقف بعض الميزات عن العمل كما هو متوقع. إذا واجهت مثل هذه المشاكل، قم بإعادة تعيين البيئة عن طريق فصل دفتر الملاحظات وإعادة إرفاقه أو عن طريق إعادة تشغيل نظام المجموعة.
تثبيت مكتبة باستخدام %pip
%pip install matplotlib
تثبيت حزمة عجلة Python باستخدام %pip
%pip install /path/to/my_package.whl
إلغاء تثبيت مكتبة باستخدام %pip
إشعار
لا يمكنك إلغاء تثبيت مكتبة مضمنة في إصدارات ملاحظات إصدار Databricks Runtime والتوافق أو مكتبة تم تثبيتها كمكتبة نظام مجموعة. إذا قمت بتثبيت إصدار مكتبة مختلف عن الإصدار المضمن في Databricks Runtime أو الإصدار المثبت على نظام المجموعة، يمكنك استخدام %pip uninstall
لإعادة المكتبة إلى الإصدار الافتراضي في Databricks Runtime أو الإصدار المثبت على نظام المجموعة، ولكن لا يمكنك استخدام %pip
أمر لإلغاء تثبيت إصدار مكتبة مضمن في Databricks Runtime أو مثبت على نظام المجموعة.
%pip uninstall -y matplotlib
-y
الخيار مطلوب.
تثبيت مكتبة من نظام التحكم بالإصدار باستخدام %pip
%pip install git+https://github.com/databricks/databricks-cli
يمكنك إضافة معلمات إلى عنوان URL لتحديد أشياء مثل الإصدار أو الدليل الفرعي git. راجع دعم VCS لمزيد من المعلومات وعلى سبيل المثال باستخدام أنظمة التحكم في الإصدار الأخرى.
تثبيت حزمة خاصة مع بيانات الاعتماد التي تديرها أسرار Databricks باستخدام %pip
يدعم Pip تثبيت الحزم من مصادر خاصة مع المصادقة الأساسية، بما في ذلك أنظمة التحكم في الإصدار الخاص ومستودعات الحزم الخاصة، مثل Nexus و Artifactory. تتوفر إدارة البيانات السرية عبر Databricks Secrets API، والتي تسمح لك بتخزين رموز المصادقة المميزة وكلمات المرور. استخدم واجهة برمجة تطبيقات DBUtils للوصول إلى البيانات السرية من دفتر ملاحظاتك. لاحظ أنه يمكنك استخدام $variables
في الأوامر السحرية.
لتثبيت حزمة من مستودع خاص، حدد عنوان URL للمستودع مع --index-url
خيار أو إضافته إلى %pip install
pip
ملف التكوين في ~/.pip/pip.conf
.
token = dbutils.secrets.get(scope="scope", key="key")
%pip install --index-url https://<user>:$token@<your-package-repository>.com/<path/to/repo> <package>==<version> --extra-index-url https://pypi.org/simple/
وبالمثل، يمكنك استخدام الإدارة السرية مع الأوامر السحرية لتثبيت الحزم الخاصة من أنظمة التحكم في الإصدار.
token = dbutils.secrets.get(scope="scope", key="key")
%pip install git+https://<user>:$token@<gitprovider>.com/<path/to/repo>
تثبيت حزمة من DBFS باستخدام %pip
هام
يمكن لأي مستخدم مساحة عمل تعديل الملفات المخزنة في DBFS. توصي Azure Databricks بتخزين الملفات في مساحات العمل أو على وحدات تخزين كتالوج Unity.
يمكنك استخدام %pip
لتثبيت حزمة خاصة تم حفظها على DBFS.
عند تحميل ملف إلى DBFS، فإنه يعيد تسمية الملف تلقائيا، ويستبدل المسافات والنقاط والواصلات بتسطير أسفل السطر. بالنسبة لملفات عجلة Python، pip
يتطلب استخدام اسم الملف لفترات في الإصدار (على سبيل المثال، 0.1.0) والواصلات بدلا من المسافات أو التسطير السفلي، لذلك لا يتم تغيير أسماء الملفات هذه.
%pip install /dbfs/mypackage-0.0.1-py3-none-any.whl
تثبيت حزمة من وحدة تخزين باستخدام %pip
باستخدام Databricks Runtime 13.3 LTS وما فوق، يمكنك استخدام %pip
لتثبيت حزمة خاصة تم حفظها في وحدة تخزين.
عند تحميل ملف إلى وحدة تخزين، يقوم تلقائيا بإعادة تسمية الملف، واستبدال المسافات والنقاط والواصلات بتسطير أسفل السطر. بالنسبة لملفات عجلة Python، pip
يتطلب استخدام اسم الملف لفترات في الإصدار (على سبيل المثال، 0.1.0) والواصلات بدلا من المسافات أو التسطير السفلي، لذلك لا يتم تغيير أسماء الملفات هذه.
%pip install /Volumes/<catalog>/<schema>/<path-to-library>/mypackage-0.0.1-py3-none-any.whl
تثبيت حزمة مخزنة كملف مساحة عمل باستخدام %pip
باستخدام Databricks Runtime 11.3 LTS وما فوق، يمكنك استخدام %pip
لتثبيت حزمة خاصة تم حفظها كملف مساحة عمل.
%pip install /Workspace/<path-to-whl-file>/mypackage-0.0.1-py3-none-any.whl
حفظ المكتبات في ملف متطلبات
%pip freeze > /Workspace/shared/prod_requirements.txt
يجب أن تكون أي دلائل فرعية في مسار الملف موجودة بالفعل. إذا قمت بتشغيل %pip freeze > /Workspace/<new-directory>/requirements.txt
، يفشل الأمر إذا لم يكن الدليل /Workspace/<new-directory>
موجودا بالفعل.
استخدام ملف متطلبات لتثبيت المكتبات
يحتوي ملف المتطلبات على قائمة بالحزم التي سيتم تثبيتها باستخدام pip
. مثال على استخدام ملف متطلبات هو:
%pip install -r /Workspace/shared/prod_requirements.txt
راجع تنسيق ملف المتطلبات للحصول على مزيد من المعلومات حول requirements.txt
الملفات.
ما حجم عقدة برنامج التشغيل عند العمل مع المكتبات ذات نطاق دفتر الملاحظات؟
قد يؤدي استخدام المكتبات ذات نطاق دفتر الملاحظات إلى المزيد من نسبة استخدام الشبكة إلى عقدة برنامج التشغيل لأنها تعمل للحفاظ على البيئة متسقة عبر عقد المنفذ.
عند استخدام نظام مجموعة مع 10 عقد أو أكثر، توصي Databricks بهذه المواصفات كحد أدنى لمتطلبات عقدة برنامج التشغيل:
- بالنسبة إلى مجموعة وحدة المعالجة المركزية 100 عقدة، استخدم Standard_DS5_v2.
- بالنسبة إلى مجموعة GPU مكونة من 10 عقدة، استخدم Standard_NC12.
بالنسبة للمجموعات الأكبر، استخدم عقدة برنامج تشغيل أكبر.
هل يمكنني استخدام %sh pip
أو !pip
أو pip
؟ ما الفارق؟
%sh
وتنفيذ !
أمر shell في دفتر ملاحظات؛ الأول هو أمر سحري مساعد Databricks بينما الأخير هو ميزة من ميزات IPython. pip
هو اختصار عند %pip
تمكين automagic ، وهو الافتراضي في دفاتر ملاحظات Azure Databricks Python.
في Databricks Runtime 11.3 LTS وما فوق، ، و، %pip
%sh pip
وكلها !pip
تثبت مكتبة كمكتبة Python ذات نطاق دفتر ملاحظات. في Databricks Runtime 10.4 LTS والإدناه، توصي Databricks باستخدام المكتبات ذات نطاق دفتر الملاحظات فقط %pip
أو pip
تثبيتها. سلوك %sh pip
و !pip
غير متناسق في Databricks Runtime 10.4 LTS وما دونه.