اقرأ باللغة الإنجليزية

مشاركة عبر


المكتبات

لتوفير تعليمات برمجية مخصصة أو خارجية لدفاتر الملاحظات والمهام التي تعمل على مجموعاتك، يمكنك تثبيت مكتبة. يمكن كتابة المكتبات بلغة Python وJava وSc scala وR. يمكنك تحميل مكتبات Python وJava وSc scala والإشارة إلى الحزم الخارجية في مستودعات PyPI وMaven وCRAN.

يتضمن Azure Databricks العديد من المكتبات الشائعة في Databricks Runtime. لمعرفة المكتبات المضمنة في Databricks Runtime، انظر إلى القسم الفرعي لبيئة النظام من ملاحظات إصدار Databricks Runtime لإصدار Databricks Runtime.

ملاحظة

يساعد دعم Microsoft على عزل وحل المشكلات المتعلقة بالمكتبات المثبتة والمحتفظ بها بواسطة Azure Databricks. بالنسبة إلى مكونات الجهات الخارجية، بما في ذلك المكتبات، توفر Microsoft دعما معقولا تجاريا لمساعدتك في استكشاف المشكلات وإصلاحها بشكل أكبر. يساعد دعم Microsoft على أساس أفضل جهد وقد يكون قادرا على حل المشكلة. بالنسبة مصدر مفتوح الموصلات والمشاريع المستضافة على Github، نوصيك بملف المشكلات على Github ومتابعتها. لا يتم دعم جهود التطوير مثل تظليل الجرار أو بناء مكتبات Python من خلال عملية تقديم حالة الدعم القياسية: فهي تتطلب مشاركة استشارية لحل أسرع. قد يطلب منك الدعم إشراك قنوات أخرى لتقنيات مفتوحة المصدر حيث يمكنك العثور على خبرة عميقة لتلك التقنية. هناك عدة مواقع مجتمعية؛ مثالان هما صفحة Microsoft Q&A ل Azure Databricks و Stack Overflow.

المكتبات ذات نطاق نظام المجموعة

يمكنك تثبيت المكتبات على المجموعات بحيث يمكن استخدامها من قبل جميع دفاتر الملاحظات والمهام التي تعمل على نظام المجموعة. يدعم Databricks مكتبات Python و JAR وR. راجع مكتبات نظام المجموعة.

يمكنك تثبيت مكتبة نظام المجموعة مباشرة من المصادر التالية:

لا يتم دعم كافة المواقع لجميع أنواع المكتبات أو جميع تكوينات الحوسبة. راجع توصيات لتحميل المكتبات للحصول على توصيات التكوين.

هام

يمكن تثبيت المكتبات من DBFS عند استخدام Databricks Runtime 14.3 LTS وما دونه. ومع ذلك، يمكن لأي مستخدم مساحة عمل تعديل ملفات المكتبة المخزنة في DBFS. لتحسين أمان المكتبات في مساحة عمل Azure Databricks، يتم إهمال تخزين ملفات المكتبات في جذر DBFS وتعطيلها بشكل افتراضي في Databricks Runtime 15.1 وما فوق. راجع إهمال وتعطيل تخزين المكتبات في جذر DBFS بشكل افتراضي.

بدلا من ذلك، توصي Databricks بتحميل جميع المكتبات، بما في ذلك مكتبات Python وملفات JAR وموصلات Spark، إلى ملفات مساحة العمل أو وحدات تخزين كتالوج Unity، أو استخدام مستودعات حزم المكتبات. إذا كان حمل العمل الخاص بك لا يدعم هذه الأنماط، يمكنك أيضا استخدام المكتبات المخزنة في تخزين الكائنات السحابية.

للحصول على معلومات دعم المكتبة الكاملة، راجع دعم مكتبة Python ودعم مكتبة Java وSc scala ودعم مكتبة R.

توصيات لتحميل المكتبات

يدعم Databricks معظم عمليات تثبيت التكوين لمكتبات Python و JAR وR، ولكن هناك بعض السيناريوهات غير المدعومة. من المستحسن تحميل المكتبات إلى مواقع المصدر التي تدعم التثبيت على الحساب مع وضع الوصول المشترك، لأن هذا هو الوضع الموصى به لجميع أحمال العمل. راجع أوضاع الوصول. عند جدولة المهام باستخدام وضع الوصول المشترك، قم بتشغيل المهمة باستخدام كيان الخدمة.

هام

استخدم الحوسبة فقط مع وضع وصول مستخدم واحد إذا كانت الوظيفة المطلوبة غير مدعومة من قبل وضع الوصول المشترك. لا يوجد وضع وصول مشترك للعزل هو تكوين قديم على Databricks غير مستحسن.

يوفر الجدول التالي توصيات منظمة بواسطة إصدار Databricks Runtime وتمكين كتالوج Unity.

التكوين التوصية
Databricks Runtime 13.3 LTS وما فوق مع كتالوج Unity تثبيت المكتبات على الحساب مع وضع الوصول المشترك من وحدات تخزين كتالوج Unity مع GRANT READ لجميع مستخدمي الحساب.

إذا كان ذلك ممكنا، يجب إضافة إحداثيات Maven ومسارات مكتبة JAR إلى قائمة السماح.
Databricks Runtime 11.3 LTS وما فوق دون كتالوج Unity تثبيت المكتبات من ملفات مساحة العمل. (حد حجم الملف هو 500 ميغابايت.)
Databricks Runtime 10.4 LTS وما دونه تثبيت المكتبات من تخزين كائن السحابة.

دعم مكتبة Python

يشير الجدول التالي إلى توافق إصدار Databricks Runtime لملفات عجلة Python لأوضاع الوصول إلى نظام المجموعة المختلفة استنادا إلى موقع مصدر المكتبة. راجع إصدارات ملاحظات إصدار Databricks Runtime وأوضاع التوافق والوصول.

في Databricks Runtime 15.0 وما فوق، يمكنك استخدام ملفات requirements.txt لإدارة تبعيات Python. يمكن تحميل هذه الملفات إلى أي موقع مصدر معتمد.

ملاحظة

تثبيت ملفات بيض Python غير مدعوم مع Databricks Runtime 14.0 وما فوق. استخدم ملفات عجلة Python أو قم بتثبيت الحزم من PyPI بدلا من ذلك.

وضع الوصول المشترك وضع وصول مستخدم واحد لا يوجد وضع وصول مشترك للعزل (قديم)
PyPI 13.3 LTS وما فوق جميع إصدارات وقت تشغيل Databricks المدعومة جميع إصدارات وقت تشغيل Databricks المدعومة
ملفات مساحة العمل 13.3 LTS وما فوق 13.3 LTS وما فوق 14.1 وما فوق
وحدات التخزين 13.3 LTS وما فوق 13.3 LTS وما فوق غير مدعوم
مساحة تخزين السحابة‬ 13.3 LTS وما فوق جميع إصدارات وقت تشغيل Databricks المدعومة جميع إصدارات وقت تشغيل Databricks المدعومة
DBFS (غير مستحسن) غير مدعوم 14.3 وما دونه 14.3 وما دونه

دعم مكتبة Java وSc scala

يشير الجدول التالي إلى توافق إصدار Databricks Runtime لملفات JAR لأوضاع الوصول إلى نظام المجموعة المختلفة استنادا إلى موقع مصدر المكتبة. راجع إصدارات ملاحظات إصدار Databricks Runtime وأوضاع التوافق والوصول.

ملاحظة

يتطلب وضع الوصول المشترك من مسؤول إضافة إحداثيات ومسارات Maven لمكتبات JAR إلى allowlist. راجع Allowlist libraries and init scripts on shared compute.

وضع الوصول المشترك وضع وصول مستخدم واحد لا يوجد وضع وصول مشترك للعزل (قديم)
Maven 13.3 LTS وما فوق جميع إصدارات وقت تشغيل Databricks المدعومة جميع إصدارات وقت تشغيل Databricks المدعومة
ملفات مساحة العمل غير مدعوم غير مدعوم 14.1 وما فوق
وحدات التخزين 13.3 LTS وما فوق 13.3 LTS وما فوق غير مدعوم
مساحة تخزين السحابة‬ 13.3 LTS وما فوق جميع إصدارات وقت تشغيل Databricks المدعومة جميع إصدارات وقت تشغيل Databricks المدعومة
DBFS (غير مستحسن) غير مدعوم 14.3 وما دونه 14.3 وما دونه

دعم مكتبة R

يشير الجدول التالي إلى توافق إصدار Databricks Runtime لحزم CRAN لأوضاع الوصول إلى نظام المجموعة المختلفة. راجع إصدارات ملاحظات إصدار Databricks Runtime وأوضاع التوافق والوصول.

وضع الوصول المشترك وضع وصول مستخدم واحد لا يوجد وضع وصول مشترك للعزل (قديم)
CRAN غير مدعوم جميع إصدارات وقت تشغيل Databricks المدعومة جميع إصدارات وقت تشغيل Databricks المدعومة

المكتبات ذات نطاق دفتر الملاحظات

تسمح لك المكتبات ذات نطاق دفتر الملاحظات، المتوفرة ل Python وR، بتثبيت المكتبات وإنشاء بيئة محددة النطاق لجلسة عمل دفتر الملاحظات. لا تؤثر هذه المكتبات على دفاتر الملاحظات الأخرى التي تعمل على نفس المجموعة. لا تستمر المكتبات ذات نطاق دفتر الملاحظات ويجب إعادة تثبيتها لكل جلسة عمل. استخدم المكتبات ذات نطاق دفتر الملاحظات عندما تحتاج إلى بيئة مخصصة لدفتر ملاحظات معين.

ملاحظة

لا يمكن تثبيت JARs على مستوى دفتر الملاحظات.

هام

تم إهمال مكتبات مساحة العمل ولا ينبغي استخدامها. راجع مكتبات مساحة العمل (القديمة). ومع ذلك، فإن تخزين المكتبات كملفات مساحة عمل مميز عن مكتبات مساحة العمل ولا يزال مدعوما بالكامل. يمكنك تثبيت المكتبات المخزنة كملفات مساحة عمل مباشرة لحساب المهام أو مهامها.

إدارة بيئة Python

يوفر الجدول التالي نظرة عامة على الخيارات التي يمكنك استخدامها لتثبيت مكتبات Python في Azure Databricks.

ملاحظة

  • الحاويات المخصصة التي تستخدم بيئة مستندة إلى conda غير متوافقة مع المكتبات ذات نطاق دفتر الملاحظات ومع مكتبات نظام المجموعة في Databricks Runtime 10.4 LTS وما فوق. بدلا من ذلك، يوصي Azure Databricks بتثبيت المكتبات مباشرة في الصورة أو استخدام البرامج النصية init. لمتابعة استخدام مكتبات نظام المجموعة في هذه السيناريوهات، يمكنك تعيين تكوين spark.databricks.driverNfs.clusterWidePythonLibsEnabled Spark إلى false. ستتم إزالة دعم تكوين Spark في 31 ديسمبر 2021 أو بعد ذلك.
مصدر حزمة Python مكتبات ذات نطاق دفتر ملاحظات مع ٪pip المكتبات ذات نطاق دفتر الملاحظات مع ملف YAML للبيئة الأساسية مكتبات نظام المجموعة مكتبات الوظائف مع واجهة برمجة تطبيقات الوظائف
PyPI استخدم %pip install. راجع المثال. إضافة اسم حزمة PyPI إلى ملف YAML لبيئة أساسية. راجع المثال. حدد PyPI كمصدر. أضف كائنا جديدا pypi إلى مكتبات الوظائف وحدد package الحقل .
مرآة PyPI الخاصة، مثل Nexus أو Artifactory استخدم %pip install مع --index-url الخيار . إدارة البيانات السرية متاحة. راجع المثال. -–index-url أضف إلى ملف YAML لبيئة أساسية. إدارة البيانات السرية متاحة. راجع المثال. ‏‏غير مدعومة. ‏‏غير مدعومة.
VCS، مثل GitHub، مع مصدر أولي استخدم %pip install وحدد عنوان URL للمستودع كاسم الحزمة. راجع المثال. أضف عنوان URL للمستودع كاسم حزمة إلى ملف YAML لبيئة أساسية. راجع المثال. حدد PyPI كمصدر وحدد عنوان URL للمستودع كاسم الحزمة. أضف كائنا جديدا pypi إلى مكتبات الوظائف وحدد عنوان URL للمستودع كالحقول package .
Private VCS مع مصدر أولي استخدم %pip install وحدد عنوان URL للمستودع مع المصادقة الأساسية كاسم الحزمة. إدارة البيانات السرية متاحة. راجع المثال. أضف مستودعا مع المصادقة الأساسية كاسم الحزمة إلى ملف YAML لبيئة أساسية. راجع المثال. ‏‏غير مدعومة. ‏‏غير مدعومة.
مسار الملف استخدم %pip install. راجع المثال. إضافة مسار ملف كاسم حزمة إلى ملف YAML لبيئة أساسية. راجع المثال. حدد مسار الملف/ADLS كمصدر. أضف كائنا أو whl جديدا egg إلى مكتبات الوظائف وحدد مسار الملف ك package الحقل.
Azure Data Lake Storage Gen2 استخدم %pip install مع عنوان URL موقع مسبقا. المسارات مع بروتوكول abfss:// Azure Data Lake Storage Gen2 غير مدعومة. أضف عنوان URL موقع مسبقا كاسم حزمة إلى ملف YAML لبيئة أساسية. المسارات مع بروتوكول abfss:// Azure Data Lake Storage Gen2 غير مدعومة. حدد مسار الملف/ADLS كمصدر. أضف كائنا أو whl جديدا egg إلى مكتبات الوظائف وحدد مسار Azure Data Lake Storage Gen2 كخانةpackage.

أسبقية مكتبة Python

قد تواجه موقفا تحتاج فيه إلى تجاوز إصدار مكتبة مضمنة، أو لديك مكتبة مخصصة تتعارض في الاسم مع مكتبة أخرى مثبتة على نظام المجموعة. عند تشغيل import <library>، يتم استيراد المكتبة ذات الأسبقية العالية.

هام

المكتبات المخزنة في ملفات مساحة العمل لها أسبقية مختلفة اعتمادا على كيفية إضافتها إلى Python sys.path. يضيف مجلد Databricks Git دليل العمل الحالي إلى المسار قبل جميع المكتبات الأخرى، بينما تضيف دفاتر الملاحظات خارج مجلدات Git دليل العمل الحالي بعد تثبيت مكتبات أخرى. إذا قمت يدويا بإلحاق دلائل مساحة العمل بالمسار الخاص بك، فإن هذه لها دائما أقل الأسبقية.

ترتيب القائمة التالية الأسبقية من الأعلى إلى الأدنى. في هذه القائمة، يعني الرقم الأقل أسبقية أعلى.

  1. المكتبات في دليل العمل الحالي (مجلدات Git فقط).
  2. المكتبات في الدليل الجذر لمجلد Git (مجلدات Git فقط).
  3. المكتبات ذات نطاق دفتر الملاحظات (%pip install في دفاتر الملاحظات).
  4. مكتبات نظام المجموعة (باستخدام واجهة المستخدم أو CLI أو واجهة برمجة التطبيقات).
  5. المكتبات المضمنة في وقت تشغيل Databricks.
    • قد يتم حل المكتبات المثبتة مع البرامج النصية init قبل المكتبات المضمنة أو بعدها، اعتمادا على كيفية تثبيتها. لا توصي Databricks بتثبيت المكتبات مع البرامج النصية init.
  6. المكتبات في دليل العمل الحالي (ليس في مجلدات Git).
  7. ملفات مساحة العمل الملحقة sys.pathب .