تثبيت المكتبات من تخزين الكائنات

ترشدك هذه المقالة خلال الخطوات المطلوبة لتثبيت المكتبات من تخزين الكائنات السحابية على Azure Databricks.

إشعار

تشير هذه المقالة إلى تخزين كائن السحابة كمفهوم عام، وتفترض أنك تتفاعل مباشرة مع البيانات المخزنة في تخزين الكائنات باستخدام معرفات URI. توصي Databricks باستخدام وحدات تخزين كتالوج Unity لتكوين الوصول إلى الملفات في تخزين كائن السحابة. راجع ما هي وحدات تخزين كتالوج Unity؟.

يمكنك تخزين مكتبات JAR وPython Whl المخصصة في تخزين الكائنات السحابية، بدلا من تخزينها في جذر DBFS. راجع المكتبات ذات نطاق نظام المجموعة للحصول على تفاصيل توافق المكتبة الكاملة.

هام

يمكن تثبيت المكتبات من DBFS عند استخدام Databricks Runtime 14.3 LTS وما دونه. ومع ذلك، يمكن لأي مستخدم مساحة عمل تعديل ملفات المكتبة المخزنة في DBFS. لتحسين أمان المكتبات في مساحة عمل Azure Databricks، يتم إهمال تخزين ملفات المكتبات في جذر DBFS وتعطيلها بشكل افتراضي في Databricks Runtime 15.1 وما فوق. راجع إهمال وتعطيل تخزين المكتبات في جذر DBFS بشكل افتراضي.

بدلا من ذلك، توصي Databricks بتحميل جميع المكتبات، بما في ذلك مكتبات Python وملفات JAR وموصلات Spark، إلى ملفات مساحة العمل أو وحدات تخزين كتالوج Unity، أو استخدام مستودعات حزم المكتبات. إذا كان حمل العمل الخاص بك لا يدعم هذه الأنماط، يمكنك أيضا استخدام المكتبات المخزنة في تخزين الكائنات السحابية.

تحميل المكتبات إلى تخزين الكائن

يمكنك تحميل المكتبات إلى تخزين العناصر بنفس الطريقة التي تقوم بها بتحميل ملفات أخرى. يجب أن يكون لديك أذونات مناسبة في موفر السحابة الخاص بك لإنشاء حاويات تخزين عناصر جديدة أو تحميل الملفات في تخزين كائن السحابة.

منح أذونات للقراءة فقط لتخزين الكائن

توصي Databricks بتكوين جميع الامتيازات المتعلقة بتثبيت المكتبة بأذونات للقراءة فقط.

يسمح لك Azure Databricks بتعيين أذونات أمان لمجموعات فردية تحكم الوصول إلى البيانات في تخزين الكائنات السحابية. يمكن توسيع هذه النهج لإضافة وصول للقراءة فقط إلى تخزين الكائنات السحابية الذي يحتوي على مكتبات.

إشعار

في Databricks Runtime 12.2 LTS والإدناه، لا يمكنك تحميل مكتبات JAR عند استخدام المجموعات مع أوضاع الوصول المشتركة. في Databricks Runtime 13.3 LTS وما فوق، يجب إضافة مكتبات JAR إلى قائمة السماح لكتالوج Unity. راجع Allowlist libraries and init scripts on shared compute.

توصي Databricks باستخدام أساسيات خدمة معرف Microsoft Entra لإدارة الوصول إلى المكتبات المخزنة في Azure Data Lake Storage Gen2. استخدم الوثائق المرتبطة التالية لإكمال هذا الإعداد:

  1. إنشاء كيان خدمة مع أذونات القراءة والسرد على الكائنات الثنائية كبيرة الحجم المطلوبة. راجع الوصول إلى التخزين باستخدام كيان الخدمة ومعرف Microsoft Entra (Azure Active Directory).

  2. احفظ بيانات الاعتماد الخاصة بك باستخدام البيانات السرية. راجع الأسرار.

  3. تعيين الخصائص في تكوين Spark والمتغيرات البيئية أثناء إنشاء نظام مجموعة، كما في المثال التالي:

    تكوين Spark:

    spark.hadoop.fs.azure.account.auth.type.<storage-account>.dfs.core.windows.net OAuth
    spark.hadoop.fs.azure.account.oauth.provider.type.<storage-account>.dfs.core.windows.net org.apache.hadoop.fs.azurebfs.oauth2.ClientCredsTokenProvider
    spark.hadoop.fs.azure.account.oauth2.client.id.<storage-account>.dfs.core.windows.net <application-id>
    spark.hadoop.fs.azure.account.oauth2.client.secret.<storage-account>.dfs.core.windows.net {{secrets/<secret-scope>/<service-credential-key>}}
    spark.hadoop.fs.azure.account.oauth2.client.endpoint.<storage-account>.dfs.core.windows.net https://login.microsoftonline.com/<tenant-id>/oauth2/token
    

    المتغيرات البيئية:

    SERVICE_CREDENTIAL={{secrets/<secret-scope>/<service-credential-key>}}
    
  4. (اختياري) إعادة بناء التعليمات البرمجية لبرمجة التعليمات البرمجية باستخدام azcopy أو Azure CLI.

    يمكنك الرجوع إلى المتغيرات البيئية التي تم تعيينها أثناء تكوين نظام المجموعة داخل البرامج النصية للتهيئة لتمرير بيانات الاعتماد المخزنة كأسرار للتحقق من الصحة.

تثبيت المكتبات على المجموعات

لتثبيت مكتبة مخزنة في تخزين كائن سحابي إلى نظام مجموعة، أكمل الخطوات التالية:

  1. حدد مجموعة من القائمة في واجهة مستخدم أنظمة المجموعات.
  2. حدد علامة التبويب المكتبات.
  3. حدد الخيار File path/ADLS.
  4. قم بتوفير مسار URI الكامل لكائن المكتبة (على سبيل المثال، abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/library.whl).
  5. انقر فوق تثبيت.

يمكنك أيضا تثبيت المكتبات باستخدام واجهة برمجة تطبيقات REST أو CLI.

تثبيت المكتبات على دفاتر الملاحظات

يمكنك استخدام %pip لتثبيت ملفات عجلة Python المخصصة المخزنة في تخزين الكائن في نطاق SparkSession معزول في دفتر الملاحظات. لاستخدام هذا الأسلوب، يجب إما تخزين المكتبات في تخزين كائن قابل للقراءة بشكل عام أو استخدام عنوان URL موقع مسبقا.

راجع مكتبات Python ذات نطاق دفتر الملاحظات.

إشعار

يتعذر تثبيت مكتبات JAR في دفتر الملاحظات. يجب تثبيت مكتبات JAR على مستوى نظام المجموعة.