تشغيل دفتر ملاحظات Databricks مع Databricks Notebook Activity in Azure Data Factory

ينطبق على: Azure Data Factory Azure Synapse Analytics

تلميح

Data Factory في Microsoft Fabric هو الجيل القادم من Azure Data Factory، مع بنية أبسط، وذكاء اصطناعي مدمج، وميزات جديدة. إذا كنت جديدا في تكامل البيانات، ابدأ مع Fabric Data Factory. يمكن لأعباء عمل ADF الحالية الترقية إلى Fabric للوصول إلى قدرات جديدة في علوم البيانات، والتحليلات اللحظية، والتقارير.

في هذا الدرس، تستخدم بوابة Azure لإنشاء خط أنابيب Azure Data Factory الذي ينفذ دفتر Databricks مقابل مجموعة وظائف Databricks. كما يمرر معلمات Azure Data Factory إلى دفتر Databricks أثناء التنفيذ.

نفذ الخطوات التالية في هذا البرنامج التعليمي:

  • إنشاء data factory.

  • إنشار المسار التي يستخدمDatabricks Notebook Activity.

  • تتبع تشغيل البنية الأساسية

  • مراقبة تشغيل المسار.

إذا لم يكن لديك اشتراك Azure، أنشئ حسابا مجاني قبل أن تبدأ.

إشعار

للحصول على تفاصيل كاملة حول كيفية استخدام نشاط دفتر ملاحظات Databricks، بما في ذلك استخدام المكتبات وتمرير معلمات الإدخال والإخراج، راجع وثائق نشاط دفتر ملاحظات Databricks.

المتطلبات الأساسية

  • Azure Databricks workspace. إنشاء Databricks workspace أو استخدام workspace موجودة. تقوم بإنشاء دفتر Python في مساحة عمل Azure Databricks الخاصة بك. ثم تقوم بتنفيذ الدفتر وتمرير المعلمات إليه باستخدام Azure Data Factory.

إنشاء مصدرًا للبيانات

  1. شغل متصفح الويب Microsoft Edge أو Google Chrome. حاليا، يدعم واجهة Data Factory فقط في متصفحات الويب Microsoft Edge وGoogle Chrome.

  2. اختر إنشاء مورد في قائمة بوابة Azure، ثم اختر Analytics>Data Factory :

    تعرض لقطة الشاشة تحديد Data Factory في الجزء الجديد.

  3. في صفحة Create Data Factory، تحت تبويب Basics، اختر Azure Subscription الذي تريد إنشاء مصنع البيانات فيه.

  4. بالنسبة إلى مجموعة الموارد، نفِّذ إحدى الخطوات التالية:

    1. حدد مجموعة موارد موجودة من القائمة المنسدلة.

    2. حدد إنشاء جديد وأدخل اسم مجموعة الموارد الجديدة.

    للتعرف على مجموعات الموارد، راجع استخدام مجموعات الموارد لإدارة موارد Azure الخاصة بك.

  5. بالنسبة للمنطقة، حدد موقع data factory.

    تظهر القائمة فقط المواقع التي يدعمها Data Factory، وأين سيتم تخزين بيانات Azure Data Factory الوصفية. يمكن تشغيل مخازن البيانات المرتبطة (مثل تخزين Azure و قاعدة بيانات Azure SQL) والحوسبات (مثل Azure HDInsight) التي يستخدمها Data Factory في مناطق أخرى.

  6. للاسم، أدخل ADFTutorialDataFactory.

    يجب أن يكون اسم مصنع البيانات Azure global unique. إذا اطلعت على الخطأ التالي، تغيير اسمdata factory (على سبيل المثال، استخدام <yourname> ADFTutorialDataFactory). للحصول على قواعد تسمية للبيانات الاصطناعية الخاصة بـ Data Factory، راجع مقالة Data Factory - قواعد التسمية.

    لقطة شاشة تعرض الخطأ عندما لا يتوفر اسم.

  7. بالنسبة إلى Version، حدد V2.

  8. تحديد التالي: تكوين Git، ثم حدد مربع الاختيار تكوين Git لاحقاً.

  9. تحديد مراجعة + إنشاء، ثم حدد إنشاء بعد إتمام التحقق من الصحة.

  10. بعد اكتمال الإنشاء، تحديد الانتقال إلى المورد للانتقال إلى صفحة Data Factory. اختر بلاطة Open Azure Data Factory Studio لبدء تطبيق واجهة المستخدم Azure Data Factory (UI) في تبويب متصفح منفصل.

    لقطة شاشة تظهر الصفحة الرئيسية ل Azure Data Factory، مع بلاطة Open Azure Data Factory Studio.

إنشاء linked services

في هذا القسم، يمكنك تأليف خدمة مرتبطة بـ Databricks. تحتوي الخدمة المرتبطة على معلومات الاتصال إلى نظام مجموعة Databricks:

Create an Azure Databricks linked service

  1. في الصفحة الرئيسية، الانتقال إلى علامة تبويب Manage في اللوحة اليسرى.

    تعرض لقطة الشاشة علامة تبويب الإدارة.

  2. حدد الخدمات المرتبطة في إطار الاتصالات، ثم حدد +جديد.

    تظهر لقطة الشاشة كيفية إنشاء اتصال جديد.

  3. في نافذة New المرتبطة بالخدمة المرتبطة، اختر Compute>Azure Databricks، ثم اختر Continue.

    تظهر لقطة الشاشة كيفية تحديد الخدمة المرتبطة الخاصة بـ Databricks.

  4. في نافذة "الخدمة المرتبطة الجديدة"، أكمل الخطوات التالية:

    1. فيما يتعلق بـالاسم, أدخلAzureDatabricks_LinkedService.

    2. حدد مساحة عمل Databricks المناسبة التي ستقوم بتشغيل دفتر الملاحظات فيها.

    3. لتحديد مجموعة النظام، حدد مهام مجموعة النظام الجديدة.

    4. بالنسبة إلى عنوان URL لمساحة عمل Databricks، يجب ملء المعلومات تلقائيا.

    5. بالنسبة ل نوع المصادقة، إذا اخترت Access Token، قم بإنشائه من مكان Azure Databricks. يمكن العثور على الخطوات هنا. بالنسبة ل Managed Service Identity و User Assigned Managed Identity، يمنح Contributor role لكلا الهويتين في قائمة Access control الخاصة ب Azure Databricks المورد.

    6. بالنسبة لـ إصدار نظام المجموعة، حدد الإصدار الذي تريد استخدامه.

    7. فيما يتعلقنوع بعقدة نظام المجموعة، حددStandard_D3_v2تحت فئةالغرض العام (HDD) لهذا البرنامج التعليمي.

    8. للعاملين، أدخل 2.

    9. حدد إنشاء.

      لقطة شاشة تظهر تكوين الخدمة الجديدة المرتبطة Azure Databricks.

إنشاء البنية الأساسية لبرنامج ربط العمليات التجارية

  1. حدد زر (علامة الزائد) + ثم حدد Pipeline المُتاح في القائمة.

    تعرض لقطة الشاشة الزر الخاص بإنشاء مسار جديد.

  2. إنشاء معلمة لاستخدامها في المسار. تمرير هذه المعلمة إلىDatabricks Notebook Activity لاحقاً. في المسار الفارغ، حدد معلمات علامة التبويب، ثم حدد + جديد وسميه باسم 'name'.

    تظهر لقطة الشاشة كيفية إنشاء معلمة جديدة.

    توضح لقطة الشاشة كيفية إنشاء اسم المعلمة.

  3. في مربع أدوات الأنشطة، توسيع Databricks. سحب نشاط دفتر الملاحظات من مربع أدوات الأنشطة إلى سطح مصمم المسار.

    توضح لقطة الشاشة كيفية سحب دفتر الملاحظات إلى سطح المصمم.

  4. في الخصائص الخاصة بنافذة DatabricksNotebook activity في الأسفل، أكمل الخطوات التالية:

    1. انتقل إلى تبويب Azure Databricks.

    2. حددAzureDatabricks_LinkedService(التي جرى إنشائها في الإجراء السابق).

    3. الانتقال إلى علامة تبويب الإعدادات.

    4. التصفح لتحديد مسار Databricks Notebook path. لنقم بإنشاء دفتر ملاحظات وتحديد المسار هنا. يُمكن الحصول على مسار دفتر الملاحظات باتباع بعض من الخطوات التالية.

      1. قم بتشغيل Azure Databricks Workspace الخاص بك.

      2. إنشاء مجلد جديد في مكان العمل وتسميتها باسم adftutorial.

      3. إنشاء دفتر ملاحظات جديد، دعنا نسميه mynotebook. انقر بزر الماوس الأيمن فوق adftutorial Folder، وحدد Create.

      4. في دفتر الملاحظات الذي تم إنشاؤه حديثًا "mynotebook"، أضف التعليمة البرمجية التالية:

        # Creating widgets for leveraging parameters, and printing the parameters
        
        dbutils.widgets.text("input", "","")
        y = dbutils.widgets.get("input")
        print ("Param -\'input':")
        print (y)
        
      5. يكون مسار دفتر الملاحظات في هذه الحالة هو /adftutorial/mynotebook.

  5. الانتقال مرة أخرى إلى أداة تأليفData Factory UI. الانتقال إلى علامة تبويب الإعدادات في إطار نشاط Notebook1.

    أ. إضافة معلمة إلى نشاط دفتر الملاحظات. يُمكن استخدام نفس المعلمة المُضافة مسبقاً إلى المسار.

    تظهر لقطة الشاشة كيفية إضافة معلمة.

    ب. تسمية المعلمةعلى أنها مدخلاتوتوفير القيمة كتعبير خاص@pipeline().parameters.name.

  6. للتحقق من صحة المسار، حدد زرالتحقق المُتاح على شريط الأدوات. لإغلاق إطار التحقق من الصحة، حدد زرالإغلاق.

    توضح لقطة الشاشة كيفية التحقق من صحة المسار.

  7. حدد نشر الكل. ينشر واجهة Data Factory الكيانات (الخدمات المرتبطة وخط الأنابيب) إلى خدمة Azure Data Factory.

    توضح لقطة الشاشة كيفية نشر كيانات مصنع البيانات الجديدة.

تتبع تشغيل البنية الأساسية

حدد إضافة مشغل على شريط الأدوات، ثم حدد المشغل الآن.

توضح لقطة الشاشة كيفية تحديد الأمر

يطلب مربع حوار تشغيلمساراسمالمعلمة. استخدم /path/filename كمعلمة هنا. حدد موافق.

توضح لقطة الشاشة كيفية توفير القيمة الخاصة باسم المعلمات.

راقب عملية تشغيل البنية الأساسية لبرنامج ربط العمليات التجارية

  1. انتقل إلى علامة تبويب Monitor. وتأكد من الاطلاع على تشغيل المسار. يستغرق إنشاء مجموعة مهام Databricks حوالي 5-8 دقائق، حيث يتم تنفيذ الكمبيوتر الدفتري.

    توضح لقطة الشاشة كيفية مراقبة المسار.

  2. حدد تحديث بشكل دوري للتحقق من حالة تشغيل البنية الأساسية لبرنامج ربط العمليات التجارية.

  3. لعرض عمليات تشغيل النشاط المقترنة بتشغيل البنية الأساسية لبرنامج ربط العمليات التجارية، حدد الارتباط البنية الأساسية لبرنامج ربط العمليات التجارية 1 في عمود اسم البنية الأساسية لبرنامج ربط العمليات التجارية.

  4. في الصفحة عمليات تشغيل النشاط، حدد الإخراج في العمود اسم النشاط لعرض إخراج كل نشاط، ويمكنك العثور على الارتباط إلى سجلات Databricks في جزء الإخراج للحصول على سجلات Spark أكثر تفصيلاً.

  5. يُمكنك الانتقال مرة أخرى إلى طريقة عرض عمليات تشغيل البنية الأساسية لبرنامج ربط العمليات التجارية عن طريق تحديد ارتباط كل عمليات تشغيل البنية الأساسية لبرنامج ربط العمليات التجارية في قائمة التنقل بالأعلى.

تحقق من الإخراج

يمكنك تسجيل الدخول إلى مساحة Azure Databricks، والذهاب إلى Job Runs ويمكنك رؤية حالة Job ك pending التنفيذ، التشغيل، أو المنتهية.

يمكنك تحديد اسم الوظيفة والانتقال للاطلاع على مزيد من التفاصيل. عند التشغيل الناجح، يمكنك التحقق من صحة المعلمات التي تم تمريرها ومخرجات دفتر Python.

الملخص

يقوم المسار المذكور في النموذج بتشغيل Databricks Notebook activity وإكمال المعلمة. لقد تعرفت على كيفية:

  • إنشاء data factory.

  • إنشار المسار التي يستخدم Databricks Notebook Activity.

  • تتبع تشغيل البنية الأساسية

  • مراقبة تشغيل المسار.