تمرين - استخدام تحويلات الحساب داخل Azure Data Factory
في بعض الحالات، قد لا يفي التحويل الخالي من التعليمات البرمجية على نطاق واسع بمتطلباتك. يمكنك استخدام Azure Data Factory لاستيعاب البيانات الأولية التي تم جمعها من مصادر مختلفة والعمل مع مجموعة من موارد الحوسبة مثل Azure Databricks أو Azure HDInsight أو موارد الحوسبة الأخرى لإعادة هيكلتها وفقا لمتطلباتك.
ADF وAzure Databricks
على سبيل المثال، يسمح لك تكامل Azure Databricks مع ADF بإضافة دفاتر ملاحظات Databricks داخل مسار ADF للاستفادة من قدرات التحليل وتحويل البيانات في Databricks. يمكنك إضافة دفتر ملاحظات داخل سير عمل البيانات الخاص بك لهيكلة البيانات الأولية المحملة وتحويلها إلى ADF من مصادر مختلفة. بمجرد تحويل البيانات باستخدام Databricks، يمكنك تحميلها بعد ذلك إلى أي مصدر مستودع بيانات.
يتضمن استيعاب البيانات وتحويلها باستخدام القدرات الجماعية ل ADF وAzure Databricks بشكل أساسي الخطوات التالية:
إنشاء حساب تخزين Azure - الخطوة الأولى هي إنشاء حساب تخزين Azure لتخزين البيانات التي تم استيعابها وتحويلها.
إنشاء Azure Data Factory - بمجرد إعداد حساب التخزين الخاص بك، تحتاج إلى إنشاء Azure Data Factory باستخدام مدخل Microsoft Azure.
إنشاء مسار سير عمل البيانات - بعد تشغيل التخزين وADF، تبدأ بإنشاء مسار، حيث تكون الخطوة الأولى هي نسخ البيانات من المصدر باستخدام نشاط نسخ ADF. يسمح لك نشاط النسخ بنسخ البيانات من مصادر محلية وسحابات مختلفة.
إضافة دفتر ملاحظات Databricks إلى البنية الأساسية لبرنامج ربط العمليات التجارية - بمجرد نسخ بياناتك إلى ADF، يمكنك إضافة دفتر ملاحظات Databricks إلى البنية الأساسية لبرنامج ربط العمليات التجارية، بعد نشاط النسخ. قد يحتوي دفتر الملاحظات هذا على بناء جملة ورمز لتحويل البيانات الأولية وتنظيفها كما هو مطلوب.
إجراء تحليل على البيانات - الآن بعد أن تم تنظيف بياناتك وهيكلتها بالتنسيق المطلوب، يمكنك استخدام دفاتر ملاحظات Databricks لمزيد من التدريب أو التحليل لإخراج النتائج المطلوبة.
لقد تعلمت ما هو Azure Data Factory وكيف يساعدك تكامله مع Azure Databricks على تحميل بياناتك وتحويلها. الآن دعونا ننشئ نموذج سير عمل البيانات من طرف إلى طرف.
دمج دفاتر ملاحظات Azure Databricks مع البنية الأساسية لبرنامج ربط العمليات التجارية ل Azure Data Factory
هناك عدد من المهام التي يجب تنفيذها لدمج دفاتر ملاحظات Azure Databricks مع البنية الأساسية لبرنامج ربط العمليات التجارية Azure Data Factory كما يلي:
إنشاء رمز مميز للوصول إلى Databricks.
إنشاء دفتر ملاحظات Databricks
إنشاء Linked Services
إنشاء مسار يستخدم نشاط دفتر ملاحظات Databricks.
تشغيل البنية الأساسية لبرنامج ربط العمليات التجارية.
إشعار
تفترض الخطوات التالية أن هناك بالفعل مجموعة Azure Databricks تم توفيرها بالفعل
المهمة 1: إنشاء رمز مميز للوصول إلى Databricks.
في مدخل Microsoft Azure، انقر فوق Resource groups ثم انقر فوق awrgstudxx، ثم انقر فوق awdbwsstudxx حيث xx هي الأحرف الأولى من اسمك.
انقر فوق Launch Workspace
انقر فوق إعدادات المستخدم في الزاوية السفلية اليمنى من مساحة عمل Databricks.
انقر فوق إعدادات المستخدم.
انتقل إلى علامة التبويب Access Tokens، وانقر فوق الزر Generate New Token .
أدخل وصفا في التعليق "لتكامل ADF" وقم بتعيين فترة بقاء 10 أيام وانقر فوق إنشاء
انسخ الرمز المميز الذي تم إنشاؤه واخزنه في المفكرة، ثم انقر فوق تم.
المهمة 2: إنشاء دفتر ملاحظات Databricks
على يسار الشاشة، انقر فوق أيقونة مساحة العمل ، ثم انقر فوق السهم الموجود بجانب كلمة مساحة العمل، وانقر فوق إنشاء ثم انقر فوق مجلد. قم بتسمية المجلد adftutorial، وانقر فوق إنشاء مجلد. يظهر المجلد adftutorial في مساحة العمل.
انقر فوق سهم القائمة المنسدلة بجوار adftutorial، ثم انقر فوق إنشاء، ثم انقر فوق دفتر الملاحظات.
في مربع الحوار إنشاء دفتر ملاحظات، اكتب اسم mynotebook، وتأكد من أن اللغة تشير إلى Python، ثم انقر فوق إنشاء. يظهر دفتر الملاحظات بعنوان mynotebook/
في دفتر الملاحظات الذي تم إنشاؤه حديثًا "mynotebook"، أضف التعليمة البرمجية التالية:
# Creating widgets for leveraging parameters, and printing the parameters dbutils.widgets.text("input", "","") dbutils.widgets.get("input") y = getArgument("input") print ("Param -\'input':") print (y)إشعار
أن مسار دفتر الملاحظات هو /adftutorial/mynotebook
المهمة 3: إنشاء خدمات مرتبطة
في Microsoft Edge، انقر فوق علامة التبويب للمدخل في مدخل Microsoft Azure، وارجع إلى Azure Data Factory وانقر فوق Open Azure Data Factory Studio.
على الجانب الأيسر من الشاشة، انقر فوق الأيقونة إدارة .
ضمن الاتصالات، انقر فوق الخدمات المرتبطة.
في الخدمة المرتبطة، في أعلى الشاشة، انقر فوق + جديد،
انقر فوق علامة التبويب Compute ، وانقر فوق Azure Databricks، ثم انقر فوق Continue.
في شاشة الخدمة المرتبطة الجديدة (Azure Databricks)، املأ التفاصيل التالية وانقر فوق إنهاء
- الاسم: xx_dbls، حيث xx هي الأحرف الأولى من اسمك
- Databricks Workspace: awdbwsstudxx، حيث xx هي الأحرف الأولى من اسمك
- تحديد نظام المجموعة: استخدام موجود
- المجال/ المنطقة: يجب ملؤها
- الرمز المميز للوصول: انسخ الرمز المميز للوصول من المفكرة والصقه في هذا الحقل
- اختر من المجموعة الموجودة: awdbclstudxx، حيث xx هي الأحرف الأولى من اسمك
- اترك خيارات أخرى لإعداداتها الافتراضية
إشعار
عند النقر فوق إنهاء، يتم إرجاعك إلى شاشة Author & Monitor حيث تم إنشاء xx_dbls، مع الخدمات المرتبطة الأخرى التي تم إنشاؤها في السابق exercize.
المهمة 4: إنشاء مسار يستخدم نشاط دفتر ملاحظات Databricks.
على الجانب الأيسر من الشاشة، انقر فوق الأيقونة Author ، ثم انقر فوق Pipeline. يؤدي ذلك إلى فتح علامة تبويب باستخدام مصمم البنية الأساسية لبرنامج ربط العمليات التجارية.
في أسفل مصمم البنية الأساسية لبرنامج ربط العمليات التجارية، انقر فوق علامة التبويب parameters، ثم انقر فوق + New
إنشاء معلمة باسم الاسم، بنوع من السلسلة
ضمن قائمة الأنشطة ، قم بتوسيع Databricks.
انقر فوق دفتر الملاحظات واسحبه إلى اللوحة.
في خصائص نافذة Notebook1 في الأسفل، أكمل الخطوات التالية:
قم بالتبديل إلى علامة التبويب Azure Databricks .
حدد xx_dbls التي قمت بإنشائها في الإجراء السابق.
قم بالتبديل إلى علامة التبويب الإعدادات ، ثم ضع /adftutorial/mynotebook في مسار دفتر الملاحظات.
قم بتوسيع Base Parameters، ثم انقر فوق + New
إنشاء معلمة باسم الإدخال، بقيمة @pipeline().parameters.name
في Notebook1، انقر فوق Validate، بجوار الزر Save as template. كما تظهر نافذة على يمين الشاشة التي تنص على "تم التحقق من صحة البنية الأساسية لبرنامج ربط العمليات التجارية الخاصة بك. لم يتم العثور على أي أخطاء." انقر فوق >> لإغلاق النافذة.
انقر فوق Publish All لنشر الخدمة المرتبطة والمسار.
إشعار
ستظهر رسالة تفيد بأن التوزيع ناجح.
المهمة 5: تشغيل البنية الأساسية لبرنامج ربط العمليات التجارية
في Notebook1، انقر فوق Add trigger، وانقر فوق Trigger Now بجوار الزر Debug.
يطلب مربع الحوار Pipeline Run معلمة الاسم. استخدم /path/filename كمعلمة هنا. انقر فوق إنهاء. تظهر دائرة حمراء فوق نشاط Notebook1 في اللوحة.
المهمة 6: مراقبة البنية الأساسية لبرنامج ربط العمليات التجارية
على يسار الشاشة، انقر فوق علامة التبويب مراقبة . تأكد من رؤية تشغيل البنية الأساسية لبرنامج ربط العمليات التجارية. يستغرق إنشاء مجموعة مهام Databricks حوالي 5-8 دقائق، حيث يتم تنفيذ الكمبيوتر الدفتري.
حدد تحديث بشكل دوري للتحقق من حالة تشغيل البنية الأساسية لبرنامج ربط العمليات التجارية.
لمشاهدة عمليات تشغيل النشاط المقترنة بتشغيل البنية الأساسية لبرنامج ربط العمليات التجارية، حدد عرض تشغيل النشاط في عمود الإجراءات .
المهمة 7: التحقق من الإخراج
في Microsoft Edge، انقر فوق علامة التبويب mynotebook - Databricks
في مساحة عمل Azure Databricks ، انقر فوق Clusters ويمكنك رؤية حالة المهمة على أنها معلقة للتنفيذ أو التشغيل أو الإنهاء.
انقر على نظام المجموعة awdbclstudxx، ثم انقر فوق سجل الأحداث لعرض الأنشطة.
إشعار
يجب أن تشاهد نوع الحدث من البدء مع الوقت الذي قمت بتشغيل تشغيل البنية الأساسية لبرنامج ربط العمليات التجارية.