إشعار
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تسجيل الدخول أو تغيير الدلائل.
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تغيير الدلائل.
ينطبق على:
Azure Data Factory
Azure Synapse Analytics
تلميح
جرب Data Factory في Microsoft Fabric، وهو حل تحليلي متكامل للمؤسسات. يغطي Microsoft Fabric كل شيء بدءا من حركة البيانات إلى علم البيانات والتحليلات في الوقت الحقيقي والمعلومات المهنية وإعداد التقارير. تعرف على كيفية بدء إصدار تجريبي جديد مجانا!
إذا كنت جديداً في استخدام Azure Data Factory، فراجع مقدمة لـ Azure Data Factory.
في هذا البرنامج التعليمي، يمكنك استخدام لوحة تدفق البيانات لإنشاء تدفقات البيانات التي تسمح لك بتحليل البيانات وتحويلها في Azure Data Lake Storage (ADLS) Gen2 وتخزينها في Delta Lake.
المتطلبات الأساسية
- اشتراك Azure. إذا لم تكن مشتركًا في Azure، فيمكنك إنشاء حساب مجاني على Azure قبل البدء.
- حساب Azure Storage. يمكنك استخدام تخزين ADLS كمصدر ومتلقي لمخازن البيانات. إذا لم يكن لديك حساب تخزين، فشاهد إنشاء حساب تخزين Azure للحصول على خطوات لإنشاء حساب.
الملف الذي نقوم بتحويله في هذا البرنامج التعليمي هو MoviesDB.csv، والذي يمكن العثور عليه هنا. لاسترداد الملف من GitHub، انسخ المحتويات إلى محرر نصوص من اختيارك لحفظه محلياً كملف .csv. لتحميل الملف إلى حسابك للتخزين، راجع تحميل blobs باستخدام مدخل Microsoft Azure. تشير الأمثلة إلى حاوية تسمى "sample-data".
إنشاء مصدرًا للبيانات
يمكنك في هذه الخطوة إنشاء Data Factory وفتح تجربة مستخدم Data Factory لإنشاء تدفق في Data Factory.
افتح Microsoft Edge أو Google Chrome. حالياً، تُدعم واجهة مستخدم مصنع البيانات فقط في متصفحات الويب Microsoft Edge وGoogle Chrome.
في القائمة اليسرى، حدد Create a resource>Integration>Data Factory
في صفحة New data factory، أدخِل ADFTutorialDataFactory في خانة Name
حدد subscription على Azure الذي تريد إنشاء مصنع البيانات فيه.
بالنسبة إلى مجموعة الموارد، نفِّذ إحدى الخطوات التالية:
أ. حدد Use existing واختر مجموعة موارد موجودة من القائمة المنسدلة.
ب. حدد Create new وأدخل اسم مجموعة الموارد.
للتعرف على مجموعات الموارد، راجع استخدام مجموعات الموارد لإدارة موارد Azure التابعة لك.
ضمن Version، حدد V2.
ضمن الموقع، حدد موقعا لمصنع البيانات. لن تظهر القائمة المنسدلة إلا على المواقع المعتمدة فقط. يمكن أن تكون مخازن البيانات (على سبيل المثال، Azure Storage وSQL Database) والحوسبة (على سبيل المثال، Azure HDInsight) المستخدمة من قبل مصنع البيانات في مناطق أخرى.
حدد إنشاء.
بعد الانتهاء من الإنشاء، سترى الإعلام في مركز الإعلامات. حدد Go to resource للانتقال إلى صفحة Data factory.
حددAuthor & Monitor لإطلاق واجهة مستخدم Data Factory في علامة تبويب منفصلة.
إنشاء مسار بنشاط تدفق البيانات
في هذه الخطوة، يمكنك إنشاء مسار يحتوي على نشاط تدفق بيانات.
في الصفحة الرئيسية، حدد Orchestrate.
في علامة التبويب عام للتدفق، أدخل DeltaLake في خانة اسم التدفق.
في جزء "الأنشطة"، وسّع أكورديون "النقل والتحويل". اسحب نشاط "تدفق البيانات" وأسقطه في جزء من لوحة المسار.
في الشريط العلوي من لوحة المسار، شغّل شريط التمرير تتبع أخطاء تدفق البيانات. يسمح وضع التصحيح بالاختبار التفاعلي لمنطق التحويل مقابل نظام مجموعة Spark مباشرة. نوصي المستخدمين بتشغيل تتبع الأخطاء أولاً إذا كانوا يخططون لتطوير تدفق البيانات حيث إن نُظمها تستغرق 5-7 دقائق للاستعداد. لمزيد من المعلومات، راجع وضع التصحيح.
إنشاء منطق التحويل في لوحة تدفق البيانات
يمكنك إنشاء تدفقي بيانات في هذا البرنامج التعليمي. تدفق البيانات الأول هو مصدر بسيط للمتلقي لإنشاء Delta Lake جديد من ملف CSV الأفلام. وأخيرا، يمكنك إنشاء تصميم التدفق التالي لتحديث البيانات في Delta Lake.
أهداف البرنامج التعليمي
- استخدم مصدر مجموعة بيانات MoviesCSV من المتطلبات الأساسية، وقم بتشكيل Delta Lake جديد منه.
- بناء المنطق للتقييمات المحدثة لأفلام 1988 إلى "1".
- حذف جميع الأفلام من عام 1950.
- إدراج أفلام جديدة لعام 2021 عن طريق تكرار الأفلام من عام 1960.
أبدء بلوحة سير عمل بيانات فارغة
حدد تحويل المصدر في أعلى نافذة محرر تدفق البيانات، ثم حدد + جديد بجوار الخاصية Dataset في نافذة Source settings :
حدد Azure Data Lake Storage Gen2 من نافذة مجموعة البيانات الجديدة التي تظهر، ثم حدد متابعة.
اختر DelimitedText لنوع مجموعة البيانات، وحدد Continue مرة أخرى.
قم بتسمية مجموعة البيانات "MoviesCSV"، وحدد + New ضمن Linked service لإنشاء خدمة مرتبطة جديدة بالملف.
قم بتوفير تفاصيل حساب التخزين الذي تم إنشاؤه مسبقا في قسم المتطلبات الأساسية، واستعرض وحدد ملف MoviesCSV الذي قمت بتحميله هناك.
بعد إضافة الخدمة المرتبطة، حدد خانة الاختيار الصف الأول كرأس ، ثم حدد موافق لإضافة المصدر.
انتقل إلى علامة التبويب Projection في نافذة إعدادات تدفق البيانات، ثم حدد Detect data types.
الآن حدد + بعد المصدر في نافذة محرر تدفق البيانات، وقم بالتمرير لأسفل لتحديد Sink ضمن قسم Destination ، وإضافة متلقي جديد إلى تدفق البيانات.
في علامة التبويب Sink لإعدادات المتلقي التي تظهر بعد إضافة المتلقي، حدد Inline لنوع Sink، ثم Delta لنوع مجموعة البيانات المضمنة. ثم حدد Azure Data Lake Storage Gen2 للخدمة المرتبطة.
اختر اسم مجلد في حاوية التخزين حيث تريد أن تقوم الخدمة بإنشاء Delta Lake.
وأخيرا، انتقل مرة أخرى إلى مصمم البنية الأساسية لبرنامج ربط العمليات التجارية وحدد Debug لتنفيذ البنية الأساسية لبرنامج ربط العمليات التجارية في وضع التصحيح مع نشاط تدفق البيانات هذا فقط على اللوحة. يؤدي هذا إلى إنشاء Delta Lake الجديد في Azure Data Lake Storage Gen2.
الآن، من قائمة موارد المصنع على يمين الشاشة، حدد + لإضافة مورد جديد، ثم حدد تدفق البيانات.
كما كان الحال سابقا، حدد ملف MoviesCSV مرة أخرى كمصدر ثم حدد Detect data types مرة أخرى من علامة التبويب Projection .
هذه المرة، بعد إنشاء المصدر، حدد + في نافذة محرر تدفق البيانات، وأضف تحويل عامل تصفية إلى المصدر.
أضف عامل تصفية حسب الشرط في نافذة إعدادات التصفية التي تسمح فقط بصفوف الأفلام المطابقة 1950 و1960 و1988.
أضف الآن تحويل عمود مشتق لتحديث التصنيفات لكل فيلم عام 1988 إلى "1".
Update, insert, delete, and upsertيتم إنشاء النُهج في تحويل الصف البديل. أضف تحويل صف بديل بعد عمودك المشتق.يجب أن تبدو نُهج الصفوف المتغيرة على هذا النحو.
الآن بعد أن قمت بتعيين النهج المناسب لكل نوع صف بديل، تحقق من تعيين قواعد التحديث المناسبة على تحويل المتلقي
هنا نستخدم متلقي Delta Lake إلى مستودع بيانات Azure Data Lake Storage Gen2 والسماح بالإدراج والتحديثات والحذف.
لاحظ أن أعمدة المفاتيح هي مفتاح مركب يتكون من عمود المفتاح الأساسي للفيلم وعمود السنة. وذلك لأننا أنشأنا أفلامًا مزيفة لعام 2021 من خلال تكرار صفوف عام 1960. يتجنب ذلك الاصطدامات عند البحث عن الصفوف الموجودة من خلال توفير التفرد.
تحميل عينة مكتملة
فيما يلي نموذج حل لمسار Delta مع تدفق بيانات لتحديث/حذف الصفوف في المستودع.
المحتوى ذو الصلة
تعرف على المزيد حول لغة تعبير تدفق البيانات.