البرنامج التعليمي: تحويل البيانات باستخدام تعيين تدفقات البيانات

ينطبق على: Azure Data Factory Azure Synapse Analytics

تلميح

Data Factory في Microsoft Fabric هو الجيل القادم من Azure Data Factory، مع بنية أبسط، وذكاء اصطناعي مدمج، وميزات جديدة. إذا كنت جديدا في تكامل البيانات، ابدأ مع Fabric Data Factory. يمكن لأعباء عمل ADF الحالية الترقية إلى Fabric للوصول إلى قدرات جديدة في علوم البيانات، والتحليلات اللحظية، والتقارير.

في هذا الدرس، تستخدم واجهة المستخدم Azure Data Factory (UX) لإنشاء خط أنابيب ينسخ ويحول البيانات من مصدر Azure Data Lake Storage (ADLS) Gen2 إلى مصرف ADLS Gen2 باستخدام تدفق البيانات المخصص. يمكن توسيع نمط التكوين في هذا البرنامج التعليمي عند تحويل البيانات باستخدام تعيين تدفق البيانات

يهدف هذا البرنامج التعليمي لرسم خرائط تدفقات البيانات بشكل عام. تتوفر تدفقات البيانات في كل من Azure Data Factory وSynapse Pipelines. إذا كنت جديدا على تدفقات البيانات في خطوط أنابيب Azure Synapse، اتبع Data Flow باستخدام Azure Synapse Pipelines.

في هذا البرنامج التعليمي، يمكنك القيام بالخطوات التالية:

  • إنشاء data factory.
  • أنشئ خط أنابيب مع نشاط Data Flow.
  • إنشاء تعيين تدفق البيانات مع أربعة تحويلات.
  • اختبار تشغيل التدفقات.
  • مراقبة نشاط Data Flow

المتطلبات الأساسية

  • Azure اشتراك. إذا لم يكن لديك اشتراك Azure، أنشئ حساب Azure مجاني قبل أن تبدأ.
  • Azure Data Lake Storage Gen2 حساب. يمكنك استخدام تخزين ADLS كمصدر ومتلقي لمخازن البيانات. إذا لم يكن لديك حساب تخزين، راجع إنشاء حساب تخزين Azure لخطوات إنشاء واحد.
  • قم بتنزيل MoviesDB.csv هنا. لاسترجاع الملف من GitHub، انسخ المحتوى إلى محرر نصوص من اختيارك لحفظه محليا كملف .csv. قم بتحميل الملف إلى حساب التخزين الخاص بك في حاوية تسمى "sample-data".

إنشاء مصدرًا للبيانات

يمكنك في هذه الخطوة إنشاء Data Factory وفتح تجربة مستخدم Data Factory لإنشاء تدفق في Data Factory.

  1. افتح Microsoft Edge أو جوجل كروم. حاليا، يدعم واجهة مصنع البيانات فقط في متصفحات الويب Microsoft Edge وGoogle Chrome.

  2. في القائمة العلوية، حدد Create a resource>Analytics>Data Factory :

    تحديد Data Factory في الاقتباس; &اقتباس جديد; جزء

  3. في صفحة New data factory، أدخِل ADFTutorialDataFactory في خانة Name.

    يجب أن يكون اسم مصنع البيانات Azure global unique. إذا تلقيت رسالة خطأ حول قيمة الاسم، فأدخل اسماً مختلفاً لمصنع البيانات. (على سبيل المثال، yournameADFTutorialDataFactory). للحصول على قواعد التسمية للبيانات الاصطناعية على Data Factory، راجع قواعد تسمية Data Factory.

    رسالة خطأ مصنع البيانات الجديد بشأن الاسم المُكرر

  4. اختر Azure subscription الذي تريد إنشاء مصنع البيانات فيه.

  5. بالنسبة إلى مجموعة الموارد، نفِّذ إحدى الخطوات التالية:

    1. حدد Use existing واختر مجموعة موارد موجودة من القائمة المنسدلة.

    2. حدد Create new وأدخل اسم مجموعة الموارد.

    للتعرف على مجموعات الموارد، راجع Use Resource groups لإدارة موارد Azure الخاصة بك.

  6. ضمن Version، حدد V2.

  7. ضمن Region، حدد موقعا لمصنع البيانات. لن تظهر القائمة المنسدلة إلا على المواقع المعتمدة فقط. يمكن أن تكون مخازن البيانات (مثل Azure Storage و SQL Database) والحوسبات (مثل Azure HDInsight) المستخدمة في مصنع البيانات في مناطق أخرى.

  8. حدد «Review + Create»، ثم حدد «Create».

  9. بعد الانتهاء من الإنشاء، سترى الإعلام في مركز الإعلامات. حدد Go to resource للانتقال إلى صفحة Data factory.

  10. حدد Launch studio لبدء تشغيل Data Factory studio في علامة تبويب منفصلة.

إنشاء خط أنابيب مع نشاط Data Flow

في هذه الخطوة، تنشئ خط أنابيب يحتوي على نشاط Data Flow.

  1. في الصفحة الرئيسية ل Azure Data Factory، اختر Orchestrate.

    لقطة شاشة تظهر الصفحة الرئيسية Azure Data Factory.

  2. الآن نافذة مفتوحة لمسار جديد. في علامة التبويب General لخصائص البنية الأساسية لبرنامج ربط العمليات التجارية، أدخل TransformMovies ل Name of the pipeline.

  3. في جزء "الأنشطة"، وسّع أكورديون "النقل والتحويل". قم بسحب وإفلات نشاط Data Flow من اللوحة إلى لوحة خط الأنابيب.

    لقطة شاشة تظهر لوحة خط الأنابيب حيث يمكنك إسقاط نشاط Data Flow.

  4. قم بتسمية نشاط تدفق البيانات DataFlow1.

  5. في الشريط العلوي من لوحة خط الأنابيب، قم بتمرير شريط Data Flow debug إلى الوضع. يسمح وضع التصحيح بالاختبار التفاعلي لمنطق التحويل مقابل نظام مجموعة Spark مباشرة. تستغرق مجموعات Data Flow من 5 إلى 7 دقائق للتسخين، وينصح المستخدمون بتفعيل تصحيح الأخطاء أولا إذا كانوا يخططون لتطوير Data Flow. لمزيد من المعلومات، راجع وضع التصحيح.

    لقطة شاشة تعرض التبديل لتشغيل تتبع أخطاء تدفق البيانات.

إنشاء منطق التحويل في لوحة تدفق البيانات

في هذه الخطوة، يمكنك إنشاء تدفق بيانات يأخذ moviesDB.csv في تخزين ADLS وتجميع متوسط تصنيف الكوميديا من 1910 إلى 2000. ثم تكتب هذا الملف مرة أخرى إلى تخزين ADLS.

  1. في اللوحة أسفل اللوحة، انتقل إلى إعدادات نشاط تدفق البيانات وحدد جديد، الموجود بجانب حقل تدفق البيانات. يؤدي ذلك إلى فتح لوحة تدفق البيانات.

    لقطة شاشة توضح كيفية فتح محرر تدفق البيانات من محرر البنية الأساسية لبرنامج ربط العمليات التجارية.

  2. في جزء Properties ضمن General، قم بتسمية تدفق البيانات الخاص بك: TransformMovies.

  3. في لوحة تدفق البيانات، أضف مصدر عن طريق تحديد المربع إضافة مصدر .

    لقطة شاشة تعرض مربع

  4. سمِّ مصدرك MoviesDB. حدد "جديد" لإنشاء مجموعة بيانات مصدر جديدة.

    لقطة شاشة توضح المكان الذي تحدد فيه

  5. اختر Azure Data Lake Storage Gen2. حدد متابعة.

    لقطة شاشة تظهر مكان البلاطة Azure Data Lake Storage Gen2.

  6. اختر DelimitedText. حدد متابعة.

    لقطة شاشة تعرض تجانب DelimitedText.

  7. سمِّ مجموعة البيانات MoviesDB. في القائمة المنسدلة للخدمة المرتبطة، اختر "جديد".

    تعرض لقطة الشاشة القائمة المنسدلة للخدمة المرتبطة.

  8. في شاشة إنشاء خدمة مرتبطة، قم بتسمية الخدمة المرتبطة ADLS gen2 ADLSGen2 وحدد أسلوب المصادقة. ثم أدخل بيانات اعتماد الاتصال. في هذا البرنامج التعليمي، نحن نستخدم مفتاح الحساب للاتصال بحساب التخزين الخاص بنا. يمكنك تحديد اختبار الاتصال للتحقق من إدخال بيانات الاعتماد بشكل صحيح. حدد إنشاء عند الانتهاء.

    لقطة شاشة لإنشاء خدمة مرتبطة جديدة ل Azure Data Lake Storage.

  9. على شاشة إنشاء مجموعة البيانات، أدخل مكان الملف ضمن حقل "مسار الملف". في هذا البرنامج التعليمي، يقع الملف moviesDB.csv في حاوية عينة البيانات. حيث إن الملف يحتوي على عناوين تحقق الصف الأول كعنوان. حدد من اتصال/تخزين لاستيراد مخطط العنوان مباشرة من الملف داخل موقع التخزين. حدد موافق عند الانتهاء.

    لقطة شاشة للجزء لإنشاء مجموعة بيانات.

  10. إذا بدأ تشغيل كتلة تتبع الأخطاء، انتقل إلى علامة التبويب "معاينة البيانات" من تحويل المصدر وحدد "تحديث" للحصول على لقطة من البيانات. يمكنك استخدام معاينة البيانات للتحقق من تكوين التحويل بشكل صحيح.

    لقطة شاشة توضح المكان الذي يمكنك فيه معاينة بياناتك للتحقق من تكوين التحويل بشكل صحيح.

  11. بجوار عقدة المصدر على لوحة تدفق البيانات، حدد رمز الجمع لإضافة تحويل جديد. أول تحويل تضيفه هو "عامل تصفية".

    لقطة شاشة للوحة تدفق البيانات.

  12. تسمية عامل التصفية تحويل FilterYears. حدد مربع التعبير بجوار Filter on ثم Open expression builder. هنا يمكنك تحديد شرط التصفية الخاص بك.

    لقطة شاشة تعرض مربع التصفية على التعبير.

  13. يتيح لك منشئ تعبير تدفق البيانات إنشاء تعبيرات بشكل تفاعلي لاستخدامها في تحويلات مختلفة. يمكن أن تتضمن التعبيرات دالات مضمنة وأعمدة من مخطط الإدخال ومعلمات معرفة من قبل المستخدم. لمزيد من المعلومات حول كيفية بناء التعبيرات، راجع Data Flow expression builder.

    في هذا البرنامج التعليمي، فإنك ترغب في تصفية أفلام الكوميديا النوع الذي خرج بين عامي 1910 و2000. حيث إن السنة حالياً هي سلسلة، تحتاج إلى تحويلها إلى عدد صحيح باستخدام toInteger() الدالة. استخدم عامل التشغيل الأكبر من أو يساوي (> =) وأقل من أو يساوي (< =) للمقارنة بقيم السنة الحرفية 1910 و 2000. توحيد هذه التعبيرات مع عامل التشغيل و(&&). التعبير يخرج على النحو التالي:

    toInteger(year) >= 1910 && toInteger(year) <= 2000

    للعثور على الأفلام الكوميدية، يمكنك استخدام rlike() الوظيفة للعثور على نمط "كوميديا" في أنواع الأعمدة. توحيد rlike التعبير مع مقارنة السنة للحصول على:

    toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    إذا كان لديك مجموعة تصحيح نشطة، يمكنك التحقق من المنطق الخاص بك عن طريق تحديد Refresh لمشاهدة إخراج التعبير مقارنة بالمدخلات المستخدمة. هناك أكثر من إجابة صحيحة حول كيفية إنجاز هذا المنطق باستخدام لغة التعبير عن تدفق البيانات.

    لقطة شاشة لمنشئ تعبير عامل التصفية.

    حدد حفظ وإنهاء بمجرد الانتهاء من التعبير الخاص بك.

  14. إحضار "معاينة البيانات" للتحقق من أن عامل التصفية يعمل بشكل صحيح.

    لقطة شاشة تعرض معاينة البيانات التي أحضرتها.

  15. التحويل التالي الذي ستقوم بإضافته هو تحويل "تجميعي" ضمن "معدل المخطط".

    لقطة شاشة تعرض معدل المخطط التجميعي.

  16. تسمية التحويل التجميعي AggregateComedyRating. في علامة التبويب تجميع حسب، حدد السنة من القائمة المنسدلة لجمع التجميعات حسب السنة التي صدر فيها الفيلم.

    لقطة شاشة تعرض خيار السنة في علامة تبويب

  17. انتقل إلى علامة التبويب تجميعات. في مربع النص الأيمن، ثم تسمية العمود التجميعي AverageComedyRating. حدد مربع التعبير الصحيح لإدخال التعبير التجميعي عبر منشئ التعبير.

    لقطة شاشة تعرض خيار السنة في علامة التبويب

  18. للحصول على متوسط "تصنيف"العمود، استخدم الدالة avg() التجميعية. لأن "التصنيف" هو سلسلة avg() ويقبل الإدخال الرقمي، يجب علينا تحويل القيمة إلى رقم عن طريق toInteger() الدالة. يبدو التعبير هكذا:

    avg(toInteger(Rating))

    حدد حفظ وإنهاء عند الانتهاء.

    لقطة شاشة تعرض التعبير المحفوظ.

  19. انتقل إلى علامة التبويب "معاينة البيانات" لعرض إخراج التحويل. لاحظ وجود عمودين فقط هناك، السنة وAverageComedyRating.

    لقطة شاشة تعرض المعاينة التجميعية.

  20. أضف تحويل "متلقٍ" ضمن قسم "الوجهة".

    لقطة شاشة توضح مكان إضافة تحويل متلقٍ ضمن الوجهة.

  21. سَمِّ المتلقي Sink. حدد "جديد" لإنشاء مجموعة بيانات الملتقي.

    لقطة شاشة توضح المكان حيث يمكنك تسمية الملتلقي وإنشاء مجموعة بيانات متلقٍ جديد.

  22. اختر Azure Data Lake Storage Gen2. حدد متابعة.

    لقطة شاشة تظهر البلاطة Azure Data Lake Storage Gen2 التي يمكنك اختيارها.

  23. اختر DelimitedText. حدد متابعة.

    لقطة شاشة للجزء لتحديد نوع مجموعة بيانات.

  24. تسمية مجموعة بيانات المتلقي MoviesSink. بالنسبة للخدمة المرتبطة، اختر الخدمة المرتبطة ADLS gen2 التي أنشأتها في الخطوة 6. أدخل مجلد إخراج لكتابة البيانات إليه. في هذا البرنامج التعليمي، سنكتب إلى مجلد 'الإخراج' في حاوية 'عينة البيانات'. لا يحتاج المجلد إلى الوجود مسبقاً ويمكن إنشاؤه ديناميكياً. حدد خانة الاختيار الصف الأول كعنوان، وحدد دونلمخطط الاستيراد. حدد إنهاء.

    لقطة شاشة لصفحة إنشاء المتلقي مع تحديد الصف الأول كعنوان.

الآن انتهيت من بناء تدفق البيانات. أنت مستعد لتشغيله في مسارك.

تشغيل ومراقبة Data Flow

يمكنك تتبع أخطاء المسار قبل نشره. في هذه الخطوة، ستقوم بتشغيل تتبع أخطاء مسار تدفق البيانات. بينما لا تكتب معاينة البيانات البيانات، يقوم تشغيل تتبع الأخطاء بكتابة البيانات إلى وجهة المتلقي.

  1. انتقل إلى لوحة المسار. حدد "تتبع الأخطاء" لتشغيل تتبع الأخطاء.

    لقطة شاشة تعرض لوحة المسار مع تمييز

  2. تصحيح خطوط الأنابيب لأنشطة Data Flow يستخدم مجموعة التصحيح النشط لكنه لا يزال يستغرق دقيقة على الأقل للتهيئة. يمكنك تعقب التقدم عبر علامة التبويب Output . بمجرد نجاح التشغيل، مرر مؤشر الماوس فوق التشغيل وحدد أيقونة النظارات لفتح جزء المراقبة.

    لقطة شاشة لحالة البنية الأساسية لبرنامج ربط العمليات التجارية المكتملة، مع تمييز إجراءات الإخراج.

  3. في جزء المراقبة، حدد الزر مراحل لمعرفة عدد الصفوف والوقت المستغرق في كل خطوة تحويل.

    لقطة شاشة تعرض جزء المراقبة مع تمييز زر المراحل.

    لقطة شاشة لجزء المراقبة حيث يمكنك مشاهدة عدد الصفوف والوقت المستغرق في كل خطوة تحويل.

  4. حدد تحويلاً للحصول على معلومات مفصلة حول أعمدة البيانات وتقسيمها.

    لقطة شاشة لجزء تحويل المراقبة.

إذا كنت اتبعت هذا البرنامج التعليمي بشكل صحيح، يجب أن تكون قد كتبت 83 صفاً وعمودين في مجلد المتلقي الخاص بك. يمكنك التحقق من صحة البيانات عن طريق التحقق من تخزين الكائن الثنائي كبير الحجم.

المسار في هذا البرنامج التعليمي يدير تدفق البيانات التي تجمع متوسط تصنيف أفلام الكوميديا من 1910 إلى 2000 ويكتب البيانات إلى ADLS. لقد تعرفت على كيفية:

  • إنشاء data factory.
  • أنشئ خط أنابيب مع نشاط Data Flow.
  • إنشاء تعيين تدفق البيانات مع أربعة تحويلات.
  • اختبار تشغيل التدفقات.
  • مراقبة نشاط Data Flow

تعرف على المزيد حول لغة تعبير تدفق البيانات.