تحويل البيانات باستخدام تعيين تدفقات البيانات

ينطبق على:Azure Data Factory Azure Synapse Analytics

تلميح

جرب Data Factory في Microsoft Fabric، وهو حل تحليلي متكامل للمؤسسات. يغطي Microsoft Fabric كل شيء بدءا من حركة البيانات إلى علم البيانات والتحليلات في الوقت الحقيقي والمعلومات المهنية وإعداد التقارير. تعرف على كيفية بدء إصدار تجريبي جديد مجانا!

إذا كنت جديداً في استخدام Azure Data Factory، فراجع مقدمة لـ Azure Data Factory.

في هذا البرنامج التعليمي، ستستخدم واجهة مستخدم Azure Data Factory (UX) لإنشاء مسار يقوم بنسخ البيانات وتحويلها من مصدر Gen2 Azure Data Lake Storage (ADLS) إلى متلقي ADLS Gen2 باستخدام تعيين تدفق البيانات. يمكن توسيع نمط التكوين في هذا البرنامج التعليمي عند تحويل البيانات باستخدام تعيين تدفق البيانات

إشعار

يهدف هذا البرنامج التعليمي لرسم خرائط تدفقات البيانات بشكل عام. تتوفر تدفقات البيانات في كل من Azure Data Factory ومسارات Synapse. إذا كنت جديداً على تدفق البيانات في مسارات Azure Synapse، يرجى اتباع تدفق البيانات باستخدام مسارات Azure Synapse

في هذا البرنامج التعليمي، يمكنك القيام بالخطوات التالية:

  • إنشاء data factory.
  • إنشاء مسار مع نشاط تدفق البيانات.
  • إنشاء تعيين تدفق البيانات مع أربعة تحويلات.
  • اختبار تشغيل التدفقات.
  • مراقبة نشاط تدفق البيانات

المتطلبات الأساسية

  • اشتراك Azure. إذا لم تكن مشتركًا في Azure، فيمكنك إنشاء حساب مجاني على Azure قبل البدء.
  • حساب Azure Storage. يمكنك استخدام تخزين ADLS كمصدر ومتلقي لمخازن البيانات. إذا لم يكن لديك حساب تخزين، فشاهد إنشاء حساب تخزين Azure للحصول على خطوات لإنشاء حساب.

الملف الذي نوشك على تحويله في هذا البرنامج التعليمي هو MoviesDB.csv، والذي يمكن العثور عليه هنا. لاسترداد الملف من GitHub، انسخ المحتويات إلى محرر نصوص من اختيارك لحفظه محلياً كملف .csv. لتحميل الملف إلى حسابك للتخزين، راجع تحميل blobs باستخدام مدخل Microsoft Azure. ستُنقل البيانات إلى حاوية تُدعى "عينة-البيانات".

إنشاء مصدرًا للبيانات

يمكنك في هذه الخطوة إنشاء Data Factory وفتح تجربة مستخدم Data Factory لإنشاء تدفق في Data Factory.

  1. افتح Microsoft Edge أو Google Chrome. حالياً، تُدعم واجهة مستخدم مصنع البيانات فقط في متصفحات الويب Microsoft Edge وGoogle Chrome.

  2. في القائمة اليسرى، حدد Create a resource >Integration>Data Factory:

    Data Factory selection in the "New" pane

  3. في صفحة New data factory، أدخِل ADFTutorialDataFactory في خانة Name.

    يجب أن يكون اسم Azure data factory مميزاً عالمياً. إذا تلقيت رسالة خطأ حول قيمة الاسم، فأدخل اسماً مختلفاً لمصنع البيانات. (على سبيل المثال، yournameADFTutorialDataFactory). للحصول على قواعد التسمية للبيانات الاصطناعية على Data Factory، راجع قواعد تسمية Data Factory.

    New data factory error message for duplicate name.

  4. حدد subscription على Azure الذي تريد إنشاء مصنع البيانات فيه.

  5. بالنسبة إلى مجموعة الموارد، نفِّذ إحدى الخطوات التالية:

    أ. حدد Use existing واختر مجموعة موارد موجودة من القائمة المنسدلة.

    ب. حدد Create new وأدخل اسم مجموعة الموارد.

    للتعرف على مجموعات الموارد، راجع استخدام مجموعات الموارد لإدارة موارد Azure التابعة لك.

  6. ضمن Version، حدد V2.

  7. ضمن الموقع، حدد موقعا لمصنع البيانات. لن تظهر القائمة المنسدلة إلا على المواقع المعتمدة فقط. يمكن أن تكون مخازن البيانات (على سبيل المثال، Azure Storage وSQL Database) والحوسبة (على سبيل المثال، Azure HDInsight) المستخدمة من قبل مصنع البيانات في مناطق أخرى.

  8. حدد إنشاء.

  9. بعد الانتهاء من الإنشاء، سترى الإعلام في مركز الإعلامات. حدد Go to resource للانتقال إلى صفحة Data factory.

  10. حددAuthor & Monitor لإطلاق واجهة مستخدم Data Factory في علامة تبويب منفصلة.

إنشاء مسار بنشاط تدفق البيانات

في هذه الخطوة، ستقوم بإنشاء مسار يحتوي على نشاط تدفق البيانات.

  1. في صفحة Azure Data Factory الرئيسية، حدد Orchestrate.

    Screenshot that shows the ADF home page.

  2. في علامة التبويب "عام" للمسار، أدخل DeltaLake في خانة "اسم" المسار.

  3. في جزء "الأنشطة"، وسّع أكورديون "النقل والتحويل". اسحب نشاط "تدفق البيانات" وأسقطه في جزء من لوحة المسار.

    Screenshot that shows the pipeline canvas where you can drop the Data Flow activity.

  4. في العنصر المنبثق "إضافة تدفق البيانات"، حدد "إنشاء تدفق بيانات جديد" ثم قم بتسمية تدفق البيانات باسم TransformMovies. انقر فوق "إنهاء" عند الانتهاء.

    Screenshot that shows where you name your data flow when you create a new data flow.

  5. في الشريط العلوي من لوحة المسار، شغّل شريط التمرير تتبع أخطاء تدفق البيانات. يسمح وضع التصحيح بالاختبار التفاعلي لمنطق التحويل مقابل نظام مجموعة Spark مباشرة. نوصي المستخدمين بتشغيل تتبع الأخطاء أولاً إذا كانوا يخططون لتطوير تدفق البيانات حيث إن نُظمها تستغرق 5-7 دقائق للاستعداد. لمزيد من المعلومات، راجع وضع التصحيح.

    Data Flow Activity

إنشاء منطق التحويل في لوحة تدفق البيانات

بمجرد إنشاء تدفق البيانات، سيتم إرسالك تلقائياً إلى لوحة تدفق البيانات. في حالة عدم إعادة توجيهك إلى لوحة تدفق البيانات، في اللوحة أسفل اللوحة، انتقل إلى الإعدادات وحدد فتح، الموجود بجانب حقل تدفق البيانات. سيؤدي ذلك إلى فتح لوحة تدفق البيانات.

Screenshot showing how to open the data flow editor from the pipeline editor.

في هذه الخطوة، ستبني تدفق بيانات يأخذ moviesDB.csv في موقع تخزين ADLS ويجمع متوسط تصنيف الأفلام الكوميدية من عام 1910 إلى عام 2000. ثم ستقوم بكتابة هذا الملف مرة أخرى إلى موقع تخزين ADLS.

  1. في لوحة تدفق البيانات، أضف مصدراً عن طريق النقر فوق المربع "إضافة مصدر".

    Screenshot that shows the Add Source box.

  2. سمِّ مصدرك MoviesDB. انقر فوق "جديد" لإنشاء مجموعة بيانات مصدر جديدة.

    Screenshot that shows where you select New after you name your source.

  3. اختيار Azure Data Lake Storage Gen2. انقر فوق متابعة.

    Screenshot that shows where is the Azure Data Lake Storage Gen2 tile.

  4. اختر DelimitedText. انقر فوق متابعة.

    Screenshot that shows the DelimitedText tile.

  5. سمِّ مجموعة البيانات MoviesDB. في القائمة المنسدلة للخدمة المرتبطة، اختر "جديد".

    Screenshot that shows the Linked service dropdown list.

  6. في شاشة إنشاء خدمة مرتبطة، قم بتسمية الخدمة المرتبطة ADLS gen2 ADLSGen2 وحدد أسلوب المصادقة. ثم أدخل بيانات اعتماد الاتصال. في هذا البرنامج التعليمي، نحن نستخدم مفتاح الحساب للاتصال بحساب التخزين الخاص بنا. يمكنك النقر فوق "اختبار الاتصال" للتحقق من إدخال بيانات الاعتماد الخاصة بك بشكل صحيح. انقر فوق إنشاء عند الانتهاء.

    Linked Service

  7. على شاشة إنشاء مجموعة البيانات، أدخل مكان الملف ضمن حقل "مسار الملف". في هذا البرنامج التعليمي، يقع الملف moviesDB.csv في حاوية عينة البيانات. حيث إن الملف يحتوي على عناوين تحقق الصف الأول كعنوان. حدد من اتصال/تخزين لاستيراد مخطط العنوان مباشرة من الملف داخل موقع التخزين. انقر فوق OK عند الانتهاء.

    Datasets

  8. إذا بدأ تشغيل كتلة تتبع الأخطاء، انتقل إلى علامة التبويب "معاينة البيانات" من تحويل المصدر وانقر فوق "تحديث" للحصول على لقطة من البيانات. يمكنك استخدام معاينة البيانات للتحقق من تكوين التحويل بشكل صحيح.

    Screenshot that shows where you can preview your data to verify your transformation is configured correctly.

  9. بجانب عقدة المصدر على لوحة تدفق البيانات، انقر على رمز الجمع لإضافة تحويل جديد. أول تحويل تضيفه هو "عامل تصفية".

    Data Flow Canvas

  10. تسمية عامل التصفية تحويل FilterYears. تحديد مربع التعبير بجوار "تفعيل عامل التصفية" لفتح منشئ التعبير. هنا عليك تحديد شرط التصفية.

    Screenshot that shows the Filter on expression box.

  11. يتيح لك منشئ تعبير تدفق البيانات إنشاء تعبيرات بشكل تفاعلي لاستخدامها في تحويلات مختلفة. يمكن أن تتضمن التعبيرات دالات مضمنة وأعمدة من مخطط الإدخال ومعلمات معرفة من قبل المستخدم. لمزيد من المعلومات حول كيفية إنشاء التعبيرات، راجع منشئ تعبير تدفق البيانات.

    في هذا البرنامج التعليمي، فإنك ترغب في تصفية أفلام الكوميديا النوع الذي خرج بين عامي 1910 و2000. حيث إن السنة حالياً هي سلسلة، تحتاج إلى تحويلها إلى عدد صحيح باستخدام toInteger() الدالة. استخدم عامل التشغيل الأكبر من أو يساوي (> =) وأقل من أو يساوي (< =) للمقارنة بقيم السنة الحرفية 1910 و 2000. توحيد هذه التعبيرات مع عامل التشغيل و(&&). التعبير يخرج على النحو التالي:

    toInteger(year) >= 1910 && toInteger(year) <= 2000

    للعثور على الأفلام الكوميدية، يمكنك استخدام rlike() الوظيفة للعثور على نمط "كوميديا" في أنواع الأعمدة. توحيد rlike التعبير مع مقارنة السنة للحصول على:

    toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    إذا كان لديك كتلة تصحيح نشطة، يمكنك التحقق من المنطق عن طريق النقر فوق تحديث لرؤية إخراج التعبير مقارنة بالمدخلات المستخدمة. هناك أكثر من إجابة صحيحة حول كيفية إنجاز هذا المنطق باستخدام لغة التعبير عن تدفق البيانات.

    Filter

    انقر فوق "حفظ وإنهاء" بمجرد الانتهاء من التعبير.

  12. إحضار "معاينة البيانات" للتحقق من أن عامل التصفية يعمل بشكل صحيح.

    Screenshot that shows the Data Preview that you fetched.

  13. التحويل التالي الذي ستقوم بإضافته هو تحويل "تجميعي" ضمن "معدل المخطط".

    Screenshot that shows the Aggregate schema modifier.

  14. تسمية التحويل التجميعي AggregateComedyRating. في علامة التبويب تجميع حسب، حدد السنة من القائمة المنسدلة لجمع التجميعات حسب السنة التي صدر فيها الفيلم.

    Screenshot that shows the year option in the Group by tab under Aggregate Settings.

  15. انتقل إلى علامة التبويب تجميعات. في مربع النص الأيمن، ثم تسمية العمود التجميعي AverageComedyRating. انقر على مربع التعبير الصحيح لإدخال التعبير التجميعي عبر منشئ التعبير.

    Screenshot that shows the year option in the Aggregates tab under Aggregate Settings.

  16. للحصول على متوسط "تصنيف"العمود، استخدم الدالة avg() التجميعية. لأن "التصنيف" هو سلسلة avg() ويقبل الإدخال الرقمي، يجب علينا تحويل القيمة إلى رقم عن طريق toInteger() الدالة. يبدو التعبير هكذا:

    avg(toInteger(Rating))

    انقر فوق "حفظ وإنهاء" عند الانتهاء.

    Screenshot that shows the saved expression.

  17. انتقل إلى علامة التبويب "معاينة البيانات" لعرض إخراج التحويل. لاحظ وجود عمودين فقط هناك، السنة وAverageComedyRating.

    Aggregate

  18. أضف تحويل "متلقٍ" ضمن قسم "الوجهة".

    Screenshot that shows where to add a sink transformation under Destination.

  19. سَمِّ المتلقي Sink. حدد "جديد" لإنشاء مجموعة بيانات الملتقي.

    Screenshot that shows where you can name your sink and create a new sink dataset.

  20. اختيار Azure Data Lake Storage Gen2. انقر فوق متابعة.

    Screenshot that shows the Azure Data Lake Storage Gen2 tile you can choose.

  21. اختر DelimitedText. انقر فوق متابعة.

    Dataset

  22. تسمية مجموعة بيانات المتلقي MoviesSink. بالنسبة للخدمة المرتبطة، اختر الخدمة المرتبطة ADLS gen2 التي أنشأتها في الخطوة 6. أدخل مجلد إخراج لكتابة البيانات إليه. في هذا البرنامج التعليمي، سنكتب إلى مجلد 'الإخراج' في حاوية 'عينة البيانات'. لا يحتاج المجلد إلى الوجود مسبقاً ويمكن إنشاؤه ديناميكياً. حدد خانة الاختيار الصف الأول كعنوان، وحدد دونلمخطط الاستيراد. انقر فوق إنهاء.

    Sink

الآن انتهيت من بناء تدفق البيانات. أنت مستعد لتشغيله في مسارك.

تشغيل تدفق البيانات ومراقبته

يمكنك تتبع أخطاء المسار قبل نشره. في هذه الخطوة، ستقوم بتشغيل تتبع أخطاء مسار تدفق البيانات. تكتب عملية تتبع الأخطاء البيانات إلى وجهة المتلقي في حال لم تعرضها معاينة البيانات.

  1. انتقل إلى لوحة المسار. حدد "تتبع الأخطاء" لتشغيل تتبع الأخطاء.

    Screenshot that shows the pipeline canvas with Debug highlighted.

  2. يستخدم تتبع أخطاء مسار أنشطة تدفق البيانات كتلة تتبع الأخطاء النشطة ولكن لا يزال يستغرق دقيقة واحدة على الأقل للتهيئة. يمكنك تتبع التقدم عبر علامة التبويب "الإخراج. بمجرد نجاح التشغيل، انقر على أيقونة النظارات الطبية لفتح جزء المراقبة.

    Pipeline

  3. في جزء المراقبة، يمكنك مشاهدة عدد الصفوف والوقت الذي تقضيه في كل خطوة تحويل.

    Screenshot that shows the monitoring pane where you can see the number of rows and time spent in each transformation step.

  4. انقر على التحول للحصول على معلومات مفصلة حول الأعمدة وتقسيم البيانات.

    Monitoring

إذا كنت اتبعت هذا البرنامج التعليمي بشكل صحيح، يجب أن تكون قد كتبت 83 صفاً وعمودين في مجلد المتلقي الخاص بك. يمكنك التحقق من صحة البيانات عن طريق التحقق من تخزين الكائن الثنائي كبير الحجم.

المسار في هذا البرنامج التعليمي يدير تدفق البيانات التي تجمع متوسط تصنيف أفلام الكوميديا من 1910 إلى 2000 ويكتب البيانات إلى ADLS. لقد تعرفت على كيفية:

  • إنشاء data factory.
  • إنشاء مسار مع نشاط تدفق البيانات.
  • إنشاء تعيين تدفق البيانات مع أربعة تحويلات.
  • اختبار تشغيل التدفقات.
  • مراقبة نشاط تدفق البيانات

تعرف على المزيد حول لغة تعبير تدفق البيانات.