التشغيل السريع: تحويل البيانات باستخدام مخططات تدفق البيانات

في هذا التشغيل السريع، ستستخدم Azure Synapse Analytics لإنشاء تدفق يحول البيانات من مصدر تخزين بيانات Azure Data Lake Gen2 (ADLS Gen2) إلى حوض ADLS Gen2 باستخدام مخطط تدفق البيانات. يمكن توسيع نمط التكوين في هذا التشغيل السريع عند تحويل البيانات باستخدام تعيين تدفق البيانات

في هذا التشغيل السريع، تقوم بالخطوات التالية:

  • إنشاء تدفق مع نشاط تدفق البيانات في Azure Synapse Analytics.
  • إنشاء تعيين تدفق البيانات مع أربعة تحويلات.
  • اختبار تشغيل التدفقات.
  • مراقبة نشاط تدفق البيانات

المتطلبات الأساسية

  • اشتراك Azure: إذا لم يكن لديك اشتراك Azure، قم بإنشاءحساب Azure مجانيقبل أن تبدأ.

  • مساحة عمل Azure Synapse: أنشئ مساحة عمل Synapse باستخدام مدخل Microsoft Azure باتباع الإرشادات الموجودة في التشغيل السريع: إنشاء مساحة عمل Synapse.

  • حساب تخزين Azure: يمكنك استخدام تخزين ADLS كمخازن بيانات مصدر وتخزين. إذا لم يكن لديك حساب تخزين، فإنه يمكنك مراجعة مجموعة الخطوات اللازمة ⁧⁩لإنشاء حساب تخزين Azure⁧⁩.

    الملف الذي نقوم بتحويله في هذا البرنامج التعليمي هو MoviesDB.csv، والذي يمكن العثور عليه هنا. لاسترداد الملف من GitHub، انسخ المحتويات إلى محرر نصوص من اختيارك لحفظه محليًا كملف .csv. لتحميل الملف إلى حسابك للتخزين، راجع تحميل blobs باستخدام مدخل Microsoft Azure. سوف تشير الأمثلة إلى حاوية تسمى 'sample-data'.

بعد إنشاء مساحة عمل Azure Synapse، لديك طريقتان لفتح استوديو Synapse:

  • افتح مساحة عمل Synapse في مدخل Azure. حدد فتح على بطاقة Open Synapse Studio ضمن بدء الاستخدام.
  • افتح Azure Synapse Analytics وقم بتسجيل الدخول إلى مساحة العمل الخاصة بك.

في هذه البداية السريعة، نستخدم مساحة العمل المسماة "adftest2020" كمثال. سينقلك تلقائياً إلى الصفحة الرئيسية لـ Synapse Studio.

الصفحة الرئيسية Synapse Studio

إنشاء مسار بنشاط تدفق البيانات

تحتوي التدفقات على التدفق المنطقي لتنفيذ مجموعة من الأنشطة. في هذا القسم، ستقوم بإنشاء مسار يحتوي على نشاط تدفق البيانات.

  1. انتقل إلى علامة التبويب تكوين. حدد على "on the plus icon next to the pipelines header"، ومن ثم حدد "Pipeline".

    إنشاء تدفق جديد

  2. في صفحة إعدادات Properties لمسار التدفق، أدخل TransformMovies لـ الاسم.

  3. ضمن Move and Transform في جزء Activities، اسحب Data flow على لوحة مسار التدفق.

  4. في النافذة المنبثقة للصفحة Adding data flow، حدد Create new data flow ->Data flow. انقر فوق OK عند الانتهاء.

    إنشاء تدفق البيانات

  5. قم بتسمية تدفق البيانات TransformMovies في صفحة الخصائص.

إنشاء منطق التحويل في لوحة تدفق البيانات

بمجرد إنشاء تدفق البيانات، سيتم إرسالك تلقائياً إلى لوحة تدفق البيانات. في هذه الخطوة، ستنشئ تدفقاً للبيانات يأخذ MoviesDB.csv في تخزين ADLS ويجمع متوسط ​​تصنيف الأفلام الكوميدية من 1910 إلى 2000. ثم ستقوم بكتابة هذا الملف مرة أخرى إلى موقع تخزين ADLS.

  1. فوق لوحة تدفق البيانات، مرر شريط التمرير تصحيح تدفق البيانات. يسمح وضع تتبع الأخطاء للاختبار التفاعلي لمنطق التحويل مقابل كتلة Spark عاملة. نوصي المستخدمين بتشغيل تتبع الأخطاء أولاً إذا كانوا يخططون لتطوير تدفق البيانات حيث إن نُظمها تستغرق 5-7 دقائق للاستعداد. لمزيد من المعلومات، انظر نمط تتبع الأخطاء.

    حرك التصحيح

  2. في لوحة تدفق البيانات، أضف مصدراً عن طريق النقر فوق المربع "إضافة مصدر".

  3. سمِّ مصدرك MoviesDB. انقر فوق "جديد" لإنشاء مجموعة بيانات مصدر جديدة.

    أنشئ مجموعة بيانات مصدر جديدة

  4. اختيار Azure Data Lake Storage Gen2. انقر فوق "متابعة".

    اختر Azure Data Lake Storage Gen2

  5. اختر DelimitedText. انقر فوق "متابعة".

  6. سمِّ مجموعة البيانات MoviesDB. في القائمة المنسدلة للخدمة المرتبطة، اختر "جديد".

  7. في شاشة إنشاء الخدمة المرتبطة، قم بتسمية خدمة ADLS Gen2 المرتبطة ADLSGen2 وحدد طريقة المصادقة الخاصة بك. ثم أدخل بيانات اعتماد الاتصال. في هذا التشغيل السريع، نستخدم مفتاح الحساب للاتصال بحساب التخزين الخاص بنا. يمكنك النقر فوق "اختبار الاتصال" للتحقق من إدخال معلومات تسجيل الدخول الخاصة بك بشكل صحيح. انقر فوق ⁧⁩Create⁧⁩ عند الانتهاء.

    إنشاء خدمة مرتبطة بالمصدر

  8. بمجرد العودة إلى شاشة إنشاء مجموعة البيانات، ضمن الحقل File path، أدخل مكان وجود ملفك. في هذا التشغيل السريع، يوجد الملف "MoviesDB.csv" في الحاوية "عينة البيانات". حيث إن الملف يحتوي على عناوين تحقق الصف الأول كعنوان. حدد من اتصال/تخزين لاستيراد مخطط العنوان مباشرة من الملف داخل موقع التخزين. انقر فوق OK عند الانتهاء.

    إعدادات مجموعة بيانات المصدر

  9. إذا بدأ تشغيل كتلة تتبع الأخطاء، انتقل إلى علامة التبويب "معاينة البيانات" من تحويل المصدر وانقر فوق "تحديث" للحصول على لقطة من البيانات. يمكنك استخدام معاينة البيانات للتحقق من تكوين التحويل بشكل صحيح.

    معاينة البيانات

  10. بجانب عقدة المصدر على لوحة تدفق البيانات، انقر على رمز الجمع لإضافة تحويل جديد. أول تحويل تضيفه هو "عامل تصفية".

    إضافة عامل تصفية

  11. تسمية عامل التصفية تحويل FilterYears. تحديد مربع التعبير بجوار "تفعيل عامل التصفية" لفتح منشئ التعبير. هنا عليك تحديد شرط التصفية.

  12. يتيح لك منشئ تعبير تدفق البيانات إنشاء تعبيرات بشكل تفاعلي لاستخدامها في تحويلات مختلفة. يمكن أن تتضمن التعبيرات دالات مضمنة وأعمدة من مخطط الإدخال ومعلمات معرفة من قبل المستخدم. لمزيد من المعلومات حول كيفية إنشاء التعبيرات، راجع منشئ تعبير تدفق البيانات.

    في هذا التشغيل السريع، تريد تصفية أفلام النوع الكوميدي التي ظهرت بين عامي 1910 و2000. حيث إن السنة حالياً هي سلسلة، تحتاج إلى تحويلها إلى عدد صحيح باستخدام toInteger() الدالة. استخدم عامل التشغيل الأكبر من أو يساوي (>=) وأقل من أو يساوي (<=) للمقارنة مع قيم السنة الحرفية 1910 و200-. توحيد هذه التعبيرات مع عامل التشغيل && (و). التعبير يخرج على النحو التالي:

    toInteger(year) >= 1910 && toInteger(year) <= 2000

    للعثور على الأفلام الكوميدية، يمكنك استخدام rlike() الوظيفة للعثور على نمط "كوميديا" في أنواع الأعمدة. توحيد rlike التعبير مع مقارنة السنة للحصول على:

    toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    حدد شرط التصفية

    إذا كان لديك كتلة تصحيح نشطة، يمكنك التحقق من المنطق عن طريق النقر فوق تحديث لرؤية إخراج التعبير مقارنة بالمدخلات المستخدمة. هناك أكثر من إجابة صحيحة حول كيفية إنجاز هذا المنطق باستخدام لغة التعبير عن تدفق البيانات.

    انقر فوق "حفظ وإنهاء" بمجرد الانتهاء من التعبير.

  13. إحضار "معاينة البيانات" للتحقق من أن عامل التصفية يعمل بشكل صحيح.

  14. التحويل التالي الذي ستقوم بإضافته هو تحويل "تجميعي" ضمن "معدل المخطط".

    أضف مجمّعاً

  15. تسمية التحويل التجميعي AggregateComedyRating. في علامة التبويب تجميع حسب، حدد السنة من القائمة المنسدلة لجمع التجميعات حسب السنة التي صدر فيها الفيلم.

    تجميع الإعدادات 1

  16. انتقل إلى علامة التبويب تجميعات. في مربع النص الأيمن، ثم تسمية العمود التجميعي AverageComedyRating. انقر على مربع التعبير الصحيح لإدخال التعبير التجميعي عبر منشئ التعبير.

    تجميع الإعدادات 2

  17. للحصول على متوسط "تصنيف" العمود، استخدم الدالة avg() التجميعية. لأن "التصنيف" هو سلسلة avg() ويقبل الإدخال الرقمي، يجب علينا تحويل القيمة إلى رقم عن طريق toInteger() الدالة. يبدو هذا التعبير مثل:

    avg(toInteger(Rating))

    انقر فوق "حفظ وإنهاء" عند الانتهاء.

    متوسط تصنيف الكوميديا

  18. انتقل إلى علامة التبويب "معاينة البيانات" لعرض إخراج التحويل. لاحظ وجود عمودين فقط هناك، السنة وAverageComedyRating.

    معاينة البيانات المجمعة

  19. أضف تحويل "متلقٍ" ضمن قسم "الوجهة".

    أضف بالوعة

  20. سَمِّ المتلقي Sink. حدد "جديد" لإنشاء مجموعة بيانات الملتقي.

  21. اختيار Azure Data Lake Storage Gen2. انقر فوق "متابعة".

  22. اختر DelimitedText. انقر فوق "متابعة".

  23. تسمية مجموعة بيانات المتلقي MoviesSink. بالنسبة للخدمة المرتبطة، اختر الخدمة المرتبطة ADLS Gen2 التي قمت بإنشائها في الخطوة 7. أدخل مجلد إخراج لكتابة البيانات إليه. في هذا التشغيل السريع، نكتب إلى مجلد "الإخراج" في الحاوية "عينة البيانات". لا يحتاج المجلد إلى الوجود مسبقاً ويمكن إنشاؤه ديناميكياً. حدد خانة الاختيار الصف الأول كعنوان، وحدد دونلمخطط الاستيراد. انقر فوق OK عند الانتهاء.

    خصائص مجموعة بيانات المتلقي

الآن انتهيت من بناء تدفق البيانات. أنت مستعد لتشغيله في مسارك.

تشغيل تدفق البيانات ومراقبته

يمكنك تتبع أخطاء المسار قبل نشره. في هذه الخطوة، ستقوم بتشغيل تتبع أخطاء مسار تدفق البيانات. تكتب عملية تتبع الأخطاء البيانات إلى وجهة المتلقي في حال لم تعرضها معاينة البيانات.

  1. انتقل إلى لوحة المسار. حدد "تتبع الأخطاء" لتشغيل تتبع الأخطاء.

    تدفق التصحيح

  2. يستخدم تتبع أخطاء مسار أنشطة تدفق البيانات كتلة تتبع الأخطاء النشطة ولكن لا يزال يستغرق دقيقة واحدة على الأقل للتهيئة. يمكنك تتبع التقدم عبر علامة التبويب "الإخراج. بمجرد نجاح التشغيل، انقر على أيقونة النظارات الطبية لفتح جزء المراقبة.

    إخراج التصحيح

  3. في جزء المراقبة، يمكنك مشاهدة عدد الصفوف والوقت الذي تقضيه في كل خطوة تحويل.

    مراقبة التحول

  4. انقر على التحول للحصول على معلومات مفصلة حول الأعمدة وتقسيم البيانات.

    تفاصيل التحول

إذا اتبعت هذا التشغيل السريع بشكل صحيح، فيجب أن تكون قد كتبت 83 صفاً وعمودين في مجلد المتلقي. يمكنك التحقق من البيانات عن طريق التحقق من تخزين blob الخاص بك.

الخطوات التالية

تقدم إلى المقالات التالية للتعرف على دعم Azure Synapse Analytics: