تحويل البيانات بشكل آمن باستخدام تعيين تدفق البيانات

ينطبق على:Azure Data Factory Azure Synapse Analytics

إذا كنت جديداً في استخدام Azure Data Factory، فراجع مقدمة لـ Azure Data Factory.

في هذا البرنامج التعليمي، تُستخدم واجهة مستخدم Data Factory (UI) لإنشاء مسار نسخ وتحويل البيانات من مصدر تخزين Azure Data Lake من الجيل الثاني إلى ملتقى تخزين Azure Data Lake من الجيل الثاني (كلاهما يسمح بالوصول إلى شبكات محددة فقط) باستخدام تعيين تدفق البيانات في الشبكة الظاهرية التي يديرها Data Factory. يمكنك توسيع نمط التكوين في هذا البرنامج التعليمي عند تحويل البيانات باستخدام تعيين تدفق البيانات.

في هذا البرنامج التعليمي، يمكنك القيام بالخطوات التالية:

  • كيفية إنشاء مصنع بيانات.
  • إنشاء مسار مع نشاط تدفق البيانات.
  • إنشاء تعيين تدفق البيانات مع أربعة تحويلات.
  • اختبار تشغيل التدفقات.
  • مراقبة نشاط تدفق البيانات.

المتطلبات الأساسية

  • اشتراك Azure. إذا لم تكن مشتركًا في Azure، فإنه يمكنك ⁧⁩إنشاء حساب مجاني على Azure⁧⁩ قبل البدء.
  • ⁩حساب تخزين Azure⁧⁩. يمكنك استخدام Data Lake Storageكمصدر ومتلقي لبيانات المصدر. إذا لم يكن لديك حساب تخزين، يمكنك مراجعة مجموعة الخطوات اللازمة ⁧⁩لإنشاء حساب تخزين Azure⁧⁩. ⁧⁩تأكد من أن حساب التخزين يتيح الوصول من الشبكات المحددة فقط دون غيرها.⁧

الملف الذي سنقوم بتحويله في هذا البرنامج التعليمي هو moviesDB.csv، والذي يمكن العثور عليه في موقع المحتوى GitHub. لاسترداد الملف من GitHub، انسخ المحتويات إلى محرر نصوص من اختيارك لحفظه محلياً كملف .csv. انظر كائنات التحميل في مدخل Microsoft Azure لتحميل الملف إلى حساب التخزين الخاص بك. سوف تشير الأمثلة إلى حاوية تسمى sample-data.

إنشاء مصدرًا للبيانات

في هذه الخطوة، يمكنك إنشاء مصنع بيانات وفتح واجهة المستخدم "Data Factory" لإنشاء مسار في Data Factory.

  1. افتح Microsoft Edge أو متصفح Google Chrome. حالياً، لا يتوفر دعم واجهة مستخدم Data Factory إلا لمتصفحات Microsoft Edge وGoogle Chrome.

  2. في القائمة اليسرى حدد ⁧⁩إنشاء⁧⁩ مصنع بيانات ⁧>⁩⁧⁩تحليلات ⁧⁩⁧>⁩⁧⁩للمورد⁧⁩.

  3. في صفحة New data factory، أدخِل ADFTutorialDataFactory في خانة Name.

    يجب أن يكون اسم مصنع البيانات مميزًا وعامًا. إذا تلقيت رسالة خطأ بشأن قيمة الاسم، فأدخل اسماً مختلفاً لData Factory (على سبيل المثال، yournameADFTutorialDataFactory). راجع المقالة الخاصة بقواعد تسمية مصنع البيانات ⁧⁩للاطلاع على قواعد تسمية مصنع البيانات⁧⁩.

  4. حدد ⁧⁩اشتراك⁧⁩ Azure الذي تريد إنشاء مصنع البيانات فيه.

  5. بالنسبة إلى Resource Group، نفِّذ إحدى الخطوات التالية:

    • حدد Use existing واختر مجموعة موارد موجودة من القائمة المنسدلة.
    • حدد Create new وأدخل اسماً جديداً لمجموعة الموارد الجديدة.

    للتعرف على مجموعات الموارد، راجع استخدام مجموعات الموارد لإدارة مواردك على Azure.

  6. ⁩للإصدار⁧⁩، حدد ⁧⁩V2⁧⁩.

  7. بالنسبة ⁧⁩للموقع⁧⁩، حدد موقع مصِّنع البيانات. لن تُظِّهر القائمة المنسدلة إلا المواقع المعتمدة فقط. يمكن أن تكون مخازن البيانات (على سبيل المثال، Azure Storage وAzure SQL Database) والحوسبة (على سبيل المثال، Azure HDInsight) المستخدمة من قبل Data Factory في مناطق أخرى.

  8. حدد Create.

  9. بعد الانتهاء من الإنشاء، سترى الإعلام في مركز الإعلامات. حدد ⁧⁩الانتقال إلى المورد⁧⁩، للانتقال إلى صفحة مصنع ⁧⁩البيانات.⁧

  10. حدد Open Azure Data Factory Studio لتشغيل واجهة مستخدم Data Factory في علامة تبويب منفصلة.

إنشاء Azure IR في الشبكة الظاهرية التي يديرها Data Factory

في هذه الخطوة، يمكنك إنشاء Azure IR وتمكين الشبكة الظاهرية التي يديرها Data Factory.

  1. في مدخل Data Factory، انتقل إلى إدارة وحدد جديد لإنشاء Azure IR جديد.

    لقطة شاشة تعرض كيفية إنشاء Azure IR جديد.

  2. في صفحة ⁧⁩إعداد وقت تشغيل التكامل،⁧⁩ اختر وقت تشغيل التكامل الذي يجب إنشاؤه استناداً إلى الإمكانات المطلوبة. في هذا البرنامج التعليمي، حدد استضافة ⁧⁩Azure ذاتياً،⁧⁩، ثم انقر على ⁧⁩المتابعة⁧⁩.

  3. حدد ⁧⁩Azure⁧⁩، ثم انقر على ⁧⁩المتابعة⁧⁩ لإنشاء وقت تشغيل تكامل Azure.

    لقطة شاشة تعرض Azure IR جديد.

  4. ضمن ⁧⁩تكوين الشبكة الظاهرية (المعاينة)⁧⁩، حدد ⁧⁩تمكين⁧⁩.

    لقطة شاشة توضح تمكين Azure IR جديد.

  5. حدد "Create".

إنشاء مسار بنشاط تدفق البيانات

في هذه الخطوة، ستقوم بإنشاء تدفق يحتوي على نشاط سير عمل البيانات.

  1. في صفحة Azure Data Factory الرئيسية، حدد Orchestrate.

    لقطة شاشة تعرض الصفحة الرئيسية لمصنع البيانات مع تمييز الزر Orchestrate.

  2. في جزء خصائص المسار، أدخِل TransformMovies لاسم المسار.

  3. في جزء Activities، وسّع Move and Transform. اسحب نشاط "تدفق البيانات" من جزء من لوحة المسار.

  4. في النافذة المنبثقة إضافة تدفق البيانات، حدد إنشاء تدفق البيانات الجديد ثم حدد تعيين تدفق البيانات. عند الانتهاء، حدد OK.

    لقطة شاشة تعرض تعيين بيانات التدفق.

  5. قم بتسمية تدفق البيانات TransformMovies في جزء الخصائص.

  6. في الشريط العلوي من لوحة المسار، شغّل شريط التمرير تتبع أخطاء تدفق البيانات. يسمح وضع التصحيح بالاختبار التفاعلي لمنطق التحويل مقابل نظام مجموعة Spark مباشرة. نوصي المستخدمين بتشغيل تتبع الأخطاء أولاً إذا كانوا يخططون لتطوير تدفق البيانات حيث إن نُظمها تستغرق 5-7 دقائق للاستعداد. لمزيد من المعلومات، انظر نمط تتبع الأخطاء.

    لقطة شاشة توضح موضع شريط تمرير تتبع أخطاء تدفق البيانات.

إنشاء منطق التحويل في لوحة تدفق البيانات

بعد إنشاء تدفق البيانات، سيتم تحويلك تلقائياً إلى لوحة تدفق البيانات. في هذه الخطوة، سنشئ تدفق بيانات يأخذ ملف moviesDB.csv في Data Lake Storage ويجمع متوسط تصنيف الأفلام الكوميدية من عام 1910 إلى عام 2000. ثم عليك كتابة هذا الملف مرة أخرى فيData Lake Storage.

إضافة تحويل المصدر

في هذه الخطوة، يمكنك إعداد Data Lake Storage Gen2 كمصدر.

  1. في لوحة تدفق البيانات، أضف مصدراً عن طريق تحديد المربع "إضافة مصدر".

  2. سمِّ مصدرك MoviesDB. حدد "جديد" لإنشاء مجموعة بيانات مصدر جديدة.

  3. حدد Azure Data Lake Storage Gen2، ثم حدّد "استمرار".

  4. حدد DelimitedText، ثم حدّد "متابعة".

  5. سمِّ مجموعة البيانات MoviesDB. من القائمة المنسدلة للخدمة المرتبطة، حدد جديد.

  6. في شاشة إنشاء الخدمة المرتبطة، سمِّ الخدمة المرتبطة Data Lake Storage Gen2 ADLSGen2 وحدد أسلوب المصادقة. ثم أدخل بيانات اعتماد الاتصال. في هذا البرنامج التعليمي، نحن نستخدم مفتاح الحساب للاتصال بحساب التخزين الخاص بنا.

  7. تأكد من تمكين ⁧⁩التأليف التفاعلي⁧⁩. قد يستغرق الأمر دقيقة حتى التمكين.

    لقطة شاشة توضح التأليف التفاعلي.

  8. حدد Test connection. الفشل حتمي لأن حساب التخزين لا يتيح الوصول إليه دون إنشاء نقطة نهاية خاصة والموافقة عليها. يجب أن تشاهد رابط إنشاء نقطة نهاية خاصة يمكنك اتباعها لإنشاء نقطة نهاية خاصة مدارة في رسالة الخطأ. البديل هو الانتقال مباشرة إلى علامة تبويب "الإدارة" واتباع الإرشادات الواردة في هذا القسم لإنشاء نقطة نهاية خاصة مدارة.

  9. احتفظ بمربع الحوار مفتوحاً، وانتقل إلى حساب التخزين.

  10. اتبع الإرشادات الواردة في ⁧⁩هذا القسم⁧⁩ للموافقة على الرابط الخاص.

  11. العودة إلى مربع الحوار. حدد ⁧⁩اختبار الاتصال⁧⁩ مرة أخرى، وحدد ⁧⁩إنشاء⁧⁩ لنشر الخدمة المرتبطة.

  12. على شاشة إنشاء مجموعة البيانات، أدخل مكان الملف ضمن حقل "مسار الملف". في هذا البرنامج التعليمي، يقع ملف moviesDB.csv في حاوية عينة البيانات. حدد خانة الاختيار الصف الأول كعنوان، لأن الملف يحتوي على عناوين. حدد من اتصال/تخزين لاستيراد مخطط العنوان مباشرة من الملف داخل موقع التخزين. عند الانتهاء، حدد OK.

    لقطة شاشة تعرض مسار المصدر.

  13. إذا بدأ تشغيل كتلة تتبع الأخطاء، انتقل إلى علامة التبويب "معاينة البيانات" من تحويل المصدر وحدد "تحديث" للحصول على لقطة من البيانات. يمكنك استخدام معاينة البيانات للتحقق من تكوين التحويل بشكل صحيح.

    لقطة شاشة تعرض علامة التبويب

إنشاء نقطة نهاية خاصة مدارة

إذا لم تستخدم الارتباط التشعبي عند اختبار الاتصال السابق، اتبع المسار. الآن تحتاج إلى إنشاء نقطة نهاية خاصة مدارة، وتوصيلها بالخدمة المرتبطة التي أنشأتها.

  1. انتقل إلى علامة التبويب ⁧⁩إدارة.⁧

    ملاحظة

    قد لا تتوفر علامة تبويب ⁧⁩الإدارة⁧⁩ لكافة مثيلات Data Factory. إذا لم تر هذا الرابط، يمكنك الوصول إلى نقاط النهاية الخاصة عن طريق تحديد ⁧⁩نقطة⁧⁩⁧>⁩⁧⁩النهاية الخاصة باتصالات⁧⁩⁧>⁩⁧⁩المؤلف ⁧⁩.

  2. انتقل إلى قسم ⁧⁩نقاط النهاية الخاصة المدارة.⁧

  3. حدد ⁧⁩+ جديد⁧⁩ ضمن نقاط النهاية الخاصة ⁧⁩المدارة⁧⁩.

    لقطة شاشة توضح زر إضافة نقاط النهاية الخاصة المدارة (New).

  4. حدد لوحة Azure Data Lake Storage Gen2 من القائمة وحدد "متابعة".

  5. أدخل اسم حساب التخزين الذي قمت بإنشائه.

  6. حدد Create.

  7. بعد بضع ثوانٍ، يجب أن تجد أن الارتباط الخاص الذي تم إنشاؤه يحتاج إلى الموافقة عليه.

  8. حدد نقطة النهاية الخاصة التي قمت بإنشائها. يمكنك مشاهدة الارتباط التشعبي الذي سيقودك إلى الموافقة على نقطة النهاية الخاصة على مستوى حساب التخزين.

    لقطة شاشة توضح جزء نقطة النهاية الخاصة المدارة.

  1. انتقل إلى ⁧⁩اتصالات نقطة النهاية الخاصة⁧⁩ في حساب التخزين، ضمن قسم ⁧⁩الإعدادات.⁧

  2. حدد خانة الاختيار لنقطة النهاية الخاصة التي أنشأتها، ثم حدد "موافقة".

    لقطة شاشة تعرض زر الموافقة لنقطة النهاية الخاصة.

  3. أضف وصفاً، وحدد ⁧⁩أوافق⁧⁩.

  4. الآن يمكنك العودة إلى قسم ⁧⁩نقاط النهاية الخاصة المدارة⁧⁩ من علامة تبويب ⁧⁩الإدارة⁧⁩ في Data Factory.

  5. بعد حوالي دقيقة، يجب أن ترى الموافقة تظهر لنقطة النهاية الخاصة بك.

إضافة تحويل عامل التصفية

  1. بجوار عقدة المصدر على لوحة تدفق البيانات، حدد رمز الجمع لإضافة تحويل جديد. أول تحويل تضيفه هو "عامل تصفية".

    لقطة شاشة توضح إضافة عامل تصفية.

  2. تسمية عامل التصفية تحويل FilterYears. حدد مربع التعبير بجوار "تفعيل عامل التصفية" لفتح منشئ التعبير. هنا عليك تحديد شرط التصفية.

    لقطة شاشة تعرض FilterYears.

  3. يتيح لك منشئ تعبير تدفق البيانات إنشاء تعبيرات بشكل تفاعلي لاستخدامها في تحويلات مختلفة. يمكن أن تتضمن التعبيرات دالات مضمنة وأعمدة من مخطط الإدخال ومعلمات معرفة من قبل المستخدم. لمزيد من المعلومات حول كيفية إنشاء التعبيرات، راجع منشئ تعبير تدفق البيانات.

    • في هذا البرنامج التعليمي، ترغب في تصفية الأفلام الكوميدية التي صدرت بين عامي 1910 و2000. لأن السنة حالياً عبارة عن سلسلة، تحتاج إلى تحويلها إلى عدد صحيح باستخدام toInteger()الدالة. استخدم عاملي التشغيل الأكبر من أو يساوي (>=) وأقل من أو يساوي (<=) للمقارنة بقيم السنة الحرفية 1910 و2000. توحيد هذه التعبيرات مع عامل التشغيل و(&&). التعبير يخرج على النحو التالي:

      toInteger(year) >= 1910 && toInteger(year) <= 2000

    • للعثور على الأفلام الكوميدية، يمكنك استخدام rlike() الدالة للعثور على نمط "الكوميديا" في أنواع الأعمدة. توحيد rlike التعبير مع مقارنة السنة للحصول على:

      toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    • إذا كان لديك كتلة تصحيح نشطة، يمكنك التحقق من المنطق عن طريق تحديد "تحديث" لرؤية إخراج التعبير مقارنة بالإدخالات المستخدمة. هناك أكثر من إجابة صحيحة حول كيفية تحقيق هذا المنطق باستخدام لغة التعبير تدفق البيانات.

      لقطة شاشة تعرض تعبير عامل التصفية.

    • حدد "حفظ وإنهاء" بعد الانتهاء من التعبير.

  4. إحضار "معاينة البيانات" للتحقق من أن عامل التصفية يعمل بشكل صحيح.

    لقطة شاشة تعرض معاينة البيانات التي تمت تصفيتها.

إضافة التحويل التجميعي

  1. التحويل التالي الذي ستقوم بإضافته هو تحويل "تجميعي" ضمن "معدل المخطط".

    لقطة شاشة توضح إضافة التجميع.

  2. بتسمية التحويل التجميعي AggregateComedyRating. في علامة التبويب تجميع حسب، حدد السنة من المربع المنسدل لتجميع التجميعات حسب السنة التي صدر فيها الفيلم.

    لقطة شاشة تعرض المجموعة المجمعة.

  3. انتقل إلى علامة التبويب تجميعات. في مربع النص الأيمن، ثم تسمية العمود التجميعي AverageComedyRating. حدد مربع التعبير الصحيح لإدخال التعبير التجميعي عبر منشئ التعبير.

    لقطة شاشة تعرض اسم العمود التجميعي.

  4. للحصول على متوسط "تصنيف" العمود، استخدم الدالة avg() التجميعية. لأن "التصنيف" هو سلسلة avg() ويقبل الإدخال الرقمي، يجب علينا تحويل القيمة إلى رقم عن طريق toInteger() الدالة. يبدو هذا التعبير مثل:

    avg(toInteger(Rating))

  5. حدد "حفظ وإنهاء" بعد الانتهاء.

    لقطة شاشة توضح حفظ التجميع.

  6. انتقل إلى علامة التبويب "معاينة البيانات" لعرض إخراج التحويل. لاحظ وجود عمودين فقط هناك، السنة وAverageComedyRating.

إضافة تحويل المتلقي

  1. أضف تحويل "متلقٍ" ضمن قسم "الوجهة".

    لقطة شاشة توضح إضافة متلقي.

  2. سَمِّ المتلقي Sink. حدد "جديد" لإنشاء مجموعة بيانات الملتقي.

    لقطة شاشة توضح إنشاء متلقي.

  3. في الصفحة "مجموعة بيانات جديدة"، حدد Azure Data Lake Storage Gen2، ثم حدد "متابعة".

  4. حدد صفحة تحديد "الصيغة"، ثم حدّد DelimitedText ومن ثم حدد "متابعة".

  5. تسمية مجموعة بيانات المتلقي MoviesSink. بالنسبة للخدمة المرتبطة، اختر نفس الخدمة المرتبطة ADLSGen2 التي أنشأتها لتحويل المصدر. أدخل مجلد إخراج لكتابة البيانات إليه. في هذا البرنامج التعليمي، نكتب إلى مجلد إخراج في حاوية عينة البيانات. لا يحتاج المجلد إلى الوجود مسبقاً ويمكن إنشاؤه ديناميكياً. حدد خانة الاختيار الصف الأول كعنوان، وحدد دونلمخطط الاستيراد. حدد "OK".

    لقطة شاشة توضح مسار الملتقي.

الآن انتهيت من بناء تدفق البيانات. أنت مستعد لتشغيله في مسارك.

تشغيل تدفق البيانات ومراقبته

يمكنك تتبع أخطاء المسار قبل نشره. في هذه الخطوة، يشغّل تتبع أخطاء مسار تدفق البيانات. بينما لا تكتب معاينة البيانات أي بيانات، سيؤدي تتبع الأخطاء إلى كتابة البيانات في وجهة المتلقي.

  1. انتقل إلى لوحة المسار. حدد "تتبع الأخطاء" لتشغيل تتبع الأخطاء.

  2. يستخدم مسار تعديل الأخطاء في مسار أنشطة تدفق البيانات كتلة التصحيح النشط ولكن لا يزال يستغرق دقيقة واحدة على الأقل للتهيئة. يمكنك تتبع التقدم عبر علامة التبويب "الإخراج" . بعد نجاح التشغيل، حدد رمز النظارات الطبية للحصول على تفاصيل التشغيل.

  3. في صفحة التفاصيل، يمكنك مشاهدة عدد الصفوف والوقت الذي تستغرقه كل خطوة تحويل.

    لقطة شاشة تظهر مراقبة أمر تشغيل.

  4. حدد تحويلاً للحصول على معلومات مفصلة حول أعمدة البيانات وتقسيمها.

إذا كنت اتبعت هذا البرنامج التعليمي بشكل صحيح، يجب أن تكون قد كتبت 83 صفاً وعمودين في مجلد المتلقي الخاص بك. يمكنك التحقق من صحة البيانات عن طريق التحقق من تخزين الكائن الثنائي كبير الحجم.

الملخص

في هذا البرنامج التعليمي، استخدمت واجهة مستخدم Data Factory لإنشاء مسار ينسخ البيانات ويحولها من مصدر Data Lake Storage Gen2 إلى متلقي Data Lake Storage Gen2(كلاهما يسمح بالوصول إلى شبكات محددة فقط) باستخدام تعيين تدفق البيانات في شبكة البيانات الظاهرية المدارة في Data Factory.