تحويل البيانات بشكل آمن باستخدام تعيين تدفق البيانات

مقالة
10/03/2024

ينطبق على: Azure Data Factory Azure Synapse Analytics

تلميح

جرب Data Factory في Microsoft Fabric، وهو حل تحليلي متكامل للمؤسسات. يغطي Microsoft Fabric كل شيء بدءا من حركة البيانات إلى علم البيانات والتحليلات في الوقت الحقيقي والمعلومات المهنية وإعداد التقارير. تعرف على كيفية بدء إصدار تجريبي جديد مجانا!

إذا كنت جديداً في استخدام Azure Data Factory، فراجع مقدمة لـ Azure Data Factory.

في هذا البرنامج التعليمي، تُستخدم واجهة مستخدم مصنع البيانات (UI) لإنشاء مسار نسخ وتحويل البيانات من مصدر تخزين Azure Data Lake من الجيل الثاني إلى ملتقى تخزين Azure Data Lake من الجيل الثاني (كلاهما يسمح بالوصول إلى شبكات محددة فقط) باستخدام تعيين تدفق البيانات في الشبكة الظاهرية التي يديرها مصنع البيانات. يمكنك توسيع نمط التكوين في هذا البرنامج التعليمي عند تحويل البيانات باستخدام تعيين تدفق البيانات.

في هذا البرنامج التعليمي، يمكنك القيام بالخطوات التالية:

إنشاء data factory.
إنشاء مسار مع نشاط تدفق البيانات.
إنشاء تعيين تدفق البيانات مع أربعة تحويلات.
اختبار تشغيل التدفقات.
مراقبة نشاط تدفق البيانات.

المتطلبات الأساسية

اشتراك Azure. إذا لم تكن مشتركًا في Azure، فيمكنك إنشاء حساب مجاني على Azure قبل البدء.
حساب Azure Storage. يمكنك استخدام Data Lake Storageكمصدر ومتلقي لبيانات المصدر. إذا لم يكن لديك حساب تخزين، فشاهد إنشاء حساب تخزين Azure للحصول على خطوات لإنشاء حساب. تأكد من أن حساب التخزين يسمح بالوصول فقط من الشبكات المحددة.

الملف الذي سنقوم بتحويله في هذا البرنامج التعليمي هو moviesDB.csv، والذي يمكن العثور عليه في موقع المحتوى GitHub. لاسترداد الملف من GitHub، انسخ المحتويات إلى محرر نصوص من اختيارك لحفظه محلياً كملف .csv. لتحميل الملف إلى حسابك للتخزين، راجع تحميل blobs باستخدام مدخل Microsoft Azure. سوف تشير الأمثلة إلى حاوية تسمى sample-data.

إنشاء مصدرًا للبيانات

في هذه الخطوة، يمكنك إنشاء مصنع بيانات وفتح واجهة المستخدم "مصنع البيانات" لإنشاء مسار في مصنع البيانات.

افتح Microsoft Edge أو متصفح Google Chrome. حاليًا، لا يتوفر دعم واجهة مستخدم مصنع البيانات إلا لمتصفحات Microsoft Edge وGoogle Chrome.
في القائمة اليسرى، حدد Create a resource>Analytics>Data Factory.
في صفحة New data factory، أدخِل ADFTutorialDataFactory في خانة Name.

يجب أن يكون اسم مصنع البيانات مميزًا وعامًا. إذا تلقيت رسالة خطأ بشأن قيمة الاسم، فأدخل اسمًا مختلفًا لمصنع البيانات (على سبيل المثال، yournameADFTutorialDataFactory). للحصول على قواعد التسمية للبيانات الاصطناعية على Data Factory، راجع قواعد تسمية Data Factory.
حدد subscription على Azure الذي تريد إنشاء مصنع البيانات فيه.
بالنسبة إلى مجموعة الموارد، نفِّذ إحدى الخطوات التالية:
- حدد Use existing واختر مجموعة موارد موجودة من القائمة المنسدلة.
- حدد Create new وأدخل اسم مجموعة الموارد.
للتعرف على مجموعات الموارد، راجع استخدام مجموعات الموارد لإدارة موارد Azure التابعة لك.
ضمن Version، حدد V2.
ضمن الموقع، حدد موقعا لمصنع البيانات. لن تُظِّهر القائمة المنسدلة إلا المواقع المعتمدة فقط. يمكن أن تكون مخازن البيانات (على سبيل المثال، Azure Storage وAzure SQL Database) والحوسبة (على سبيل المثال، Azure HDInsight) المستخدمة من قبل مصنع البيانات في مناطق أخرى.
حدد إنشاء.
بعد الانتهاء من الإنشاء، سترى الإعلام في مركز الإعلامات. حدد Go to resource للانتقال إلى صفحة Data Factory .
حدد Open Azure Data Factory Studio لتشغيل واجهة مستخدم Data Factory في علامة تبويب منفصلة.

إنشاء Azure IR في الشبكة الظاهرية التي يديرها مصنع البيانات

في هذه الخطوة، يمكنك إنشاء Azure IR وتمكين الشبكة الظاهرية التي يديرها مصنع البيانات.

في مدخل مصنع البيانات، انتقل إلى إدارة وحدد جديد لإنشاء Azure IR جديد.
في صفحة إعداد وقت تشغيل التكامل، اختر وقت تشغيل التكامل الذي تريد إنشاؤه استنادا إلى الإمكانات المطلوبة. في هذا البرنامج التعليمي، حدد Azure، Self-Hosted ثم انقر فوق Continue.
حدد Azure ثم انقر فوق Continue لإنشاء وقت تشغيل تكامل Azure.
ضمن تكوين الشبكة الظاهرية (معاينة)، حدد تمكين.
حدد إنشاء.

إنشاء مسار بنشاط تدفق البيانات

في هذه الخطوة، ستقوم بإنشاء تدفق يحتوي على نشاط سير عمل البيانات.

في صفحة Azure Data Factory الرئيسية، حدد Orchestrate.
في جزء خصائص المسار، أدخِل TransformMovies لاسم المسار.
في جزء Activities، وسّع Move and Transform. اسحب نشاط "تدفق البيانات" من جزء من لوحة المسار.
في النافذة المنبثقة إضافة تدفق البيانات، حدد إنشاء تدفق البيانات الجديد ثم حدد تعيين تدفق البيانات. عند الانتهاء، حدد OK.
قم بتسمية تدفق البيانات TransformMovies في جزء الخصائص.
في الشريط العلوي من لوحة المسار، شغّل شريط التمرير تتبع أخطاء تدفق البيانات. يسمح وضع التصحيح بالاختبار التفاعلي لمنطق التحويل مقابل نظام مجموعة Spark مباشرة. نوصي المستخدمين بتشغيل تتبع الأخطاء أولاً إذا كانوا يخططون لتطوير تدفق البيانات حيث إن نُظمها تستغرق 5-7 دقائق للاستعداد. لمزيد من المعلومات، راجع وضع التصحيح.

إنشاء منطق التحويل في لوحة تدفق البيانات

بعد إنشاء تدفق البيانات، سيتم تحويلك تلقائياً إلى لوحة تدفق البيانات. في هذه الخطوة، سنشئ تدفق بيانات يأخذ ملف moviesDB.csv في Data Lake Storage ويجمع متوسط تصنيف الأفلام الكوميدية من عام 1910 إلى عام 2000. ثم عليك كتابة هذا الملف مرة أخرى فيData Lake Storage.

إضافة تحويل المصدر

في هذه الخطوة، يمكنك إعداد Data Lake Storage Gen2 كمصدر.

في لوحة تدفق البيانات، أضف مصدراً عن طريق تحديد المربع "إضافة مصدر".
سمِّ مصدرك MoviesDB. حدد "جديد" لإنشاء مجموعة بيانات مصدر جديدة.
حدد Azure Data Lake Storage Gen2، ثم حدّد "استمرار".
حدد DelimitedText، ثم حدّد "متابعة".
سمِّ مجموعة البيانات MoviesDB. من القائمة المنسدلة للخدمة المرتبطة، حدد جديد.
في شاشة إنشاء الخدمة المرتبطة، سمِّ الخدمة المرتبطة Data Lake Storage Gen2 ADLSGen2 وحدد أسلوب المصادقة. ثم أدخل بيانات اعتماد الاتصال. في هذا البرنامج التعليمي، نحن نستخدم مفتاح الحساب للاتصال بحساب التخزين الخاص بنا.
تأكد من تمكين التأليف التفاعلي. قد يستغرق الأمر دقيقة حتى التمكين.
حدد اختبار الاتصال. الفشل حتمي لأن حساب التخزين لا يتيح الوصول إليه دون إنشاء نقطة نهاية خاصة والموافقة عليها. يجب أن تشاهد رابط إنشاء نقطة نهاية خاصة يمكنك اتباعها لإنشاء نقطة نهاية خاصة مدارة في رسالة الخطأ. البديل هو الانتقال مباشرة إلى علامة تبويب "الإدارة" واتباع الإرشادات الواردة في هذا القسم لإنشاء نقطة نهاية خاصة مدارة.
احتفظ بمربع الحوار مفتوحًا، وانتقل إلى حساب التخزين.
اتبع الإرشادات الواردة في هذا القسم للموافقة على الارتباط الخاص.
العودة إلى مربع الحوار. حدد اختبار الاتصال مرة أخرى، وحدد إنشاء لنشر الخدمة المرتبطة.
على شاشة إنشاء مجموعة البيانات، أدخل مكان الملف ضمن حقل "مسار الملف". في هذا البرنامج التعليمي، يقع ملف moviesDB.csv في حاوية عينة البيانات. حدد خانة الاختيار الصف الأول كعنوان، لأن الملف يحتوي على عناوين. حدد من اتصال/تخزين لاستيراد مخطط العنوان مباشرة من الملف داخل موقع التخزين. عند الانتهاء، حدد OK.
إذا بدأ تشغيل كتلة تتبع الأخطاء، انتقل إلى علامة التبويب "معاينة البيانات" من تحويل المصدر وحدد "تحديث" للحصول على لقطة من البيانات. يمكنك استخدام معاينة البيانات للتحقق من تكوين التحويل بشكل صحيح.

إنشاء نقطة نهاية خاصة مدارة

إذا لم تستخدم الارتباط التشعبي عند اختبار الاتصال السابق، اتبع المسار. الآن تحتاج إلى إنشاء نقطة نهاية خاصة مدارة، وتوصيلها بالخدمة المرتبطة التي أنشأتها.

انتقل إلى علامة التبويب إدارة .

إشعار

قد لا تتوفر علامة التبويب إدارة لكافة مثيلات Data Factory. إذا لم تتمكن من رؤيته، يمكنك الوصول إلى نقاط النهاية الخاصة عن طريق تحديد Author>Connections>Private Endpoint.
انتقل إلى قسم نقاط النهاية الخاصة المدارة .
حدد + New ضمن نقاط النهاية الخاصة المدارة.
حدد لوحة Azure Data Lake Storage Gen2 من القائمة وحدد "متابعة".
أدخل اسم حساب التخزين الذي قمت بإنشائه.
حدد إنشاء.
بعد بضع ثوانٍ، يجب أن تجد أن الارتباط الخاص الذي تم إنشاؤه يحتاج إلى الموافقة عليه.
حدد نقطة النهاية الخاصة التي قمت بإنشائها. يمكنك مشاهدة الارتباط التشعبي الذي سيقودك إلى الموافقة على نقطة النهاية الخاصة على مستوى حساب التخزين.

الموافقة على الارتباط الخاص في حساب تخزين

في حساب التخزين، انتقل إلى اتصالات نقطة النهاية الخاصة ضمن قسم الإعدادات .
حدد خانة الاختيار لنقطة النهاية الخاصة التي أنشأتها، ثم حدد "موافقة".
أضف وصفا، وحدد نعم.
ارجع إلى قسم نقاط النهاية الخاصة المدارة في علامة التبويب إدارة في Data Factory.
بعد حوالي دقيقة، يجب أن ترى الموافقة تظهر لنقطة النهاية الخاصة بك.

إضافة تحويل عامل التصفية

بجوار عقدة المصدر على لوحة تدفق البيانات، حدد رمز الجمع لإضافة تحويل جديد. أول تحويل تضيفه هو "عامل تصفية".
تسمية عامل التصفية تحويل FilterYears. حدد مربع التعبير بجوار "تفعيل عامل التصفية" لفتح منشئ التعبير. هنا عليك تحديد شرط التصفية.
يتيح لك منشئ تعبير تدفق البيانات إنشاء تعبيرات بشكل تفاعلي لاستخدامها في تحويلات مختلفة. يمكن أن تتضمن التعبيرات دالات مضمنة وأعمدة من مخطط الإدخال ومعلمات معرفة من قبل المستخدم. لمزيد من المعلومات حول كيفية إنشاء التعبيرات، راجع منشئ تعبير تدفق البيانات.
- في هذا البرنامج التعليمي، ترغب في تصفية الأفلام الكوميدية التي صدرت بين عامي 1910 و2000. لأن السنة حالياً عبارة عن سلسلة، تحتاج إلى تحويلها إلى عدد صحيح باستخدام toInteger()الدالة. استخدم عاملي التشغيل الأكبر من أو يساوي (>=) وأقل من أو يساوي (<=) للمقارنة بقيم السنة الحرفية 1910 و2000. توحيد هذه التعبيرات مع عامل التشغيل و(&&). التعبير يخرج على النحو التالي:
  
  toInteger(year) >= 1910 && toInteger(year) <= 2000
- للعثور على الأفلام الكوميدية، يمكنك استخدام rlike() الدالة للعثور على نمط "الكوميديا" في أنواع الأعمدة. توحيد rlike التعبير مع مقارنة السنة للحصول على:
  
  toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')
- إذا كان لديك كتلة تصحيح نشطة، يمكنك التحقق من المنطق عن طريق تحديد "تحديث" لرؤية إخراج التعبير مقارنة بالإدخالات المستخدمة. هناك أكثر من إجابة صحيحة حول كيفية تحقيق هذا المنطق باستخدام لغة التعبير تدفق البيانات.
- حدد "حفظ وإنهاء" بعد الانتهاء من التعبير.
إحضار "معاينة البيانات" للتحقق من أن عامل التصفية يعمل بشكل صحيح.

إضافة التحويل التجميعي

التحويل التالي الذي ستقوم بإضافته هو تحويل "تجميعي" ضمن "معدل المخطط".
بتسمية التحويل التجميعي AggregateComedyRating. في علامة التبويب تجميع حسب، حدد السنة من المربع المنسدل لتجميع التجميعات حسب السنة التي صدر فيها الفيلم.
انتقل إلى علامة التبويب تجميعات. في مربع النص الأيمن، ثم تسمية العمود التجميعي AverageComedyRating. حدد مربع التعبير الصحيح لإدخال التعبير التجميعي عبر منشئ التعبير.
للحصول على متوسط "تصنيف"العمود، استخدم الدالة avg() التجميعية. لأن "التصنيف" هو سلسلة avg() ويقبل الإدخال الرقمي، يجب علينا تحويل القيمة إلى رقم عن طريق toInteger() الدالة. يبدو هذا التعبير مثل:

avg(toInteger(Rating))
حدد "حفظ وإنهاء" بعد الانتهاء.
انتقل إلى علامة التبويب "معاينة البيانات" لعرض إخراج التحويل. لاحظ وجود عمودين فقط هناك، السنة وAverageComedyRating.

إضافة تحويل المتلقي

أضف تحويل "متلقٍ" ضمن قسم "الوجهة".
سَمِّ المتلقي Sink. حدد "جديد" لإنشاء مجموعة بيانات الملتقي.
في الصفحة "مجموعة بيانات جديدة"، حدد Azure Data Lake Storage Gen2، ثم حدد "متابعة".
حدد صفحة تحديد "الصيغة"، ثم حدّد DelimitedText ومن ثم حدد "متابعة".
تسمية مجموعة بيانات المتلقي MoviesSink. بالنسبة للخدمة المرتبطة، اختر نفس الخدمة المرتبطة ADLSGen2 التي أنشأتها لتحويل المصدر. أدخل مجلد إخراج لكتابة البيانات إليه. في هذا البرنامج التعليمي، نكتب إلى مجلد إخراج في حاوية عينة البيانات. لا يحتاج المجلد إلى الوجود مسبقاً ويمكن إنشاؤه ديناميكياً. حدد خانة الاختيار الصف الأول كعنوان، وحدد دونلمخطط الاستيراد. حدد موافق.

الآن انتهيت من بناء تدفق البيانات. أنت مستعد لتشغيله في مسارك.

تشغيل تدفق البيانات ومراقبته

يمكنك تتبع أخطاء المسار قبل نشره. في هذه الخطوة، يشغّل تتبع أخطاء مسار تدفق البيانات. بينما لا تكتب معاينة البيانات أي بيانات، سيؤدي تتبع الأخطاء إلى كتابة البيانات في وجهة المتلقي.

انتقل إلى لوحة المسار. حدد "تتبع الأخطاء" لتشغيل تتبع الأخطاء.
يستخدم مسار تعديل الأخطاء في مسار أنشطة تدفق البيانات كتلة التصحيح النشط ولكن لا يزال يستغرق دقيقة واحدة على الأقل للتهيئة. يمكنك تتبع التقدم عبر علامة التبويب "الإخراج". بعد نجاح التشغيل، حدد رمز النظارات الطبية للحصول على تفاصيل التشغيل.
في صفحة التفاصيل، يمكنك مشاهدة عدد الصفوف والوقت الذي تستغرقه كل خطوة تحويل.
حدد تحويلاً للحصول على معلومات مفصلة حول أعمدة البيانات وتقسيمها.

إذا كنت اتبعت هذا البرنامج التعليمي بشكل صحيح، يجب أن تكون قد كتبت 83 صفاً وعمودين في مجلد المتلقي الخاص بك. يمكنك التحقق من صحة البيانات عن طريق التحقق من تخزين الكائن الثنائي كبير الحجم.

الملخص

في هذا البرنامج التعليمي، استخدمت واجهة مستخدم مصنع البيانات لإنشاء مسار ينسخ البيانات ويحولها من مصدر Data Lake Storage Gen2 إلى متلقي Data Lake Storage Gen2(كلاهما يسمح بالوصول إلى شبكات محددة فقط) باستخدام تعيين تدفق البيانات في شبكة البيانات الظاهرية المدارة في مصنع البيانات.

مشاركة عبر