أداة Copy Data في Azure Data Factory وSynapse Analytics

ينطبق على: Azure Data Factory Azure Synapse Analytics

تلميح

جرب Data Factory في Microsoft Fabric، وهو حل تحليلي متكامل للمؤسسات. يغطي Microsoft Fabric كل شيء بدءا من حركة البيانات إلى علم البيانات والتحليلات في الوقت الحقيقي والمعلومات المهنية وإعداد التقارير. تعرف على كيفية بدء إصدار تجريبي جديد مجانا!

تعمل أداة Copy Data على تسهيل وتحسين عملية استيعاب البيانات في بحيرة البيانات، والتي عادة ما تكون خطوة أولى في سيناريو تكامل البيانات من طرف إلى طرف. فهي توفر الوقت، خاصة عند استخدام الخدمة لاستيعاب البيانات من مصدر بيانات لأول مرة. بعض فوائد استخدام هذه الأداة هي:

  • عند استخدام أداة Copy Data، لا تحتاج إلى فهم تعريفات الخدمة للخدمات المرتبطة، ومجموعات البيانات، وخطوط التدفقات، والأنشطة، والمشغلات.
  • يُعد تدفق أداة Copy Data بديهياً لتحميل البيانات في بحيرة البيانات. تقوم الأداة تلقائياً بإنشاء كافة الموارد الضرورية لنسخ البيانات من مخزن البيانات المصدر المحدد إلى مخزن بيانات الوجهة/المتلقي المحدد.
  • تساعدك أداة Copy Data على التحقق من صحة البيانات التي يتم استيعابها في وقت التأليف، مما يساعدك على تجنب أي أخطاء محتملة في البداية نفسها.
  • إذا كنت بحاجة إلى تطبيق منطق عمل معقد لتحميل البيانات في بحيرة بيانات، فلا يزال بإمكانك تحرير الموارد التي تم إنشاؤها بواسطة أداة Copy Data باستخدام التأليف لكل نشاط في واجهة المستخدم.

يوفر الجدول التالي إرشادات حول وقت استخدام أداة Copy Data مقابل التأليف لكل نشاط في واجهة المستخدم:

نسخ أداة البيانات التأليف لكل نشاط (نشاط النسخ)
تريد إنشاء مهمة تحميل بيانات بسهولة دون التعرف على الكيانات (الخدمات المرتبطة، ومجموعات البيانات، وخطوط التدفقات وما إلى ذلك) تريد تنفيذ منطق معقد ومرن لتحميل البيانات في البحيرة.
تريد تحميل عدد كبير من البيانات الاصطناعية بسرعة في بحيرة بيانات. تريد ربط نشاط النسخ بالأنشطة اللاحقة لتطهير البيانات أو معالجتها.

لبدء تشغيل أداة Copy Data، انقر فوق لوحة Ingest على الصفحة الرئيسية لواجهة مستخدم Data Factory أو Synapse Studio.

بعد تشغيل أداة Copy Data، سترى نوعين من المهام: إحداهما مهمة نسخ مضمنة والأخرى مهمة نسخ مستندة إلى بيانات التعريف. تقودك مهمة النسخ المضمنة إلى إنشاء خط تدفقات في غضون خمس دقائق لنسخ البيانات نسخاً متماثلاً دون التعرف على الكيانات. تسهل مهمة النسخ المستندة إلى بيانات التعريف رحلتك في إنشاء خطوط تدفقات ذات معلمات وجدول تحكم خارجي من أجل إدارة نسخ كميات كبيرة من الكائنات (على سبيل المثال، آلاف الجداول) على نطاق واسع. يمكنك مشاهدة المزيد من التفاصيل في نسخ بيانات مستند إلى بيانات التعريف.

تدفق بديهي لتحميل البيانات في بحيرة بيانات

تتيح لك هذه الأداة نقل البيانات بسهولة من مجموعة واسعة من المصادر إلى الوجهات في دقائق مع تدفق بديهي:

  1. تكوين إعدادات المصدر.

  2. تكوين إعدادات الوجهة.

  3. تكوين إعدادات متقدمة لعملية النسخ مثل تعيين العمود، وإعدادات الأداء، وإعدادات التسامح مع الخطأ.

  4. تحديد جدولاً لمهمة تحميل البيانات.

  5. مراجعة ملخص الكيانات التي سيتم إنشاؤها.

  6. تحرير خط التدفقات لتحديث إعدادات نشاط النسخ حسب الحاجة.

    تم تصميم الأداة مع وضع البيانات الضخمة في الاعتبار منذ البداية، ودعم البيانات وأنواع الكائنات المتنوعة. يمكنك استخدامها لنقل مئات المجلدات أو الملفات أو الجداول. تدعم الأداة معاينة البيانات التلقائية، والتقاط المخططات، والتعيين التلقائي، وتصفية البيانات أيضاً.

نسخ أداة البيانات

معاينة البيانات التلقائية

يمكنك معاينة جزء من البيانات من مخزن البيانات المصدر المحدد، والذي يسمح لك بالتحقق من صحة البيانات التي يتم نسخها. بالإضافة إلى ذلك، إذا كانت البيانات المصدر في ملف نصي، تقوم أداة Copy Data بتحليل الملف النصي للكشف تلقائياً عن محددات الصفوف والأعمدة، والمخطط.

إعدادات الملف

بعد الكشف، حدد "Preview data":

إعدادات الملف المكتشف والمعاينة

التقاط المخططات والتعيين التلقائي

قد لا يكون مخطط مصدر البيانات هو نفسه مخطط وجهة البيانات في كثير من الحالات. في هذا السيناريو، تحتاج إلى تعيين أعمدة من المخطط المصدر إلى أعمدة من المخطط الوجهة.

تراقب أداة Copy Data سلوكك وتتعلمه عندما تقوم بتعيين أعمدة بين مخازن المصدر والوجهة. بعد اختيار عمود واحد أو بضعة أعمدة من مخزن البيانات المصدر، و تعيينها إلى المخطط الوجهة، تبدأ أداة Copy Data في تحليل النمط لأزواج الأعمدة التي اخترتها من كلا الجانبين. ثم تطبق نفس النمط على بقية الأعمدة. لذلك، ترى أن جميع الأعمدة قد تم تعيينها إلى الوجهة بالطريقة التي تريدها بعد عدة نقرات فقط. إذا لم تكن راضياً عن اختيار تعيين الأعمدة الذي توفره أداة Copy Data، يمكنك تجاهله والمتابعة في تعيين الأعمدة يدوياً. وفي الوقت نفسه، تستمر أداة Copy Data في تعلم النمط وتحديثه، وتصل في النهاية إلى نمط تعيين الأعمدة الصحيح الذي تريد تحقيقه.

إشعار

عند نسخ البيانات من SQL Server أو Azure SQL Database في Azure Synapse Analytics، إذا لم يكن الجدول موجوداً في المخزن الوجهة، فإن أداة Copy Data تدعم إنشاء الجدول تلقائياً باستخدام مخطط المصدر.

تصفية البيانات

يمكنك تصفية بيانات المصدر لتحديد البيانات التي يجب نسخها فقط إلى مخزن بيانات المتلقي. تقلل التصفية من حجم البيانات المراد نسخها إلى مخزن بيانات المتلقي وبالتالي تعزز معدل النقل في عملية النسخ. توفر أداة Copy Data طريقة مرنة لتصفية البيانات في قاعدة بيانات علائقية باستخدام لغة استعلام SQL أو الملفات الموجودة في مجلد الكائن الثنائي كبير الحجم لـ Azure.

تصفية البيانات في قاعدة بيانات

تعرض لقطة الشاشة التالية استعلام SQL لتصفية البيانات.

تصفية البيانات في قاعدة بيانات

تصفية البيانات في مجلد الكائن الثنائي كبير الحجم لـ Azure

يمكنك استخدام المتغيرات في مسار المجلد لنسخ البيانات من مجلد. المتغيرات المدعومة هي: {year}، و{month}، و{day}، و{hour}، و{minute}. على سبيل المثال: inputfolder/{year}/{month}/{day}.

افترض أن لديك مجلدات إدخال بالتنسيق التالي:

2016/03/01/01
2016/03/01/02
2016/03/01/03
...

انقر على زر تصفح لـ ملف أو مجلد ، تصفح إلى واحد من هذه المجلدات (على سبيل المثال، 2016- > 03- > 01- > 02)، وانقر على اختر . يجب أن تشاهد 2016/03/01/02 في مربع النص.

ثم استبدل 2016 بـ {year}، و03 بـ {month}، 01 بـ {day}، و02 بـ {hour}، واضغط على المفتاح Tab. عند تحديد "Incremental load": أسماء المجلدات/الملفات المقسمة زمنياً في قسم "File loading behavior" وتحديد "Schedule" أو نافذة Tumbling في صفحة "Properties" يجب أن تشاهد القوائم المنسدلة لتحديد التنسيق لهذه المتغيرات الأربعة:

تصفية ملف أو مجلد

تقوم أداة Copy Data بإنشاء معلمات ذات تعبيرات، ودوال، ومتغيرات نظام يمكن استخدامها لتمثيل {year}، و{month}، و{day}، و{hour}، و{minute} عند إنشاء خط تدفقات.

خيارات الجدولة

يمكنك تشغيل عملية النسخ مرة واحدة أو وفقاً لجدول (كل ساعة، يومياً، وما إلى ذلك). يمكن استخدام هذه الخيارات للموصلات عبر بيئات مختلفة، بما في ذلك البيئات المحلية والسحابة وسطح المكتب المحلي.

تتيح عملية النسخ لمرة واحدة نقل البيانات من مصدر إلى وجهة مرة واحدة فقط. وينطبق على البيانات من أي حجم وأي تنسيق مدعوم. تسمح لك النسخة المجدولة بنسخ البيانات على التكرار الذي تحدده. يمكنك استخدام إعدادات منسقة (مثل إعادة المحاولة، والمهلة، والتنبيهات) لتكوين النسخة المجدولة.

خيارات الجدولة

جرب هذه البرامج التعليمية التي تستخدم أداة نسخ البيانات: