نسخ الملفات الجديدة والمتغيرة بشكل متزايد استناداً إلى LastModifiedDate باستخدام أداة نسخ البيانات

ينطبق على: Azure Data Factory Azure Synapse Analytics

تلميح

جرب Data Factory في Microsoft Fabric، وهو حل تحليلي متكامل للمؤسسات. يغطي Microsoft Fabric كل شيء بدءا من حركة البيانات إلى علم البيانات والتحليلات في الوقت الحقيقي والمعلومات المهنية وإعداد التقارير. تعرف على كيفية بدء إصدار تجريبي جديد مجانا!

في هذا البرنامج التعليمي، يمكنك استخدام مدخل Azure لإنشاء مصنع للبيانات. يمكنك بعد ذلك استخدام أداة نسخ البيانات لإنشاء مسار يقوم بنسخ الملفات الجديدة والمتغيرة بشكل متزايد فقط، من موقع تخزين Azure Blob إلى موقع تخزين Azure Blob. ويستخدم LastModifiedDate لتحديد الملفات التي تحتاج لنسخها.

بعد إكمال الخطوات هنا، سيقومAzure Data Factory بفحص كافة الملفات الموجودة في موقع تخزين المصدر، واستخدام عامل تصفية الملفات عبر LastModifiedDate، والنسخ إلى المخزن الوجهة الملفات الجديدة فقط أو التي تم تحديثها منذ المرة السابقة. لاحظ أنه إذا كان مصنع البيانات يفحص أعداد كبيرة من الملفات، فيجب أن تتوقع أن ذلك يستغرق فترات طويلة. يستغرق مسح الملفات وقتاً طويلاً، حتى عندما يتم تقليل كمية البيانات المنسوخة.

إشعار

إذا كنت مستخدما جديدا ل Data Factory، فراجع مقدمة إلى Azure Data Factory.

في هذا البرنامج التعليمي، ستكمل هذه المهام:

  • إنشاء data factory.
  • استخدام أداة Copy Data لإنشاء مسار.
  • مراقبة تشغيل التدفق والنشاط.

المتطلبات الأساسية

  • اشتراك Azure: إذا لم يكن لديك اشتراك Azure، فأنشئ حسابمجاني قبل أن تبدأ.
  • حساب Azure Storage: استخدام موقع تخزين Blob لمخازن بيانات المتلقي والمصدر. إذا لم يكن لديك حسابAzure Storage، فاتبع الإرشادات الموجودة في إنشاء حساب تخزين.

إنشاء حاويتين في تخزين Blob

قم بإعداد موقع تخزين Blob من أجل البرنامج التعليمي من خلال إكمال هذه الخطوات:

  1. إنشاء حاوية باسم source. يمكنك استخدام العديد من الأدوات لتنفيذ هذه المهمة، مثل مستكشف التخزين Azure.

  2. أنشئ حاوية باسم destination.

إنشاء مصدرًا للبيانات

  1. في الجزء الأيمن، حدد Create a resource. تحديد مصنع>بيانات التكامل:

    تحديد مصنع البيانات

  2. في صفحة New data factory، أدخِل ADFTutorialDataFactory في خانة Name.

    يجب أن يكون اسم مصنع البيانات الخاص بك فريداً عالمياً. قد تتلقى رسالة الخطأ هذه:

    رسالة خطأ مصنع البيانات الجديد بشأن الاسم المُكرر

    إذا تلقيت رسالة خطأ حول قيمة الاسم، فأدخل اسماً مختلفاً لمصنع البيانات. على سبيل المثال، استخدم الاسم yournameADFTutorialDataFactory. للحصول على قواعد التسمية لData Factory artifacts، راجع قواعد تسمية مصنع البيانات.

  3. ضمن Subscription، حدد الاشتراك في Azure الذي تريد إنشاء مصنع بيانات فيه.

  4. ضمن Resource Group، نفِّذ إحدى الخطوات التالية:

    • حدد Use existing ثم حدد مجموعة موارد موجودة في القائمة.

    • حدد Create new ثم أدخل اسم لمجموعة الموارد.

    للتعرف على مجموعات الموارد، راجع استخدام مجموعات الموارد لإدارة موارد Azure التابعة لك.

  5. ضمن Version، حدد V2.

  6. ضمن Location، حدد موقع مصنع البيانات. تظهر المواقع المدعومة فقط في القائمة. يمكن أن تكون مخازن البيانات (على سبيل المثال،Azure Storage وAzure SQL Database) والحسابات (على سبيل المثال، Azure HDInsight) التي يستخدمها مصنع البيانات الخاص بك في مواقع ومناطق أخرى.

  7. حدد إنشاء.

  8. بعد إنشاء مصنع البيانات، تظهر الصفحة الرئيسية لمصنع البيانات.

  9. لبدء تشغيل واجهة مستخدم مصنع بيانات Azure (UI) في علامة تبويب منفصلة، حدد Open على الإطار المتجانب لـOpen Azure Data Factory Studio:

    الصفحة الرئيسية لـ zure Data Factory بالإضافة إلى تجانب Open Azure Data Factory Studio

استخدام أداة Copy Data لإنشاء مسار

  1. في صفحة Azure Data Factory الرئيسية، حدد تجانب Ingest لبدء تشغيل أداة Copy Data:

    لقطة شاشة توضح الصفحة الرئيسية لـ ADF.

  2. في صفحة "Properties"، اتبع الخطوات التالية:

    1. ضمن نوع المهمة، حدد مهمة النسخ المدمجة.

    2. ضمن إيقاع المهمة أو جدول المهام، حدد نافذة Tumbling.

    3. ضمن التكرار، أدخل 15 دقيقة (دقائق).

    4. حدد التالي.

    نسخ صفحة الخصائص

  3. في صفحة Source data store، أكمل الخطوات التالية:

    1. حدد + New connection لإضافة اتصال.

    2. حدد Azure Blob Storage من المعرض، ثم حدد Continue:

      اختر موقع تخزين Azure Blob Storage

    3. في صفحة New connection (Azure Blob Storage)، حدد اشتراك Azure من قائمة Azure subscription، وحدد حساب موقع التخزين من قائمة Storage account name. اختبر الاتصال ثم حدد Create.

    4. حدد الاتصال الذي تم إنشاؤه حديثًا في كتلة Connection.

    5. في قسم ملف أو مجلد، حدد Browse واختر مجلد المصدر، ثم حدد OK.

    6. ضمن سلوك تحميل الملف، حدد التحميل التزايدي: LastModifiedDate، واختر Binary copy.

    7. حدد التالي.

    لقطة شاشة تظهر صفحة

  4. في صفحة Destination data store، أكمل الخطوات التالية:

    1. حدد اتصال AzureBlobStorage الذي قمت بإنشائه. هذا هو نفس حساب التخزين كموقع تخزين بيانات المصدر.

    2. في قسم مسار المجلد، استعرض وحدد مجلد destination ثم حدد OK.

    3. حدد التالي.

    لقطة شاشة تظهر صفحة

  5. في صفحة Settings، ضمن Task name، أدخل CopyFromBlobToSqlPipeline، ثم حدد Next. يقوم Data Factory بإنشاء مسار باسم المهمة المحدد.

    لقطة شاشة تظهر صفحة الإعدادات.

  6. في صفحة الملخص راجع الإعدادات، ثم حدد Next.

    صفحة ملخص

  7. في صفحة Deployment، حدد Monitor لمراقبة المسار الذي أنشأته (مهمة).

    صفحة التوزيع

  8. لاحظ أن علامة التبويب Monitor على اليسار محددة تلقائياً. يتبدل التطبيق إلى علامة تبويب Monitor. وستظهر حالة المسار. حدد "Refresh" لتحديث القائمة. حدد الرابط الموجود ضمن Pipeline name لعرض تفاصيل تشغيل النشاط أو إعادة تشغيل المسار.

    تحديث القائمة وعرض تفاصيل تشغيل النشاط

  9. هناك نشاط واحد فقط (نشاط النسخ) في المسار، بحيث ترى إدخالاً واحداً فقط. للحصول على مزيد من التفاصيل حول عملية النسخ في صفحة Activity runs، حدد رابط التفاصيل (أيقونة النظارات) أسفل عمود Activity name. للحصول على تفاصيل حول الخصائص، راجع نظرة عامة على نشاط النسخ.

    نسخ النشاط في المسار

    نظراً لعدم وجود ملفات في حاوية المصدر في حساب تخزين Blob، فلن ترى أي ملفات تم نسخها إلى حاوية الوجهة في الحساب:

    لا توجد ملفات في حاوية المصدر أو حاوية الوجهة

  10. إنشاء ملف نصي فارغ وتسميته بـ file1.txt. تحميل هذا الملف النصي إلى حاوية المصدر في حساب التخزين الخاص بك. يمكنك استخدام أدوات مختلفة مثل Azure Storage Explorer لتنفيذ هذه المهام.

    إنشاء file1.txt وتحميلها إلى حاوية المصدر

  11. للعودة إلى طريقة العرض تشغيل المسار حدد رابط كافة مسارات التشغيل في قائمة breadcrumb على صفحة تشغيل النشاط وانتظر نفس المسار ليتم تشغيله تلقائياً مرة أخرى.

  12. عند اكتمال تشغيل المسار الثاني، اتبع نفس الخطوات المذكورة سابقاً لمراجعة تفاصيل تشغيل النشاط.

    سترى أنه تم نسخ ملف واحد (file1.txt) من حاوية المصدر إلى حاوية الوجهة لحساب تخزين Blob الخاص بك:

    تم نسخ file1.txt من حاوية المصدر إلى حاوية الوجهة

  13. إنشاء ملف نصي فارغ وتسميته بـ file2.txt. تحميل هذا الملف النصي إلى حاوية المصدر في حساب تخزين Blob.

  14. كرر الخطوتين 11 و12 للملف النصي الثاني. سترى أن الملف الجديد فقط (file2.txt) تم نسخه من حاوية المصدر إلى حاوية الوجهة لحساب التخزين الخاص بك أثناء تشغيل المسار.

    يمكنك أيضاً التحقق من أنه تم نسخ ملف واحد فقط باستخدام مستكشف تخزين Azure لمسح الملفات:

    فحص الملفات باستخدام مستكشف تخزين Azure

انتقل إلى البرنامج التعليمي التالي لمعرفة كيفية تحويل البيانات باستخدام مقطع تخزين Apache Spark على Azure: