حمّل البيانات في Azure Data Lake Storage Gen2 باستخدام مصنع بيانات Azure

ينطبق على:Azure Data Factory Azure Synapse Analytics

تلميح

جرب Data Factory في Microsoft Fabric، وهو حل تحليلي متكامل للمؤسسات. يغطي Microsoft Fabric كل شيء بدءا من حركة البيانات إلى علم البيانات والتحليلات في الوقت الحقيقي والمعلومات المهنية وإعداد التقارير. تعرف على كيفية بدء إصدار تجريبي جديد مجانا!

Azure Data Lake Storage Gen2 هو مجموعة من القدرات المخصصة لعمليات تحليل البيانات الضخمة على Azure Blob Storage. فهي تسمح لك بالتداخل مع بياناتك باستخدام كل من نظام الملفات ونماذج تخزين الكائن.

Azure Data Factory (ADF) هي خدمة تكامل بيانات مستندة إلى السحابة ومدارة بالكامل. يمكنك استخدام الخدمة لملء البحيرة ببيانات من مجموعة غنية من متاجر بيانات محلية قائمة على السحابة وتوفير الوقت عند إنشاء حلول التحليلات. للحصول على قائمة مفصلة من الموصلات المدعومة راجع جدول مخازن البيانات المدعومة.

يقدم Azure Data Factory حلا واسع النطاق لحركة البيانات المدارة. نظرا للهندسة واسعة النطاق لـ ADF، فيمكنه استيعاب البيانات بمعدل نقل عال. للحصول على التفاصيل، راجع أداء نشاط النسخ.

توضح هذه المقالة كيفية استخدام أداة Data Factory Copy Data لتحميل البيانات من خدمة Amazon Web Services S3 في Azure Data Lake Storage Gen2. يمكنك اتباع خطوات مماثلة لنسخ البيانات من أنواع أخرى من مخازن البيانات.

تلميح

لنسخ البيانات منAzure Data Lake Storage Gen2 في Gens2، أشر إلى هذه المعاينة المحددة.

المتطلبات الأساسية

  • اشتراك Azure: إذا لم يكن لديك اشتراك Azure، فأنشئ حساباً مجانياً قبل أن تبدأ.
  • حساب تخزين Azure مع Data Lake Storage Gen2 ممكنة: إذا لم يكن لديك حساب تخزين، أنشيء حسابًا.
  • حساب AWS مع مستودع S3 الذي يحتوي على بيانات: توضح هذه المقالة كيفية نسخ البيانات من Amazon S3. يمكنك استخدام مخازن البيانات الأخرى باتباع خطوات مماثلة.

إنشاء مصدرًا للبيانات

  1. إذا لم تكن قد أنشأت مصنع البيانات بعد، فاتبع الخطوات الواردة في التشغيل السريع: إنشاء مصنع بيانات باستخدام مدخل Azure وAzure Data Factory Studio لإنشاء واحد. بعد إنشائه، استعرض للوصول إلى مصنع البيانات في مدخل Microsoft Azure.

    الصفحة الرئيسية لـ zure Data Factory بالإضافة إلى تجانب Open Azure Data Factory Studio

  2. حدد Open من تجانب Open Azure Data Factory Studio لبدء تطبيق تكامل البيانات في علامة تبويب منفصلة.

تحميل البيانات في Azure Data Lake Storage Gen2

  1. في صفحة Azure Data Factory الرئيسية، حدد تجانب Ingest لبدء تشغيل أداة Copy Data.

  2. في صفحة Properties، اختر Built-in copy task منTask type، واختر Run once nowمنTask cadence or task scheduleثم حدد Next.

    صفحة الخصائص

  3. في صفحة Source data store، أكمل الخطوات التالية:

    1. حدد + اتصال جديد. حدد Amazon S3 من معرض الموصل، وحدد Continue.

      صفحة Source data store s3

    2. في صفحة New connection (Amazon S3، نفذ الخطوات التالية:

      1. حدد قيمة Access Key ID.
      2. حدد قيمة معرف الوصول إلى البيانات السرية.
      3. انقر فوق Test connection للتحقق من صحة الإعدادات، ثم حدد Create.

      تحديد حساب Amazon S3

    3. في صفحة مخزن بيانات المصدر، تأكد من تحديد اتصال Amazon S3 الذي تم إنشاؤه حديثا في كتلة الاتصال .

    4. في قسم File or folder استعرض للوصول إلى المجلد والملف الذي تريد النسخ عليه. حدد المجلد/الملف، ثم حدد OK.

    5. حدد سلوك النسخ عن طريق التحقق من خياري النسخ Recursively و Binary. حدد التالي.

    لقطة شاشة تظهر صفحة مخزن بيانات المصدر.

  4. في صفحة Destination data store، أكمل الخطوات التالية:

    1. حدد + New connection، ثم حدد Azure Data Lake Storage Gen2، ثم حددContinue.

      صفحة مخزن بيانات الوجهة

    2. في صفحة New connection (Azure Data Lake Storage Gen2) حدد حساب Data Lake Storage Gen2 الممكن من القائمة المنسدلة "Storage account name"، وحدد Create لإنشاء الاتصال.

      إنشاء حساب Azure Data Lake Storage Gen2

    3. في صفحة Destination data store حدد الاتصال الذي أُنشيء حديثا في كتلة الاتصال. ثم ضمن Folder path، أدخل copyfroms3 كاسم مجلد الإخراج، وحدد Next. سينشيء ADF نظام ملفات ADLS Gen2 المطابق والمجلدات الفرعية أثناء النسخ إذا لم تكن موجودة.

      لقطة شاشة تظهر صفحة مخزن بيانات الوجهة.

  5. في صفحة Settings حدد CopyFromAmazonS3ToADLS لحقل Task name وحدد Next لاستخدام الإعدادات الافتراضية.

    صفحة Settings

  6. في صفحة Summary، راجع الإعدادات، وحدد Next.

    صفحة ملخص

  7. في صفحة Deployment، حدد Monitor لمراقبة المسار الذي أنشأته (مهمة).

  8. عند اكتمال تشغيل المسار بنجاح، تشاهد المسار المشغل بواسطة مشغل يدوي. يمكنك استخدام الروابط ضمن العمود PIPELINE NAME لعرض تفاصيل النشاط وإعادة تشغيل "المسار".

    مراقبة تشغيل المسار

  9. لمشاهدة تشغيل النشاط المقترنة بتشغيل المسار، حدد الرابط CopyPipelineضمن عمود PIPELINE NAME. للحصول على تفاصيل حول عملية النسخ، حدد رابط Details link (eyeglasses icon) under theActivity name. يمكنك مراقبة تفاصيل مثل حجم البيانات المنسوخة من المصدر إلى المتلقي، وسرعة نقل البيانات، وخطوات التنفيذ مع المدة المقابلة، والتكوين المستخدم.

    مراقبة تشغيلات النشاط

    تفاصيل تشغيل نشاط المراقبة

  10. لإعادة تنشيط طريقة العرض، حدد Refresh. حدد All pipeline runs في الأعلى للعودة إلى طريقة عرض "تشغيل المسار".

  11. تحقق من نسخ البيانات إلى حساب Data Lake Storage Gen2.