مشاركة عبر


البرنامج التعليمي: نسخ البيانات من تخزين Azure Blob إلى قاعدة بيانات في قاعدة بيانات Azure SQL باستخدام Azure Data Factory

ينطبق على: Azure Data Factory Azure Synapse Analytics

تلميح

جرب Data Factory في Microsoft Fabric، وهو حل تحليلي متكامل للمؤسسات. يغطي Microsoft Fabric كل شيء بدءا من حركة البيانات إلى علم البيانات والتحليلات في الوقت الحقيقي والمعلومات المهنية وإعداد التقارير. تعرف على كيفية بدء إصدار تجريبي جديد مجانا!

في هذا البرنامج التعليمي، يمكنك إنشاء مصنع بيانات باستخدام واجهة مستخدم مصنع البيانات Azure (UI). البنية الأساسية لمصنع البيانات هذا نسخ البيانات من تخزين Azure Blob إلى قاعدة بيانات في قاعدة بيانات azure SQL. ينطبق نمط التكوين في هذا البرنامج التعليمي على النسخ من مخزن بيانات يستند إلى ملف إلى مخزن بيانات يعتمد على العلاقات. للحصول على قائمة بمخازن البيانات المدعومة كمصادر ومتلقين، راجع جدول مخازن البيانات المدعومة .

إشعار

إذا كنت مستخدما جديدا ل Data Factory، فراجع مقدمة إلى Azure Data Factory.

في هذا البرنامج التعليمي، يمكنك تنفيذ الخطوات التالية:

المتطلبات الأساسية

  • اشتراك Azure. إذا لم يكن لديك اشتراك Azure، فبادر بإنشاء حساب Azure مجاني قبل البدء.
  • حساب تخزين Azure. يمكنك استخدام تخزين Blob كمخزن بيانات مصدر . إذا لم يكن لديك حساب تخزين، فشاهد إنشاء حساب تخزين Azure للحصول على خطوات لإنشاء حساب.
  • قاعدة بيانات Azure SQL. يمكنك استخدام قاعدة البيانات كمخزن بيانات متلقي . إذا لم يكن لديك قاعدة بيانات في قاعدة بيانات Azure SQL، فشاهد إنشاء قاعدة بيانات في قاعدة بيانات Azure SQL للحصول على خطوات لإنشاء قاعدة بيانات.

إنشاء كائن ثنائي كبير الحجم وجدول SQL

الآن، قم بإعداد مخزن الكائن الثنائي كبير الحجم وقاعدة بيانات SQL ضمن خطوات البرنامج التعليمي من خلال تنفيذ الخطوات التالية.

قم بإنشاء نقطة مصدر

  1. قم بإطلاق Notepad. انسخ النص التالي، واحفظه كملف emp.txt :

    FirstName,LastName
    John,Doe
    Jane,Doe
    
  2. انقل هذا الملف إلى مجلد يسمى الإدخال.

  3. إنشاء حاوية باسم adftutorial في تخزين Blob الخاص بك. قم بتحميل مجلد الإدخال الخاص بك مع ملف emp.txt إلى هذه الحاوية. يمكنك استخدام مدخل Azure أو أدوات مثل Azure Storage Explorer للقيام بهذه المهام.

إنشاء جدولsink SQL

  1. استخدم البرنامج النصي SQL التالي لإنشاء جدول dbo.emp في قاعدة البيانات الخاصة بك:

    CREATE TABLE dbo.emp
    (
        ID int IDENTITY(1,1) NOT NULL,
        FirstName varchar(50),
        LastName varchar(50)
    )
    GO
    
    CREATE CLUSTERED INDEX IX_emp_ID ON dbo.emp (ID);
    
  2. السماح لخدمات Azure للوصول إلى خادم SQL. تأكد من تشغيلالسماح بالوصول إلى خدمات Azure ل SQL Server بحيث يمكن ل Data Factory كتابة البيانات إلى SQL Server. للتحقق من هذا الإعداد وتشغيله، انتقل إلى SQL Server في مدخل Microsoft Azure، وحدد Security>Networking> enable Selected networks> check Allow Azure services and resources to access this server ضمن Exceptions.

إنشاء مصدرًا للبيانات

في هذه الخطوة، يمكنك إنشاء مصنع بيانات، وبدء تشغيل واجهة المستخدم Data Factory لإنشاء مسار لمصنع البيانات.

  1. افتح Microsoft Edge أو Google Chrome. يتم حاليًّا دعم واجهة مستخدم Data Factory فقط في مستعرضي الويب Microsoft Edge وGoogle Chrome.

  2. في القائمة اليسرى، حدد Create a resource>Analytics>Data Factory.

  3. في صفحة Create Data Factory ، ضمن علامة التبويب Basics ، حدد اشتراك Azure الذي تريد إنشاء مصنع البيانات فيه.

  4. بالنسبة لمجموعة الموارد، اتبع إحدى الخطوات التالية:

    أ. حدد مجموعة موارد موجودة من القائمة المنسدلة.

    ب. حدد Create new، وأدخل اسم مجموعة موارد جديدة.

    للتعرف على مجموعات الموارد، راجع استخدام مجموعات الموارد لإدارة موارد Azure.

  5. ضمن Region، حدد موقعا لمصنع البيانات. يمكن أن تكون مخازن البيانات الخاصة بك في منطقة مختلفة عن مصنع البيانات الخاص بك، إذا كانت بحاجة إلى ذلك.

  6. ضمن الاسم، يجب أن يكون اسم مصنع بيانات Azure فريدا عالميا. إذا تلقيت رسالة خطأ حول قيمة الاسم، فأدخل اسماً مختلفاً لمصنع البيانات. (على سبيل المثال، yournameADFDemo). للحصول على قواعد التسمية للبيانات الاصطناعية ل Data Factory، راجع قواعد تسمية Data Factory.

    رسالة خطأ مصنع بيانات جديدة لاسم مكرر.

  7. ضمن Version، حدد V2.

  8. حدد علامة تبويب تكوين Git في الأعلى، وحدد خانة الاختيار تكوين Git لاحقا .

  9. حدد Review + create، وحدد Create بعد تمرير التحقق من الصحة.

  10. بعد الانتهاء من الإنشاء، سترى الإعلام في مركز الإعلامات. حدد Go to resource للانتقال إلى صفحة Data factory.

  11. حدد Launch Studio على تجانب Azure Data Factory Studio .

إنشاء البنية الأساسية لبرنامج ربط العمليات التجارية

في هذه الخطوة، يمكنك إنشاء التدفق الأساسية لنشاط النسخ في مصنع البيانات. نشاط النسخ ينسخ البيانات من مخزن البيانات الثنائية كبيرة الحجم إلى قاعدة بيانات SQL.

  1. في الصفحة الرئيسية، حدد Orchestrate.

    لقطة شاشة تعرض الصفحة الرئيسية ل ADF.

  2. في اللوحة General ضمن Properties، حدد CopyPipelineللاسم. ثم قم بطي اللوحة بالنقر فوق رمز الخصائص في الزاوية العلوية اليمنى.

  3. في مربع أداة الأنشطة ، قم بتوسيع الفئة نقل وتحويل ، واسحب نشاط Copy Data وأفلته من مربع الأداة إلى سطح مصمم المسار. حدد CopyFromBlobToSqlللاسم.

    نشاط النسخ

تكوين المصدر

تلميح

في هذا البرنامج التعليمي، يمكنك استخدام مفتاح الحساب كنوع مصادقة لمخزن بيانات المصدر، ولكن يمكنك اختيار أساليب المصادقة المدعومة الأخرى: SAS URI، وكيان الخدمة، والهوية المدارة إذا لزم الأمر. راجع الأقسام المقابلة في هذه المقالة للحصول على التفاصيل. لتخزين أسرار مخازن البيانات بشكل آمن، يُوصى أيضًا باستخدام Azure Key Vault. راجع هذه المقالة للحصول على رسومات توضيحية مفصلة.

  1. انتقل إلى علامة التبويب المصدر . حدد + New لإنشاء مجموعة بيانات مصدر.

  2. في مربع الحوار New Dataset ، حدد Azure Blob Storage، ثم حدد Continue. البيانات المصدر في تخزين Blob، لذلك يمكنك تحديد Azure Blob Storage لمجموعة البيانات المصدر.

  3. في مربع الحوار تحديد تنسيق ، اختر نص محدد، ثم حدد متابعة.

  4. في مربع الحوار تعيين خصائص ، أدخل SourceBlobDataset للاسم. حدد خانة الاختيار للصف الأول كعنوان. ضمن مربع النص Linked service ، حدد + New.

  5. في مربع الحوار خدمة مرتبطة جديدة (Azure Blob Storage)، أدخل AzureStorageLinkedService كاسم، وحدد حساب التخزين الخاص بك من قائمة اسم حساب التخزين . اختبار الاتصال، حدد إنشاء لنشر الخدمة المرتبطة.

  6. بعد إنشاء الخدمة المرتبطة، يتم الانتقال مرة أخرى إلى صفحة تعيين الخصائص. بجوار File path، حدد Browse.

  7. انتقل إلى مجلد adftutorial/input ، وحدد ملف emp.txt ، ثم حدد موافق.

  8. حدد موافق. وسينتقل تلقائيًا إلى صفحة البنية الأساسية. في علامة التبويب المصدر ، تأكد من تحديد SourceBlobDataset . لمعاينة البيانات في هذه الصفحة، حدد معاينة البيانات.

    مجموعة بيانات المصدر

تكوين متلقٍّ

تلميح

في هذا البرنامج التعليمي، يمكنك استخدام مصادقة SQL كنوع مصادقة لمخزن بيانات المتلقي الخاص بك، ولكن يمكنك اختيار أساليب المصادقة المدعومة الأخرى: كيان الخدمةوالهوية المدارة إذا لزم الأمر. راجع الأقسام المقابلة في هذه المقالة للحصول على التفاصيل. لتخزين أسرار مخازن البيانات بشكل آمن، يُوصى أيضًا باستخدام Azure Key Vault. راجع هذه المقالة للحصول على رسومات توضيحية مفصلة.

  1. انتقل إلى علامة التبويب Sink ، وحدد + New لإنشاء مجموعة بيانات المتلقي.

  2. في مربع الحوار مجموعة بيانات جديدة ، أدخل "SQL" في مربع البحث لتصفية الموصلات، وحدد قاعدة بيانات Azure SQL، ثم حدد متابعة.

  3. في مربع الحوار تعيين خصائص ، أدخل OutputSqlDataset للاسم. من القائمة المنسدلة Linked service ، حدد + New. يجب أن تكون مجموعة البيانات مقترنة بخدمة مرتبطة. تحتوي الخدمة المرتبطة على سلسلة الاتصال التي يستخدمها Data Factory للاتصال بقاعدة بيانات SQL في وقت التشغيل، وتحدد مكان نسخ البيانات إليه.

  4. في مربع الحوار خدمة مرتبطة جديدة (قاعدة بيانات Azure SQL)، اتبع الخطوات التالية:

    أ. ضمن Name، أدخل AzureSqlDatabaseLinkedService.

    ب. ضمن اسم الخادم، حدد مثيل SQL Server الخاص بك.

    جـ. ضمن اسم قاعدة البيانات، حدد قاعدة البيانات الخاصة بك.

    د. ضمن اسم المستخدم، أدخل اسم المستخدم.

    هـ. ضمن كلمة المرور، أدخل كلمة المرور للمستخدم.

    و. حدد اختبار الاتصال لاختبار الاتصال.

    ز. حدد Create لنشر الخدمة المرتبطة.

    حفظ خدمة مرتبطة جديدة

  5. ينتقل تلقائيا إلى مربع الحوار تعيين خصائص . في الجدول، حدد إدخال يدويا، وأدخل [dbo].[ emp]. ثم حدد موافق.

  6. انتقل إلى علامة التبويب مع البنية الأساسية لبرنامج ربط العمليات التجارية، وفي مجموعة بيانات المتلقي، تأكد من تحديد OutputSqlDataset .

    علامة تبويب المسار

يمكنك اختياريا تعيين مخطط المصدر إلى مخطط الوجهة المقابل باتباع تعيين المخطط في نشاط النسخ.

التحقق من صحة خط الأنابيب

للتحقق من صحة البنية الأساسية لبرنامج ربط العمليات التجارية، حدد Validate من شريط الأدوات.

يمكنك مشاهدة التعليمات البرمجية JSON المقترنة بالبنية الأساسية لبرنامج ربط العمليات التجارية بالنقر فوق Code في أعلى اليمين.

تصحيح الأخطاء ونشرها

يمكنك تصحيح التدفقات قبل نشر البيانات الاصطناعية (الخدمات المرتبطة ومجموعات البيانات والتدفق) إلى "مصنع البيانات" أو مستودع "Azure Repos Git" الخاص بك.

  1. لتتبع أخطاء البنية الأساسية لبرنامج ربط العمليات التجارية، حدد Debug على شريط الأدوات. ترى حالة تشغيل البنية الأساسية لبرنامج ربط العمليات التجارية في علامة التبويب Output في أسفل النافذة.

  2. بمجرد تشغيل البنية الأساسية لبرنامج ربط العمليات التجارية بنجاح، في شريط الأدوات العلوي، حدد Publish all. يؤدي هذا الإجراء إلى نشر الكيانات (مجموعات البيانات ومسارات المعالجة) التي قمت بإنشائها من أجل Data Factory.

  3. انتظر حتى ترى رسالة الإعلام المنشورة بنجاح . لمشاهدة رسائل الإعلام، حدد الزر إظهار الإعلامات في أعلى اليمين (زر الجرس).

تشغيل التدفق يدويًا

في هذه الخطوة، يمكنك تشغيل خط الأنابيب الذي قمت بنشره في الخطوة السابقة يدويًا.

  1. حدد Add trigger على شريط الأدوات، ثم حدد Trigger Now.

  2. في صفحة Pipeline Run ، حدد OK.

  3. انتقل إلى علامة التبويب Monitor على اليسار. ترى تشغيل البنية الأساسية الذي يتم تشغيله بواسطة مشغل يدوي. يمكنك استخدام الارتباطات ضمن عمود PIPELINE NAME لعرض تفاصيل النشاط وإعادة تشغيل البنية الأساسية لبرنامج ربط العمليات التجارية.

    مراقبة تشغيل البنية الأساسية لبرنامج ربط العمليات التجارية

  4. لمشاهدة عمليات تشغيل النشاط المقترنة بتشغيل البنية الأساسية لبرنامج ربط العمليات التجارية، حدد الارتباط CopyPipeline ضمن عمود PIPELINE NAME . لا يوجد في هذا المثال سوى نشاط واحد، لذلك لن ترى سوى إدخال واحد في القائمة. للحصول على تفاصيل حول عملية النسخ، مرر الماوس فوق النشاط و

  5. حدد رابط التفاصيل (أيقونة النظارات) ضمن العمود اسم النشاط . حدد All pipeline runs في الأعلى للعودة إلى طريقة عرض Pipeline Runs. لتحديث طريقة العرض، حدد Refresh.

    مراقبة عمليات تشغيل النشاط

  6. تحقق من إضافة صفين إضافيين إلى جدول emp في قاعدة البيانات.

تشغيل التدفق وفقًا لجدول زمني

في هذا الجدول الزمني، يمكنك إنشاء مشغل جدول للبنية الأساسية. يعمل المشغل على تشغيل البنية الأساسية وفق الجدول الزمني المحدد، مثل كل ساعة أو يوميًا. هنا تقوم بتعيين المشغل للتشغيل كل دقيقة حتى تاريخ الانتهاء المُحدد.

  1. انتقل إلى علامة التبويب Author على اليسار أعلى علامة تبويب جهاز العرض.

  2. انتقل إلى البنية الأساسية لبرنامج ربط العمليات التجارية الخاصة بك، وحدد Trigger على شريط الأدوات، وحدد New/Edit.

  3. في مربع الحوار إضافة مشغلات ، حدد اختيار مشغل وحدد + جديد.

  4. في نافذة New Trigger ، اتبع الخطوات التالية:

    أ. ضمن Name، أدخل RunEveryMinute.

    ب. تحديث تاريخ البدء للمشغل. إذا كان التاريخ سابقًا للتاريخ الحالي، فسيبدأ المشغل في النفاذ بمجرد نشر التغيير.

    جـ. ضمن المنطقة الزمنية، حدد القائمة المنسدلة.

    د. تعيين التكرار إلى كل دقيقة (دقائق) واحدة.

    هـ. حدد خانة الاختيار تحديد تاريخ انتهاء، وقم بتحديث جزء End On ليكون بعد التاريخ الحالي بدقائق قليلة. يتم تنشيط المشغل فقط بعد نشر التغييرات. إذا قمت بتعيينه إلى بضع دقائق فقط عن بعضها البعض، وكنت لا تنشر ذلك بحلول ذلك الوقت، فأنت لا ترى تشغيل المشغل.

    و. بالنسبة إلى الخيار المنشط ، حدد نعم.

    ز. حدد موافق.

    هام

    تقترن التكلفة بكل تشغيل للبنية الأساسية، لذا قم بتعيين تاريخ الانتهاء بشكل مناسب.

  5. في صفحة تحرير المشغل ، راجع التحذير، ثم حدد حفظ. لا تأخذ البنية الأساسية في هذا المثال أي معلمات.

  6. حدد نشر الكل لنشر التغيير.

  7. انتقل إلى علامة التبويب Monitor على اليسار لمشاهدة تشغيل البنية الأساسية لبرنامج ربط العمليات التجارية المشغلة.

    تشغيل البنية الأساسية لبرنامج ربط العمليات التجارية المشغلة

  8. للتبديل من طريقة عرض Pipeline Runs إلى طريقة عرض Trigger Runs ، حدد Trigger Runs على الجانب الأيمن من النافذة.

  9. ترى المشغل يعمل في قائمة.

  10. تحقق من إدراج صفين في الدقيقة (لكل تشغيل مسار) في جدول emp حتى وقت الانتهاء المحدد.

تعطيل المشغل

لتعطيل مشغل كل دقيقة قمت بإنشائه، اتبع الخطوات التالية:

  1. حدد جزء Manage على الجانب الأيسر.

  2. ضمن Author حدد Triggers.

  3. مرر مؤشر الماوس فوق مشغل RunEveryMinute الذي أنشأته.

    1. حدد الزر Stop لتعطيل المشغل من التشغيل.
    2. حدد الزر Delete لتعطيل المشغل وحذفه.
  4. حدد نشر الكل لحفظ التغييرات.

يقوم التدفق الموجود في هذه العينة بنسخ البيانات من موقع إلى آخر في مخزن الكائنات الثنائية كبيرة الحجم. لقد تعرفت على كيفية:

  • إنشاء data factory.
  • كيفية إنشاء التدفق الأساسي من خلال نشاط النسخ.
  • اختبار تشغيل التدفقات.
  • تشغيل البنية الأساسية يدويًا.
  • تشغيل البنية الأساسية وفقًا لجدول زمني.
  • مراقبة تشغيل التدفق والنشاط.
  • تعطيل المشغل المجدول أو حذفه.

تقدم إلى البرنامج التعليمي التالي لمعرفة كيفية نسخ البيانات من الموقع إلى السحابة:

لمزيد من المعلومات حول نسخ البيانات من أو إلى Azure Blob Storage وقاعدة بيانات Azure SQL، راجع أدلة الموصل هذه: