المسارات والأنشطة في Azure Data Factory وAzure Synapse Analytics

ينطبق على:Azure Data Factory Azure Synapse Analytics

تلميح

جرب Data Factory في Microsoft Fabric، وهو حل تحليلي متكامل للمؤسسات. يغطي Microsoft Fabric كل شيء بدءا من حركة البيانات إلى علم البيانات والتحليلات في الوقت الحقيقي والمعلومات المهنية وإعداد التقارير. تعرف على كيفية بدء إصدار تجريبي جديد مجانا!

هام

سينتهي دعم Azure التعلم الآلي Studio (الكلاسيكي) في 31 أغسطس 2024. نوصي بالانتقال إلى Azure التعلم الآلي بحلول ذلك التاريخ.

اعتبارا من 1 ديسمبر 2021، لا يمكنك إنشاء موارد جديدة التعلم الآلي Studio (كلاسيكي) (مساحة العمل وخطة خدمة الويب). حتى 31 أغسطس 2024، يمكنك الاستمرار في استخدام تجارب التعلم الآلي Studio (الكلاسيكية) وخدمات الويب الحالية. لمزيد من المعلومات، راجع:

يتم إيقاف وثائق التعلم الآلي Studio (الكلاسيكي) وقد لا يتم تحديثها في المستقبل.

تساعدك هذه المقالة على فهم المسارات والأنشطة في Azure Data Factory وAzure Synapse Analytics واستخدامها لإنشاء مهام سير عمل تعتمد على البيانات من طرف إلى طرف لسيناريوهات حركة البيانات ومعالجة البيانات.

نظرة عامة

قد يحتوي مصنع البيانات أو مساحة عمل Synapse على مسار واحد أو أكثر. المسار هو تجميع منطقي للأنشطة التي تقوم معًا بتنفيذ المهمة. على سبيل المثال، يمكن أن يحتوي المسار على مجموعة من الأنشطة التي تستوعب بيانات السجل وتنظيفها، ثم تبدأ بتعيين تدفق البيانات لتحليل بيانات السجل. ويتيح لك المسار إمكانية إدارة الأنشطة كمجموعة بدلاً من كل نشاط على حدة. ويمكنك نشر وجدولة المسار بدلاً من كل نشاط على حدة.

تحدد الأنشطة في المسار الإجراءات التي يجب تأديتها على بياناتك. على سبيل المثال، يمكنك استخدام نشاط نسخ لنسخ البيانات من SQL Server إلى Azure Blob Storage. بعد ذلك، استخدم نشاط تدفق البيانات أو نشاط دفتر بيانات Databricks لمعالجة البيانات وتحويلها من تخزين البيانات الثنائية الكبيرة إلى تجمع Azure Synapse Analytics الذي يتم إنشاؤه على رأسها حلول إعداد تقارير ذكاء الأعمال.

يحتوي Azure Data Factory وAzure Synapse Analytics على ثلاث مجموعات من الأنشطة: أنشطة حركة البيانات وأنشطة تحويل البيانات وأنشطة التحكم. يمكن أن يستغرق النشاط صفرًا أو أكثر من مجموعات بياناتالإدخال، وينتج مجموعة بيانات إخراج واحدة أو أكثر. يوضح الرسم التخطيطي التالي العلاقة بين المسار والنشاط ومجموعة البيانات:

العلاقة بين مجموعة البيانات والنشاط والمسار

تمثل مجموعة بيانات الإدخال إدخال نشاط في المسار وتمثل مجموعة بيانات الإخراج إخراج النشاط. تعمل مجموعات البيانات على تعريف البيانات داخل مخازن بيانات مختلفة، مثل الجداول والملفات والمجلدات والمستندات. بعد إنشاء مجموعة بيانات، يمكنك استخدامها مع الأنشطة في المسار. على سبيل المثال، مجموعة بيانات يمكن أن تكون مجموعة بيانات إدخال/إخراج لنشاط نسخ أو نشاط HDInsightHive. لمزيدٍ من المعلومات حول مجموعات البيانات، راجع مقالةمجموعات البيانات في Azure Data Factory.

إشعار

هناك حد مبدئي افتراضي يبلغ 80 نشاطا كحد أقصى لكل مسار، والذي يتضمن الأنشطة الداخلية للحاويات.

أنشطة حركة البيانات

يقوم نشاط النسخ بنسخ البيانات من Data Factory مدعوم إلى مخزن بيانات مخزن معتمد. يدعم Data Factory مخازن البيانات المدرجة في الجدول في هذا القسم. يمكن كتابة البيانات من أي مصدر إلى أي متلقي.

لمزيد من المعلومات، راجع مقالة نسخ النشاط - نظرة عامة.

انقر فوق مخزن بيانات لمعرفة كيفية نسخ البيانات من وإلى ذلك المتجر.

الفئة مخزن البيانات معتمد كمصدر معتمدة كمتلقي مدعومة بواسطة Azure IR مدعومة بواسطة وقت تشغيل التكامل المستضاف ذاتياً
Azure تخزين Azure Blob
  فهرس Azure الذكاء الاصطناعي Search
  Azure Cosmos DB ل NoSQL
  Azure Cosmos DB ل MongoDB
  Azure Data Explorer
  Azure Data Lake Storage الجيل الأول
  Azure Data Lake Storage Gen2
  قاعدة بيانات Azure ل MariaDB
  Azure Database for MySQL
  Azure Database for PostgreSQL
  Azure Databricks Delta Lake
  ملفات Azure
  قاعدة بيانات Azure SQL
  مثيل Azure SQL المدار
  Azure Synapse Analytics
  تخزين Azure Table
قاعدة بيانات Amazon RDS ل Oracle
  Amazon RDS ل SQL Server
  Amazon Redshift
  DB2
  حفر
  Google BigQuery
  بلون أخضر
  HBase
  خليه
  Apache Impala
  Informix
  MariaDB
  Microsoft Access
  MySQL
  Netezza
  Oracle
  فينيكس
  PostgreSQL
  المعزوفه
  SAP Business Warehouse عبر Open Hub
  SAP Business Warehouse عبر MDX
  SAP HANA المتلقي مدعوم فقط مع موصل ODBC وبرنامج تشغيل SAP Hana ODBC
  جدول SAP
  البلورة الثلجية
  شراره
  SQL Server
  Sybase
  Teradata
  Vertica
NoSQL Cassandra
  Couchbase (معاينة)
  MongoDB
  MongoDB Atlas
ملف Amazon S3
  التخزين المتوافق مع Amazon S3
  نظام الملفات
  Ftp
  Google Cloud Storage
  HDFS
  Oracle Cloud Storage
  SFTP
البروتوكول العام HTTP عام
  Generic OData
  Generic ODBC
  REST عام
الخدمات والتطبيقات Amazon Marketplace Web Service
  Concur (معاينة)
  Dataverse
  Dynamics 365
  Dynamics AX
  Dynamics CRM
  Google AdWords
  HubSpot
  جيره
  Magento (معاينة)
  Marketo (معاينة)
  Microsoft 365
  Oracle Eloqua (معاينة)
  Oracle Responsys (معاينة)
  Oracle Service Cloud (معاينة)
  PayPal (معاينة)
  QuickBooks (معاينة)
  Salesforce
  سحابة خدمة Salesforce
  Salesforce Marketing Cloud
  سحابة SAP للعميل (C4C)
  SAP ECC
  ServiceNow
قائمة SharePoint Online
  Shopify (معاينة)
  Square (معاينة)
  جدول الويب (جدول HTML)
  Xero
  Zoho (معاينة)

إشعار

إذا تم وضع علامة معاينة على موصل، يمكنك تجربته وإرسال ملاحظاتك إلينا. إذا كنت تريد أن تأخذ تبعية على موصلات المعاينة في الحل الخاص بك، فاتصل بدعم Azure.

أنشطة تحويل البيانات

يدعم Azure Data Factory وAzure Synapse Analytics أنشطة التحويل التالية التي يمكن إضافتها إما بشكل فردي، أو مرتبطة بنشاط آخر.

لمزيد من المعلومات، راجع مقالة أنشطة تحويل البيانات.

نشاط تحويل البيانات بيئة الحساب
تدفق البيانات مجموعات Apache Spark المُدارة بواسطة Azure Data Factory
Azure Function دالات Azure
خليه HDInsight [Hadoop]
خنزير HDInsight [Hadoop]
MapReduce HDInsight [Hadoop]
دفق Hadoop HDInsight [Hadoop]
شراره HDInsight [Hadoop]
أنشطة ML Studio (الكلاسيكية): تنفيذ الدفعة وتحديث المورد جهاز Azure الافتراضي
الإجراء المخزن SQL Azure أو تحليلات Azure Synapse أو SQL Server
U-SQL Azure Data Lake Analytics
نشاط مخصص Azure Batch
دفتر ملاحظات Databricks Azure Databricks
نشاط Databricks Jar Azure Databricks
نشاط Databricks Python Azure Databricks

أنشطة التحكم في التدفق

يتم دعم أنشطة تدفق التحكم التالية:

نشاط التحكم ‏‏الوصف
متغير إلحاق إضافة قيمة إلى متغير صفيف موجود.
تنفيذ مسار يسمح نشاط تنفيذ المسار لأي مسار Data Factory أو Synapse باستدعاء مسار آخر.
عامل التصفية تطبيق تعبير عامل تصفية على صفيف الإدخال
لكل يحدد نشاط ForEach تدفق عنصر تحكم مكرر في المسار الخاص بك. يتم استخدام هذا النشاط للتكرار عبر مجموعة، وهو ينفّذ الأنشطة المحددة في تكرار حلقي. تنفيذ حلقة هذا النشاط مشابه لبنية تكرار Foreach في لغات البرمجة.
للحصول على بيانات تعريف يمكن استخدام نشاط GetMetadata لاسترداد البيانات الوصفية لأي بيانات في Data Factory أو مسار Synapse.
نشاط If Condition يمكن استخدام If Condition لإنشاء إصدارات فرعية بناءً على شرط يتم تقييمه إلى صواب أو خطأ. يوفر نشاط If Condition الوظيفة نفسها التي توفرها العبارة الشرطية في لغات الكمبيوتر. حيث يقيّم مجموعة من الأنشطة عند تقييم الشرط إلى true ومجموعة أخرى من الأنشطة عند تقييم الشرط إلى false..
نشاط البحث يمكن استخدام نشاط Lookup لقراءة أو البحث عن سجل / اسم جدول / قيمة من أي مصدر خارجي. ويمكن الإشارة إلى هذا الناتج بواسطة الأنشطة اللاحقة أيضاً.
تعيين متغير تعيين قيمة متغير موجود.
حتى النشاط تنفيذ التكرار الحلقي Do-Until المماثل لبنية التكرارات الحلقية Do-Until في لغات الكمبيوتر. إنه ينفذ مجموعة من الأنشطة في تكرار حلقي حتى يتم تقييم الشرط المقترن بالنشاط إلى صواب. يمكنك تحديد قيمة مهلة للنشاط Until.
نشاط التحقق من الصحة تأكد من استمرار تنفيذ المسار فقط في حالة وجود مجموعة بيانات مرجعية، أو تفي بمعايير محددة، أو تم الوصول إلى المهلة المحددة.
نشاط الانتظار عند استخدام نشاط انتظار في مسار، فإن المسار ينتظر الوقت المحدد قبل متابعة تنفيذ الأنشطة اللاحقة.
نشاط الويب يمكن استخدام نشاط الويب لاستدعاء نقطة نهاية REST مخصصة من مسار. يمكنك تمرير مجموعات البيانات والخدمات المرتبطة التي سيتم استهلاكها والوصول إليها عن طريق النشاط.
نشاط الإخطارات على الويب باستخدام نشاط الإخطارات على الويب، يمكنك الاتصال بنقطة نهاية، ثم تمرير عنوان URL لمعاودة الاتصال. ينتظر تشغيل المسار استدعاء رد الاتصال قبل المتابعة إلى النشاط التالي.

إنشاء البنية الأساسية لبرنامج ربط العمليات التجارية باستخدام واجهة المستخدم

لإنشاء البنية الأساسية لبرنامج ربط العمليات التجارية جديدة، انتقل إلى علامة التبويب Author في Data Factory Studio (المتمثل في أيقونة القلم الرصاص)، ثم انقر فوق علامة الجمع واختر Pipeline من القائمة، ثم Pipeline مرة أخرى من القائمة الفرعية.

يوضح الخطوات لإنشاء البنية الأساسية لبرنامج ربط العمليات التجارية جديدة باستخدام Azure Data Factory Studio.

سيعرض Data Factory محرّر البنية الأساسية لبرنامج ربط العمليات التجارية حيث يمكنك العثور على:

  1. جميع الأنشطة التي يمكن استخدامها داخل البنية الأساسية لبرنامج ربط العمليات التجارية.
  2. لوحة محرّر البنية الأساسية لبرنامج ربط العمليات التجارية، حيث ستظهر الأنشطة عند إضافتها إلى البنية الأساسية لبرنامج ربط العمليات التجارية.
  3. جزء تكوينات البنية الأساسية لبرنامج ربط العمليات التجارية، بما في ذلك المعلّمات والمتغيرات والإعدادات العامة والإخراج.
  4. جزء خصائص البنية الأساسية لبرنامج ربط العمليات التجارية، حيث يمكن تكوين اسم البنية الأساسية لبرنامج ربط العمليات التجارية والوصف الاختياري والتعليقات التوضيحية. سيوضح هذا الجزء أيضًا أي عناصر ذات صلة بالبنية الأساسية لبرنامج ربط العمليات التجارية داخل Data Factory.

يوضّح جزء محرر البنية الأساسية لبرنامج ربط العمليات التجارية في استوديو Azure Data Factory لكل الأقسام الموصوفة أعلاه.

Pipeline JSON

هنا هو كيف يتم تعريف مسار في شكل JSON:

{
    "name": "PipelineName",
    "properties":
    {
        "description": "pipeline description",
        "activities":
        [
        ],
        "parameters": {
        },
        "concurrency": <your max pipeline concurrency>,
        "annotations": [
        ]
    }
}
علامة ‏‏الوصف النوع مطلوب
الاسم اسم المسار. حدد اسمًا يمثل الإجراء الذي ينفذه المسار.
  • الحد الأقصى لعدد الأحرف: 140
  • يجب أن تبدأ برقم حرف أو بشرطة سفلية (_)
  • الأحرف التالية غير مسموح بها: ".", "+", "?", "/", "<","">,"*"," ٪"," &":","
السلسلة‬ ‏‏نعم‬
الوصف حدد النص الذي يصف فيما يستخدم المسار. السلسلة‬ لا
الأنشطة يمكن أن يكون بقسم الأنشطة نشاط أو أكثر من نشاط محدد داخله. راجع القسم Activity JSON للحصول على تفاصيل حول عنصر الأنشطة JSON. صفيف ‏‏نعم‬
المعلمات قد يحتوي قسم المعلمات على معلمة واحدة أو أكثر محددة داخل المسار، مما يجعل المسار مرناً لإعادة الاستخدام. List لا
التزامن الحد الأقصى لعدد عمليات التشغيل المتزامنة التي قد يمتلكها المسار. بشكل افتراضي، لا يوجد حد أقصى. إذا تم الوصول إلى حد التزامن، يتم وضع تشغيل مسار إضافي في قائمة الانتظار حتى تكتمل المسارات السابقة الرقم‬ لا
التعليقات التوضيحية قائمة العلامات المقترنة بالمسار صفيف لا

Activity JSON

يمكن أن يكون بقسم الأنشطة نشاط أو أكثر من نشاط محدد داخله. هناك نوعان من الأنشطة الرئيسية: أنشطة التنفيذ وأنشطة الرقابة.

أنشطة التنفيذ

تتضمن أنشطة التنفيذ حركة البيانات وأنشطة تحويل البيانات. توجد به البنية رفيعة المستوى التالية:

{
    "name": "Execution Activity Name",
    "description": "description",
    "type": "<ActivityType>",
    "typeProperties":
    {
    },
    "linkedServiceName": "MyLinkedService",
    "policy":
    {
    },
    "dependsOn":
    {
    }
}

يصف الجدول التالي الخصائص في تعريف نشاط JSON :

علامة ‏‏الوصف مطلوب
الاسم اسم النشاط. حدد اسمًا يمثل الإجراء الذي ينفذه المسار.
  • الحد الأقصى لعدد الأحرف: 55
  • يجب أن تبدأ برقم حرف أو بشرطة سفلية (_)
  • الأحرف التالية غير مسموح بها: ".", "+", "?", "/", "<","">,"*"," ٪"," &":","
‏‏نعم‬
الوصف نص يصف النشاط أو الغرض من استخدامه ‏‏نعم‬
النوع نوع النشاط. راجع أقسام أنشطة حركة البيانات وأنشطة تحويل البيانات وأنشطة التحكم لأنواع مختلفة من الأنشطة. ‏‏نعم‬
linkedServiceName اسم الخدمة المرتبطة المستخدمة عن طريق النشاط.

قد يتطلب النشاط تحديد الخدمة المرتبطة التي ترتبط ببيئة الحوسبة المطلوبة.
نعم لنشاط HDInsight، ML Studio (كلاسيكي) نشاط تسجيل الدُفعات، نشاط إجراء مخزّن.

لا للآخرين
typeProperties الخصائص في قسم typeProperties تعتمد على كل نوع نشاط. للاطلاع على خصائص النوع لنشاط، انقر فوق الارتباطات إلى النشاط في القسم السابق. لا
policy النُهج التي تؤثر في سلوك وقت التشغيل للنشاط. تتضمن هذه الخاصية سلوك انتهاء المهلة وإعادة المحاولة. إذا لم يتم تحديده، يتم استخدام القيم الافتراضية. لمزيد من المعلومات، راجع قسم نهج النشاط. لا
dependsOn يتم استخدام هذه الخاصية لتعريف تبعيات النشاط، وكيف تعتمد الأنشطة اللاحقة على الأنشطة السابقة. لمزيد من المعلومات، راجع تبعية النشاط لا

نهج النشاط

تؤثر النهج على سلوك وقت التشغيل للنشاط، ما يمنح خيارات التكوين. تتوفر نهج النشاط فقط لأنشطة التنفيذ.

تعريف JSON لنهج النشاط

{
    "name": "MyPipelineName",
    "properties": {
      "activities": [
        {
          "name": "MyCopyBlobtoSqlActivity",
          "type": "Copy",
          "typeProperties": {
            ...
          },
         "policy": {
            "timeout": "00:10:00",
            "retry": 1,
            "retryIntervalInSeconds": 60,
            "secureOutput": true
         }
        }
      ],
        "parameters": {
           ...
        }
    }
}
اسم JSON ‏‏الوصف القيم المسموح بها المطلوب
المهلة تحديد المهلة لتشغيل النشاط. الفترة الزمنية ‏‏لا. المهلة الافتراضية هي 12 ساعة، كحد أدنى 10 دقائق.
إعادة المحاولة الحد الأقصى لمرات إعادة المحاولة Integer ‏‏لا. الافتراضي هو 0
retryIntervalInSeconds التأخير بين محاولات إعادة المحاولة بالثواني Integer ‏‏لا. الافتراضي هو 30 ثانية
secureOutput عند التعيين على "صحيح"، يتم اعتبار الإخراج من النشاط آمناً ولا يتم تسجيله للمراقبة. Boolean ‏‏لا. الافتراضي خطأ.

نشاط التحكم

أنشطة التحكم لها بنية المستوى الأعلى التالية:

{
    "name": "Control Activity Name",
    "description": "description",
    "type": "<ActivityType>",
    "typeProperties":
    {
    },
    "dependsOn":
    {
    }
}
علامة ‏‏الوصف مطلوب
الاسم اسم النشاط. حدد اسمًا يمثل الإجراء الذي ينفذه المسار.
  • الحد الأقصى لعدد الأحرف: 55
  • يجب أن يبدأ برقم حرف أو شرطة سفلية (_)
  • الأحرف التالية غير مسموح بها: ".", "+", "?", "/", "<","">,"*"," ٪"," &":","
‏‏نعم‬
    الوصف نص يصف النشاط أو الغرض من استخدامه ‏‏نعم‬
    النوع نوع النشاط. راجع أقسام أنشطة حركة البيانات وأنشطة تحويل البيانات وأنشطة التحكم لأنواع مختلفة من الأنشطة. ‏‏نعم‬
    typeProperties الخصائص في قسم typeProperties تعتمد على كل نوع نشاط. للاطلاع على خصائص النوع لنشاط، انقر فوق الارتباطات إلى النشاط في القسم السابق. لا
    dependsOn تُستخدم هذه الخاصية لتحديد تبعية النشاط، وكيف تعتمد الأنشطة اللاحقة على الأنشطة السابقة. لمزيد من المعلومات، راجع تبعية النشاط. لا

    تبعية النشاط.

    تحدد تبعية النشاط كيف تعتمد الأنشطة اللاحقة على الأنشطة السابقة، وتحدد شرط الاستمرار في تنفيذ المهمة التالية. قد يعتمد النشاط على نشاط واحد أو عدة أنشطة سابقة بشروط تبعية مختلفة.

    شروط التبعية المختلفة هي: ناجح، فاشل، تم تخطيه، مكتمل.

    على سبيل المثال، إذا كان أحد المسارات يحتوي على النشاط A -> النشاط B، فإن السيناريوهات المختلفة التي يمكن أن تحدث هي:

    • النشاط B لديه حالة تبعية على النشاط A مع ناجح: لا يتم تشغيل النشاط B إلا إذا كان النشاط A بحالة نهائية وهو "ناجح"
    • النشاط B لديه حالة تبعية على النشاط A مع فاشل: لا يتم تشغيل النشاط B إلا إذا كان النشاط A بحالة نهائية وهو "فاشل"
    • النشاط B لديه حالة تبعية على النشاط A مع مكتمل: لا يتم تشغيل النشاط B إلا إذا كان النشاط A بحالة نهائية وهو "ناجح" أو "فاشل"
    • النشاط B لديه حالة تبعية على النشاط A مع تم التخطي: لا يتم تشغيل النشاط B إلا إذا كان النشاط A بحالة نهائية وهو "تم التخطي". يحدث التخطي في سيناريو النشاط X -> النشاط Y -> النشاط Z، حيث يتم تشغيل كل نشاط فقط في حالة نجاح النشاط السابق. إذا فشل النشاط X، فسيكون النشاط Y بحالة "تم التخطي" لأنه لا يتم تنفيذه مطلقاً. وبالمثل، فإن النشاط Z له حالة "تم التخطي" أيضاً.

    مثال: يعتمد النشاط 2 على نجاح النشاط 1

    {
        "name": "PipelineName",
        "properties":
        {
            "description": "pipeline description",
            "activities": [
             {
                "name": "MyFirstActivity",
                "type": "Copy",
                "typeProperties": {
                },
                "linkedServiceName": {
                }
            },
            {
                "name": "MySecondActivity",
                "type": "Copy",
                "typeProperties": {
                },
                "linkedServiceName": {
                },
                "dependsOn": [
                {
                    "activity": "MyFirstActivity",
                    "dependencyConditions": [
                        "Succeeded"
                    ]
                }
              ]
            }
          ],
          "parameters": {
           }
        }
    }
    
    

    نموذج البنية الأساسية لبرنامج ربط العمليات التجارية للنسخ

    في نموذج البنية الأساسية لبرنامج ربط العمليات التجارية التالي، هناك نشاط واحد من نوع نسخ في قسم الأنشطة. في هذا النموذج، ينسخ نشاط النسخ البيانات من تخزين Azure Blob إلى قاعدة بيانات في Azure SQL Database.

    {
      "name": "CopyPipeline",
      "properties": {
        "description": "Copy data from a blob to Azure SQL table",
        "activities": [
          {
            "name": "CopyFromBlobToSQL",
            "type": "Copy",
            "inputs": [
              {
                "name": "InputDataset"
              }
            ],
            "outputs": [
              {
                "name": "OutputDataset"
              }
            ],
            "typeProperties": {
              "source": {
                "type": "BlobSource"
              },
              "sink": {
                "type": "SqlSink",
                "writeBatchSize": 10000,
                "writeBatchTimeout": "60:00:00"
              }
            },
            "policy": {
              "retry": 2,
              "timeout": "01:00:00"
            }
          }
        ]
      }
    }
    

    لاحظ النقاط التالية:

    • في قسم الأنشطة، هناك نشاط واحد فقط يتم تعيين النوع الخاص به إلى Copy.
    • يتم تعيين الإدخال للنشاط إلى InputDataset، بينما يتم تعيين الإخراج للنشاط إلى OutputDataset. راجع مقالة مجموعات البيانات لتعريف مجموعات البيانات في JSON.
    • في القسم typeProperties، يتم تحديد BlobSource كنوع للمصدر، ويتم تحديد SqlSink كنوع لموضع التلقي. في القسمأنشطة حركة البيانات، انقر فوق مخزن البيانات الذي تريد استخدامه كمصدر أو متلقي للتعرف على المزيد حول نقل البيانات إلى/من مخزن البيانات هذا.

    للحصول على إرشادات كاملة حول إنشاء المسار هذا، راجع التشغيل السريع: إنشاء مصنع بيانات.

    نموذج مسار التحويل

    في نموذج المسار التالي، يوجد نشاط واحد من النوع HDInsightHive في قسم الأنشطة. في هذه العينة، يقومنشاط HDInsight Hive بتحويل البيانات من تخزين Azure Blob عن طريق تشغيل ملف برنامج نصي لـ Hive على مجموعة Azure HDInsight Hadoop.

    {
        "name": "TransformPipeline",
        "properties": {
            "description": "My first Azure Data Factory pipeline",
            "activities": [
                {
                    "type": "HDInsightHive",
                    "typeProperties": {
                        "scriptPath": "adfgetstarted/script/partitionweblogs.hql",
                        "scriptLinkedService": "AzureStorageLinkedService",
                        "defines": {
                            "inputtable": "wasb://adfgetstarted@<storageaccountname>.blob.core.windows.net/inputdata",
                            "partitionedtable": "wasb://adfgetstarted@<storageaccountname>.blob.core.windows.net/partitioneddata"
                        }
                    },
                    "inputs": [
                        {
                            "name": "AzureBlobInput"
                        }
                    ],
                    "outputs": [
                        {
                            "name": "AzureBlobOutput"
                        }
                    ],
                    "policy": {
                        "retry": 3
                    },
                    "name": "RunSampleHiveActivity",
                    "linkedServiceName": "HDInsightOnDemandLinkedService"
                }
            ]
        }
    }
    

    لاحظ النقاط التالية:

    • في قسم الأنشطة، هناك نشاط واحد فقط يتم تعيين نوع إلى HDInsightHive.
    • يتم تخزين ملف البرنامج النصي partitionweblogs.hql، في حساب تخزين Azure (المحدد بواسطة scriptLinkedService، المسمى AzureStorageLinkedService)، وفي مجلد البرنامج النصي في الحاوية adfgetstarted.
    • definesيستخدم القسم لتحديد إعدادات وقت التشغيل التي يتم تمريرها إلى البرنامج النصي للخلية كقيم تكوين الخلية (على سبيل المثال، ${hiveconf:inputtable}، ${hiveconf:partitionedtable}).

    يختلف قسم typeProperties لكل نشاط تحويل. للتعرف على خصائص النوع المعتمدة لنشاط التحويل، انقر فوق نشاط التحويل في أنشطة تحويل البيانات.

    للحصول على إرشادات كاملة حول إنشاء هذا المسار، راجع البرنامج التعليمي: تحويل البيانات باستخدام Spark.

    أنشطة متعددة في مسار

    يحتوي مسارا العينة السابقان على نشاط واحد فقط فيهما. يمكن أن يكون لديك أكثر من نشاط واحد في مسار. إذا كان لديك أنشطة متعددة في البنية الأساسية لبرنامج ربط العمليات التجارية والأنشطة اللاحقة لا تعتمد على الأنشطة السابقة، فقد يتم تشغيل الأنشطة بالتوازي.

    يمكنك ربط نشاطين باستخدام تبعية النشاط، والتي تحدد كيفية اعتماد الأنشطة اللاحقة على الأنشطة السابقة، وتحديد شرط الاستمرار في تنفيذ المهمة التالية. قد يعتمد النشاط على نشاط واحد أو أكثر من الأنشطة السابقة بشروط تبعية مختلفة.

    جدولة المسارات

    يتم جدولة المسارات بواسطة المشغلات. هناك أنواع مختلفة من المشغلات (مُشغل المجدول، والذي يسمح بتشغيل المسارات وفقاً لجدول زمني على مدار الساعة، بالإضافة إلى المشغل اليدوي، الذي يؤدي إلى تشغيل المسارات عند الطلب). لمزيد من المعلومات حول المشغلات، راجع مقالة تنفيذ المسارات والمشغلات.

    لكي يبدأ المشغل تشغيل المسارات، يجب عليك تضمين مرجع المسارات لمسار معين في تعريف المشغل. المسارات والمشغلات لها علاقة e-n-m. قد تؤدي المشغلات المتعددة إلى بدء مسار واحد، وقد يطلق نفس المشغل مسارات متعددة. بمجرد تحديد المشغل، يجب أن تبدأ المشغل ليبدأ في تشغيل المسار. لمزيد من المعلومات حول المشغلات، راجع مقالة تنفيذ المسارات والمشغلات.

    على سبيل المثال، لنفترض أن لديك مشغل Scheduler، "Trigger A"، الذي أرغب في بدء تشغيله، "MyCopyPipeline". يمكنك تعريف المُشغل، كما هو موضح في المثال التالي:

    تعريف مشغل A

    {
      "name": "TriggerA",
      "properties": {
        "type": "ScheduleTrigger",
        "typeProperties": {
          ...
          }
        },
        "pipeline": {
          "pipelineReference": {
            "type": "PipelineReference",
            "referenceName": "MyCopyPipeline"
          },
          "parameters": {
            "copySourceName": "FileSource"
          }
        }
      }
    }
    

    راجع البرامج التعليمية التالية للحصول على إرشادات خطوة بخطوة لإنشاء مسارات مع الأنشطة:

    كيفية تحقيق CI/CD (التكامل والتسليم المستمر) باستخدام Azure Data Factory