مجموعات البيانات في مصنع بيانات Azure وتحليلات Azure Synapse

ينطبق على:Azure Data Factory Azure Synapse Analytics

تلميح

جرب Data Factory في Microsoft Fabric، وهو حل تحليلي متكامل للمؤسسات. يغطي Microsoft Fabric كل شيء بدءا من حركة البيانات إلى علم البيانات والتحليلات في الوقت الحقيقي والمعلومات المهنية وإعداد التقارير. تعرف على كيفية بدء إصدار تجريبي جديد مجانا!

توضح هذه المقالة ماهية مجموعات البيانات، وكيفية تعريفها بتنسيق JSON، وكيفية استخدامها في Azure Data Factory والبنيات الأساسية لبرنامج ربط العمليات التجارية Synapse.

إذا كنت مستخدمًا جديدًا لـ Data Factory، فراجع مقدمة إلى Azure Data Factory للحصول على نظرة عامة. للمزيد من المعلومات حول Azure Synapse، راجع ما هو Azure Synapse

نظرة عامة

قد يحتوي Azure Data Factory أو مساحة عمل Synapse على بنية أساسية لبرنامج ربط العمليات التجارية واحدة أو أكثر. المسار هو تجميع منطقي للأنشطة التي تقوم معًا بتنفيذ المهمة. تحدد الأنشطة في المسار الإجراءات التي يجب تأديتها على بياناتك. الآن، مجموعة البيانات هي طريقة عرض مسماة للبيانات تشير ببساطة إلى البيانات التي تريد استخدامها في أنشطتك كمدخلات ومخرجات أو مراجع. تعمل مجموعات البيانات على تعريف البيانات داخل مخازن بيانات مختلفة، مثل الجداول والملفات والمجلدات والمستندات. على سبيل المثال، تحدد مجموعة بيانات Azure Blob حاوية ومجلد الكائنات الثنائية كبيرة الحجم في Blob Storage الذي يجب أن يقرأ منها النشاط البيانات.

قبل إنشاء مجموعة بيانات، يجب إنشاء خدمة مرتبطة لربط مخزن البيانات الخاص بك بالخدمة. الخدمات المرتبطة تشبه إلى حد كبير سلاسل الاتصال، التي تحدد معلومات الاتصال اللازمة للخدمة للاتصال بالموارد الخارجية. فكر في الأمر بهذه الطريقة؛ تمثل مجموعة البيانات بنية البيانات داخل مخازن البيانات المرتبطة، وتحدد الخدمة المرتبطة الاتصال بمصدر البيانات. على سبيل المثال، تربط خدمة Azure Storage المرتبطة بحساب التخزين. تمثل مجموعة بيانات Azure Blob حاوية البيانات الثنائية الكبيرة والمجلد الموجود ضمن حساب Azure Storage الذي يحتوي على كتل الإدخال الثنائية الكبيرة المراد معالجتها.

إليك سيناريو عينة. لنسخ البيانات من تخزين Blob إلى قاعدة بيانات SQL، يمكنك إنشاء خدمتين مرتبطتين: تخزين Azure Blob وقاعدة بيانات Azure SQL. بعد ذلك، أنشئ مجموعتي بيانات: مجموعة بيانات نصية محددة (والتي تشير إلى خدمة Azure Blob Storage المرتبطة، على افتراض أن لديك ملفات نصية كمصدر) ومجموعة بيانات Azure SQL Table (التي تشير إلى الخدمة المرتبطة بقاعدة بيانات Azure SQL). تحتوي خدمات تخزين Azure Blob وقاعدة بيانات Azure SQL المرتبطة على سلاسل اتصال تستخدمها الخدمة في وقت التشغيل للاتصال بمخزن Azure وقاعدة بيانات Azure SQL، على التوالي. تحدد مجموعة بيانات النص المحدد حاوية البيانات الثنائية الكبيرة ومجلد البيانات الثنائية الكبيرة الذي يحتوي على blob للإدخال في Blob Storage، إلى جانب الإعدادات المتعلقة بالتنسيق. تحدد مجموعة بيانات Azure SQL Table جدول SQL في قاعدة بيانات SQL التي سيتم نسخ البيانات إليها.

يُظهر الرسم التخطيطي التالي العلاقات بين المسارات والنشاط ومجموعة البيانات والخدمات المرتبطة:

Relationship between pipeline, activity, dataset, linked services

إنشاء مجموعة بيانات بواسطة واجهة المستخدم

لإنشاء مجموعة بيانات باستخدام Azure Data Factory Studio، حدد علامة التبويب «Author» (باستخدام أيقونة القلم الرصاص)، ثم أيقونة علامة الجمع، لاختيار Dataset.

Shows the Author tab of the Azure Data Factory Studio with the new dataset button selected.

سترى نافذة مجموعة البيانات الجديدة لاختيار أي من الموصلات المتوفرة في Azure Data Factory، لإعداد خدمة مرتبطة موجودة أو خدمة جديدة.

Shows the new dataset window where you can choose the type of linked service to any of the supported data factory connectors.

بعد ذلك ستطالب أنت باختيار تنسيق مجموعة البيانات.

Shows the dataset format window allowing you to choose a format for the new dataset.

وأخيرًا، بإمكانك اختيار خدمة مرتبطة موجودة من النوع الذي حددته لمجموعة البيانات، أو إنشاء خدمة جديدة إذا لم تكن محددة بالفعل.

Shows the set properties window where you can choose an existing dataset of the type selected previously, or create a new one.

بمجرد إنشاء مجموعة البيانات، بإمكانك استخدامها داخل أي بنيات أساسية لبرنامج ربط العمليات التجارية في Azure Data Factory.

مجموعة البيانات JSON

يتم تحديد مجموعة البيانات بتنسيق JSON التالي:

{
    "name": "<name of dataset>",
    "properties": {
        "type": "<type of dataset: DelimitedText, AzureSqlTable etc...>",
        "linkedServiceName": {
                "referenceName": "<name of linked service>",
                "type": "LinkedServiceReference",
        },
        "schema":[

        ],
        "typeProperties": {
            "<type specific property>": "<value>",
            "<type specific property 2>": "<value 2>",
        }
    }
}

يصف الجدول التالي الخصائص في JSON أعلاه:

الخاصية الوصف مطلوب
الاسم اسم مجموعة البيانات. راجع قواعد التسمية. ‏‏نعم‬
النوع نوع مجموعة البيانات. حدد أحد الأنواع التي يدعمها مصنع البيانات (على سبيل المثال: DelimitedText، AzureSqlTable).

للحصول على التفاصيل، راجع أنواع مجموعات البيانات.
‏‏نعم‬
Schema يمثل مخطط مجموعة البيانات نوع البيانات المادية وشكلها. لا
typeProperties تختلف خصائص النوع لكل نوع. للحصول على تفاصيل عن الأنواع المدعومة وخصائصها، راجع نوع مجموعة البيانات. ‏‏نعم‬

عند استيراد مخطط مجموعة البيانات، حدد الزر استيراد مخطط واختر الاستيراد من المصدر أو من ملف محلي. في معظم الحالات، ستقوم باستيراد مخطط قاعدة البيانات مباشرة من المصدر. ولكن إذا كان لديك بالفعل ملف مخطط محلي (ملف باركيه أو ملف CSV بعناوين)، فيمكنك توجيه الخدمة لإسناد المخطط إلى هذا الملف.

في نشاط النسخ، يتم استخدام مجموعات البيانات في المصدر والحوض. المخطط المحدد في مجموعة البيانات اختياري كمرجع. إذا كنت تريد تطبيق تعيين العمود/الحقل بين المصدر والمتلقي، فراجع مخطط وتعيين النوع.

في تدفق البيانات، تُستخدم مجموعات البيانات في تحويلات المصدر والبالوعة. تحدد مجموعات البيانات مخططات البيانات الأساسية. إذا كانت بياناتك لا تحتوي على مخطط، فيمكنك استخدام انحراف المخطط لمصدرك وحوضك. تظهر البيانات الوصفية من مجموعات البيانات في تحويل المصدر الخاص بك على أنه إسقاط المصدر. يمثل الإسقاط في تحويل المصدر بيانات تدفق البيانات بأسماء وأنواع محددة.

نوع مجموعة البيانات

تدعم الخدمة العديد من أنواع مجموعات البيانات المختلفة، اعتماداً على مخازن البيانات التي تستخدمها. يمكنك العثور على قائمة مخازن البيانات المدعومة من مقالة نظرة عامة الاتصال أو. حدد مخزن بيانات لمعرفة كيفية إنشاء خدمة مرتبطة ومجموعة بيانات لها.

على سبيل المثال، بالنسبة لمجموعة بيانات نص محدد، يتم تعيين نوع مجموعة البيانات إلى DelimitedText كما هو موضح في نموذج JSON التالي:

{
    "name": "DelimitedTextInput",
    "properties": {
        "linkedServiceName": {
            "referenceName": "AzureBlobStorage",
            "type": "LinkedServiceReference"
        },
        "annotations": [],
        "type": "DelimitedText",
        "typeProperties": {
            "location": {
                "type": "AzureBlobStorageLocation",
                "fileName": "input.log",
                "folderPath": "inputdata",
                "container": "adfgetstarted"
            },
            "columnDelimiter": ",",
            "escapeChar": "\\",
            "quoteChar": "\""
        },
        "schema": []
    }
}

إنشاء datasets

يمكنك إنشاء مجموعات بيانات باستخدام إحدى هذه الأدوات أو SDKs: .NET API وPowerShell وREST API وAzure Resource Manager Template ومدخل Azure

الإصدار الحالي مقابل الإصدار 1 من مجموعات البيانات

فيما يلي بعض الاختلافات بين مجموعات البيانات في الإصدار الحالي من مصنع البيانات (و Azure Synapse) والإصدار 1 من مصنع البيانات القديم:

  • أصبحت الخاصية الخارجية غير مدعومة في الإصدار الحالي. يتم استبداله بمشغل.
  • أصبحت خصائص النهج والتوافر غير مدعومة في الإصدار الحالي. يعتمد وقت البدء للبنية الأساسية لبرنامج ربط العمليات التجارية على المشغلات.
  • مجموعات البيانات المحددة النطاق (مجموعات البيانات المحددة في البنية الأساسية لبرنامج ربط العمليات التجارية) غير مدعومة في الإصدار الحالي.

راجع البرنامج التعليمي التالي للحصول على إرشادات خطوة بخطوة لإنشاء المسارات ومجموعات البيانات باستخدام إحدى هذه الأدوات أو حزم SDK.