نسخ البيانات من أو إلى Azure Data Lake Storage Gen1 باستخدام Azure Data Factory أو Azure Synapse Analytics

2024-06-03

ينطبق على: Azure Data Factory Azure Synapse Analytics

تلميح

جرب Data Factory في Microsoft Fabric، وهو حل تحليلي متكامل للمؤسسات. يغطي Microsoft Fabric كل شيء بدءا من حركة البيانات إلى علم البيانات والتحليلات في الوقت الحقيقي والمعلومات المهنية وإعداد التقارير. تعرف على كيفية بدء إصدار تجريبي جديد مجانا!

توضح هذه المقالة كيفية نسخ البيانات من وإلى Azure Data Lake Storage Gen1. للتعرف على المزيد، اقرأ المقالة التمهيدية حول Azure Data Factory أو Azure Synapse Analytics.

إشعار

تم إيقاف Azure Data Lake Storage Gen1 في 29 فبراير 2024. يرجى الترحيل إلى موصل Azure Data Lake Storage Gen2. راجع هذه المقالة للحصول على إرشادات ترحيل Azure Data Lake Storage Gen1.

القدرات المدعومة

يتم دعم موصل Azure Data Lake Storage Gen1 للإمكانيات التالية:

القدرات المدعومة	IR
Copy activity (المصدر/المتلق)	(1) (2)
تعيين تدفق البيانات (المصدر/ المتلقي)	(1)
نشاط البحث	(1) (2)
نشاط GetMetadata	(1) (2)
حذف النشاط	(1) (2)

① وقت تشغيل تكامل Azure ② وقت تشغيل التكامل المستضاف ذاتيًا

وبوجه خاص، مع هذا الموصل يمكنك:

نسخ الملفات باستخدام إحدى الطرق التالية للمصادقة: خدمة أساسية أو الهويات المدارة لموارد Azure.
نسخ الملفات كما هي أو تحليلها أو إنشائها باستخدام تنسيقات الملفات المدعومة وبرامج ضغط الوسائط وفكها.
الاحتفاظ بقوائم التحكم في الوصول (ACLs) عند النسخ إلى Azure Data Lake Storage Gen2.

هام

إذا نسختَ البيانات باستخدام وقت تشغيل التكامل المستضاف ذاتياً، فكوِّن جدار حماية الشركة للسماح بحركة المرور الصادرة إلى <ADLS account name>.azuredatalakestore.net وlogin.microsoftonline.com/<tenant>/oauth2/token على المنفذ 443. وهذا الأخير هو خدمة Azure Security Token التي تحتاج وقت تشغيل التكامل للاتصال من أجل الحصول على رمز الوصول المميز.

الشروع في العمل

تلميح

للحصول على طريقة استخدام موصل Azure Data Lake Store، راجع تحميل البيانات في مخزن Azure Data Lake.

لتنفيذ نشاط النسخ باستخدام أحد المسارات، يمكنك استخدام إحدى الأدوات أو عدد تطوير البرامج التالية:

إنشاء خدمة مرتبطة إلى Azure Data Lake Storage Gen1 باستخدام واجهة المستخدم

اتبع الخطوات التالية لإنشاء خدمة مرتبطة إلى Azure Data Lake Storage Gen1 في واجهة مستخدم مدخل Azure.

استعرض للوصول إلى علامة تبويب "Manage" في Azure Data Factory أو مساحة عمل Synapse وحدد "Linked Services"، ثم حدد "New":
- Azure Data Factory
- Azure Synapse
ابحث عن Azure Data Lake Storage Gen1 وحدد موصل Azure Data Lake Storage Gen1.
قم بتكوين تفاصيل الخدمة، واختبر الاتصال، وأنشئ الخدمة المرتبطة الجديدة.

تفاصيل تكوين الموصل

توفر المقاطع التالية معلومات حول الخصائص المستخدمة لتعريف الكيانات الخاصة لـ Azure Data Lake Store Gen1.

خصائص الخدمة المرتبطة

الخصائص التالية مدعومة للخدمة المرتبطة لمخزن Azure Data Lake:

الخاصية	الوصف	مطلوب
النوع	يجب تعيين الخاصية `type` إلى AzureDataLakeStore.	‏‏نعم‬
dataLakeStoreUri	معلومات حول حساب مخزن Azure Data Lake. تأخذ هذه المعلومات أحد التنسيقات التالية: `https://[accountname].azuredatalakestore.net/webhdfs/v1` أو `adl://[accountname].azuredatalakestore.net/`.	‏‏نعم‬
subscriptionId	معرف اشتراك Azure الذي ينتمي إليه حساب مخزن Data Lake.	مطلوب للمتلقي
resourceGroupName	اسم مجموعة موارد Azure التي ينتمي إليها حساب مخزن Data Lake.	مطلوب للمتلقي
connectVia	يُستخدم وقت تشغيل التكامل للاتصال بمخزن البيانات. يمكنك استخدام وقت تشغيل تكامل Azure أو تشغيل تكامل مستضاف ذاتياً إذا كان مخزن البيانات موجوداً في شبكة اتصال خاصة. إذا لم يتم تحديد هذه الخاصية، يتم استخدام Azure Integration Runtime الافتراضي.	لا

استخدام المصادقة الرئيسية للخدمة

لاستخدام مصادقة كيان الخدمة، اتبع هذه الخطوات.

تسجيل كيان تطبيق في معرف Microsoft Entra ومنحه حق الوصول إلى Data Lake Store. للحصول على خطوات تفصيلية، راجع مصادقة الخدمة إلى الخدمة. دون القيم التالية التي تستخدمها لتعريف الخدمة المرتبطة:
- مُعرّف التطبيق
- مفتاح التطبيق
- معرف المستأجر
امنح الإذن الصحيح الأساسي للخدمة. وراجع أمثلة حول كيفية عمل الإذن في Data Lake Storage Gen1 من خلال التحكم في الوصول في Azure Data Lake Storage Gen1.
- كمصدر: في مستكشف البيانات> وصول، امنح إذن تنفيذ على الأقل لجميع مجلدات المصدر، بما في ذلك الجذر، تزامناً مع إذن قراءة الملفات المقرر نسخها. ويمكنك اختيار إضافة إلى هذا المجلد وجميع الأطفال للتكرار، وإضافة باعتبارها أذونات وصول وإدخال إذن افتراضي. وليس هناك أي متطلبات خاصة بالتحكم في الوصول على مستوى الحساب (IAM).
- كمتلقٍ: في مستكشف البيانات> وصول، امنح إذن تنفيذ على الأقل لجميع مجلدات المصدر، بما في ذلك الجذر، تزامناً مع إذن كتابة لمجلد المتلقي. ويمكنك اختيار إضافة إلى هذا المجلد وجميع الأطفال للتكرار، وإضافة باعتبارها أذونات وصول وإدخال إذن افتراضي.

تدعم الخصائص التالية:

الخاصية	الوصف	مطلوب
servicePrincipalId	حدد معرّف عميل التطبيق.	‏‏نعم‬
servicePrincipalKey	حدِّد مفتاح التطبيق. وقم بتمييز هذا الحقل باعتباربه `SecureString` لتخزينه بشكل آمن، أو قم بالإشارة إلى أحد الأسرار المخزنة في Azure Key Vault.	‏‏نعم‬
tenant	حدد معلومات المستأجر، مثل اسم المجال أو معرف المستأجر، التي يوجد التطبيق ضمنها. يمكنك استرداده عن طريق تمرير الماوس في الزاوية العلوية اليمنى من مدخل Microsoft Azure.	‏‏نعم‬
azureCloudType	للمصادقة الأساسية للخدمة، حدد نوع بيئة سحابة Azure التي تم تسجيل تطبيق Microsoft Entra إليها. القيم المسموح بها هي AzurePublic، وAzureChina، وAzureUsGovernment، وAzureGermany. يتم استخدام بيئة السحابة للخدمة بشكل افتراضي.	لا

مثال:

{
    "name": "AzureDataLakeStoreLinkedService",
    "properties": {
        "type": "AzureDataLakeStore",
        "typeProperties": {
            "dataLakeStoreUri": "https://<accountname>.azuredatalakestore.net/webhdfs/v1",
            "servicePrincipalId": "<service principal id>",
            "servicePrincipalKey": {
                "type": "SecureString",
                "value": "<service principal key>"
            },
            "tenant": "<tenant info, e.g. microsoft.onmicrosoft.com>",
            "subscriptionId": "<subscription of ADLS>",
            "resourceGroupName": "<resource group of ADLS>"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

استخدام مصادقة الهوية المدارة المعينة من قبل النظام

يمكن أن يقترن مصنع بيانات أو مساحة عمل Synapse بهوية مدارة معينة من قبل النظام، والتي تمثل خدمة المصادقة. ويمكنك استخدام هذه الهوية المدارة المعينة من قبل النظام مباشرةً لمصادقة مخزن Data Lake، على غرار استخدام أساس الخدمة الخاص بك. ويسمح هذا للمورد المعين بالوصول إلى البيانات ونسخها من أو إلى مخزن Data Lake.

لاستخدام مصادقة الهوية المدارة المعينة من قبل النظام، اتبع الخطوات التالية.

استرداد معلومات الهوية المدارة المعينة من قبل النظام عن طريق نسخ قيمة «معرف تطبيق هوية الخدمة» التي تم إنشاؤها مع المصنع أو مساحة عمل Synapse.
منح الوصول إلى الهوية المدارة المعينة من قبل النظام إلى مخزن Data Lake. وراجع أمثلة حول كيفية عمل الإذن في Data Lake Storage Gen1 من خلال التحكم في الوصول في Azure Data Lake Storage Gen1.
- كمصدر: في مستكشف البيانات> وصول، امنح إذن تنفيذ على الأقل لجميع مجلدات المصدر، بما في ذلك الجذر، تزامناً مع إذن قراءة الملفات المقرر نسخها. ويمكنك اختيار إضافة إلى هذا المجلد وجميع الأطفال للتكرار، وإضافة باعتبارها أذونات وصول وإدخال إذن افتراضي. وليس هناك أي متطلبات خاصة بالتحكم في الوصول على مستوى الحساب (IAM).
- كمتلقٍ: في مستكشف البيانات> وصول، امنح إذن تنفيذ على الأقل لجميع مجلدات المصدر، بما في ذلك الجذر، تزامناً مع إذن كتابة لمجلد المتلقي. ويمكنك اختيار إضافة إلى هذا المجلد وجميع الأطفال للتكرار، وإضافة باعتبارها أذونات وصول وإدخال إذن افتراضي.

لا تحتاج إلى تحديد أي خصائص أخرى غير معلومات مخزن Data Lake في الخدمة المرتبطة.

مثال:

{
    "name": "AzureDataLakeStoreLinkedService",
    "properties": {
        "type": "AzureDataLakeStore",
        "typeProperties": {
            "dataLakeStoreUri": "https://<accountname>.azuredatalakestore.net/webhdfs/v1",
            "subscriptionId": "<subscription of ADLS>",
            "resourceGroupName": "<resource group of ADLS>"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

استخدام مصادقة الهوية المدارة المعينة من قبل المستخدم

يمكن تعيين مصنع بيانات باستخدام مصادقة هوية مدارة معينة من قبل المستخدم، واحدة أو متعددة. ويمكنك استخدام هذه الهوية المدارة المعينة من قبل المستخدم لمصادقة تخزين Blob، والتي تسمح بالوصول إلى البيانات ونسخها من أو إلى مخزن Data Lake. لمعرفة المزيد حول الهويات المدارة لموارد Azure، راجع الهويات المدارة لموارد Azure

لاستخدام مصادقة الهوية المدارة المعينة من قبل المستخدم اتبع الخطوات التالية:

إنشاء هوية مدارة معينة من قبل المستخدم، واحدة أو متعددة، ومنح حق الوصول إلى Azure Data Lake. وراجع أمثلة حول كيفية عمل الإذن في Data Lake Storage Gen1 من خلال التحكم في الوصول في Azure Data Lake Storage Gen1.
- كمصدر: في مستكشف البيانات> وصول، امنح إذن تنفيذ على الأقل لجميع مجلدات المصدر، بما في ذلك الجذر، تزامناً مع إذن قراءة الملفات المقرر نسخها. ويمكنك اختيار إضافة إلى هذا المجلد وجميع الأطفال للتكرار، وإضافة باعتبارها أذونات وصول وإدخال إذن افتراضي. وليس هناك أي متطلبات خاصة بالتحكم في الوصول على مستوى الحساب (IAM).
- كمتلقٍ: في مستكشف البيانات> وصول، امنح إذن تنفيذ على الأقل لجميع مجلدات المصدر، بما في ذلك الجذر، تزامناً مع إذن كتابة لمجلد المتلقي. ويمكنك اختيار إضافة إلى هذا المجلد وجميع الأطفال للتكرار، وإضافة باعتبارها أذونات وصول وإدخال إذن افتراضي.
تعيين هوية مدارة معينة من قبل المستخدم، واحدة أو متعددة، إلى مصنع البيانات وإنشاء بيانات اعتماد لكل هوية مدارة معينة من قبل المستخدم.

الخاصية التالية مدعومة:

الخاصية	الوصف	مطلوب
بيانات الاعتماد	حدد الهوية المدارة المعينة من قبل المستخدم ككائن بيانات الاعتماد.	‏‏نعم‬

مثال:

{
    "name": "AzureDataLakeStoreLinkedService",
    "properties": {
        "type": "AzureDataLakeStore",
        "typeProperties": {
            "dataLakeStoreUri": "https://<accountname>.azuredatalakestore.net/webhdfs/v1",
            "subscriptionId": "<subscription of ADLS>",
            "resourceGroupName": "<resource group of ADLS>",
            "credential": {
                "referenceName": "credential1",
                "type": "CredentialReference"
            },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

خصائص مجموعة البيانات

للحصول على قائمة كاملة بالأقسام والخصائص المتوفرة لتعريف مجموعات البيانات، راجع مقالة مجموعات البيانات.

يدعم Azure Data Factory تنسيقات الملفات التالية. راجع كل مقالة للاطلاع على الإعدادات المستندة إلى التنسيق.

الخصائص التالية مدعومة في Azure Data Lake Store Gen1 ضمن إعدادات location في مجموعة البيانات المستندة إلى تنسيق:

الخاصية	الوصف	مطلوب
النوع	يجب تعيين خاصية النوع ضمن `location` في مجموعة البيانات إلى AzureDataLakeStoreLocation.	‏‏نعم‬
folderPath	المسار إلى مجلد. إذا كنت تريد استخدام حرف بدل لتصفية المجلدات، فتخطَّ هذا الإعداد، وحدده في إعدادات مصدر النشاط.	لا
fileName	اسم الملف ضمن folderPath المحدد. إذا كنت تريد استخدام حرف بدل لتصفية الملفات، فتخطَّ هذا الإعداد، وحدده في إعدادات مصدر النشاط.	لا

مثال:

{
    "name": "DelimitedTextDataset",
    "properties": {
        "type": "DelimitedText",
        "linkedServiceName": {
            "referenceName": "<ADLS Gen1 linked service name>",
            "type": "LinkedServiceReference"
        },
        "schema": [ < physical schema, optional, auto retrieved during authoring > ],
        "typeProperties": {
            "location": {
                "type": "AzureDataLakeStoreLocation",
                "folderPath": "root/folder/subfolder"
            },
            "columnDelimiter": ",",
            "quoteChar": "\"",
            "firstRowAsHeader": true,
            "compressionCodec": "gzip"
        }
    }
}

انسخ خصائص النشاط

للحصول على قائمة كاملة بالأقسام والخصائص المتوفرة لتعريف الأنشطة، راجع البنية الأساسية لبرنامج ربط العمليات التجارية. يوفر هذا القسم قائمة بالخصائص المدعومة من قبل مصدر مخزن Azure Data Lake والمتلقي.

متجر Azure Data Lake كمصدر

يدعم Azure Data Factory تنسيقات الملفات التالية. راجع كل مقالة للاطلاع على الإعدادات المستندة إلى التنسيق.

الخصائص التالية مدعومة في Azure Data Lake Store Gen1 ضمن إعدادات storeSettings في مصدر النسخ المستند إلى تنسيق:

الخاصية	الوصف	مطلوب
النوع	يجب تعيين خاصية النوع ضمن `storeSettings` إلى AzureDataLakeStoreReadSettings.	‏‏نعم‬
حدد موقع الملفات المراد نسخها:
الخيار 1: مسار ثابت	نسخ من مسار المجلد/الملف المحدد في مجموعة البيانات. إذا كنت تريد نسخ كافة الملفات من مجلد، بالإضافة إلى ذلك حدد `wildcardFileName` على أنه `*`.
الخيار 2: نطاق الاسم - listAfter	استرداد المجلدات/الملفات التي يقع اسمها أبجدياً (خاص) بعد هذه القيمة. ويستخدم عامل التصفية من جانب الخدمة لـ ADLS Gen1، والذي يوفر أداءً أفضل من عامل تصفية البدل. تطبق الخدمة عامل التصفية هذا على المسار المحدد في مجموعة البيانات، ويتم دعم مستوى كيان واحد فقط. راجع المزيد من الأمثلة في أمثلة على عامل تصفية نطاق الاسم.	لا
الخيار 2: نطاق الاسم - listBefore	استرداد المجلدات/الملفات التي يقع اسمها أبجدياً (شامل) قبل هذه القيمة. ويستخدم عامل التصفية من جانب الخدمة لـ ADLS Gen1، والذي يوفر أداءً أفضل من عامل تصفية البدل. تطبق الخدمة عامل التصفية هذا على المسار المحدد في مجموعة البيانات، ويتم دعم مستوى كيان واحد فقط. راجع المزيد من الأمثلة في أمثلة على عامل تصفية نطاق الاسم.	لا
الخيار 3: wildcard - wildcardFolderPath	مسار المجلد مع أحرف البدل لتصفية مجلدات المصدر. حروف البدل المسموح بها هي: `*` (يطابق صفراً أو المزيد من الأحرف)، و`?` (يطابق صفراً أو حرفاً واحداً)؛ يمكنك استخدام `^` للإلغاء إذا كان اسم المجلد الفعلي يتضمن حرف بدل أو حرف إلغاء بداخله. راجع المزيد من الأمثلة في أمثلة على تصفية الملفات والمجلدات.	لا
الخيار 3: wildcard - wildcardFileName	اسم الملف مع حروف البدل ضمن المجلد المحدد / folderPath/wildcardFolderPath المحدد لتصفية الملفات المصدر. حروف البدل المسموح بها هي: `*` (يطابق صفراً أو المزيد من الأحرف)، و`?` (يطابق صفراً أو حرفاً واحداً)؛ يمكنك استخدام `^` للإلغاء إذا كان اسم الملف الفعلي يتضمن حرف بدل أو حرف إلغاء بداخله. راجع المزيد من الأمثلة في أمثلة على تصفية الملفات والمجلدات.	‏‏نعم‬
الخيار 4: قائمة الملفات - fileListPath	يشير إلى نسخ مجموعة ملفات معينة. أشر إلى ملف نصي يتضمن قائمة بالملفات التي تريد نسخها، ملف واحد لكل سطر، وهو المسار النسبي للمسار الذي تم تكوينه في مجموعة البيانات. عند استخدام هذا الخيار، لا تحدد اسم الملف في مجموعة البيانات. شاهد المزيد من الأمثلة في أمثلة قائمة الملفات.	لا
إعدادات إضافية:
التكرار	يشير إلى ما إذا كانت البيانات ستتم قراءتها بشكل متكرر من المجلدات الفرعية أو من المجلد المحدد فقط. عندما يتم تعيين "recursive" إلى "true" والمتلقي هو مخزن يستند إلى ملف، لا يتم نسخ أو إنشاء مجلد فارغ أو مجلد فرعي في المتلقي. القيم المسموح بها هي true (افتراضية) وfalse. لا تنطبق هذه الخاصية عند تكوين `fileListPath`.	لا
deleteFilesAfterCompletion	يشير إلى ما إذا كان سيتم حذف الملفات الثنائية من مخزن المصدر بعد الانتقال بنجاح إلى مخزن الوجهة. يتم حذف الملف لكل ملف، لذلك عند فشل نشاط النسخ، سترى أن بعض الملفات قد تم نسخها بالفعل إلى الوجهة وحذفها من المصدر، بينما لا يزال البعض الآخر في مخزن المصدر. هذه الخاصية صالحة فقط في سيناريو نسخ الملفات الثنائية. القيمة الافتراضية: false.	لا
تاريخ البدء المعدل	تصفية الملفات استنادا إلى السمة: "Last Modified". يتم تحديد الملفات إذا كان وقت آخر تعديل لها أكبر من أو يساوي `modifiedDatetimeStart` وأقل من `modifiedDatetimeEnd`. ويتم تطبيق الوقت على المنطقة الزمنية UTC بتنسيق «2018-12-01T05:00:00Z». يمكن أن تكون الخصائص ذات «قيمة فارغة»، ما يعني أنه لا يتم تطبيق عامل تصفية سمات الملف على مجموعة البيانات. عندما `modifiedDatetimeStart` يكون لها قيمة التاريخ والوقت ولكنها `modifiedDatetimeEnd` NULL، فهذا يعني أن الملفات التي تكون سمتها المعدلة الأخيرة أكبر من قيمة التاريخ والوقت أو مساوية لها محددة. عندما `modifiedDatetimeEnd` تكون قيمة التاريخ والوقت فارغة `modifiedDatetimeStart` ، فهذا يعني أن الملفات التي تكون سمتها المعدلة الأخيرة أقل من قيمة التاريخ والوقت محددة. لا تنطبق هذه الخاصية عند تكوين `fileListPath`.	لا
modifiedDatetimeEnd	مثل أعلاه.	لا
enablePartitionDiscovery	بالنسبة للملفات المقسمة، حدد ما إذا كنت تريد تحليل الأقسام من مسار الملف وإضافتها كأعمدة مصدر إضافية. القيم المسموح بها هي false (افتراضية) وtrue.	لا
partitionRootPath	عند تمكين اكتشاف القسم، حدد مسار الجذر المطلق لقراءة المجلدات المقسمة كأعمدة بيانات. إذا لم يتم تحديده، بشكل افتراضي، - عند استخدام مسار الملف في مجموعة البيانات أو قائمة الملفات على المصدر، يكون مسار جذر القسم هو المسار الذي تم تكوينه في مجموعة البيانات. - عند استخدام عامل تصفية مجلد أحرف البدل، يكون مسار جذر القسم هو المسار الفرعي قبل حرف البدل الأول. على سبيل المثال، بافتراض أنك قمت بتكوين المسار في مجموعة البيانات كـ "root/folder/year=2020/month=08/day=27": - إذا حددت مسار جذر القسم على أنه "root/folder/year=2020"، فإن نشاط النسخ ينشئ عمودين `month` إضافيين والقيمة `day` "08" و"27" على التوالي، بالإضافة إلى الأعمدة داخل الملفات. - إذا لم يتم تحديد مسار جذر القسم، فلن يتم إنشاء عمود إضافي.	لا
maxConcurrentConnections	الحد الأعلى للاتصالات المتزامنة التي تم إنشاؤها إلى مخزن البيانات أثناء تشغيل النشاط. حدد قيمة فقط عندما تريد تحديد الاتصالات المتزامنة.	لا

مثال:

"activities":[
    {
        "name": "CopyFromADLSGen1",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Delimited text input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "DelimitedTextSource",
                "formatSettings":{
                    "type": "DelimitedTextReadSettings",
                    "skipLineCount": 10
                },
                "storeSettings":{
                    "type": "AzureDataLakeStoreReadSettings",
                    "recursive": true,
                    "wildcardFolderPath": "myfolder*A",
                    "wildcardFileName": "*.csv"
                }
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

مخزن Azure Data Lake كمتلقٍ

يدعم Azure Data Factory تنسيقات الملفات التالية. راجع كل مقالة للاطلاع على الإعدادات المستندة إلى التنسيق.

الخصائص التالية مدعومة في Azure Data Lake Store Gen1 ضمن إعدادات storeSettings في مصدر النسخ المستند إلى تنسيق:

الخاصية	الوصف	مطلوب
النوع	يجب تعيين خاصية النوع ضمن `storeSettings` إلى AzureDataLakeStoreWriteSettings.	‏‏نعم‬
copyBehavior	تعريف سلوك النسخ عندما يكون المصدر ملفات من مخزن بيانات مستند إلى ملف. القيم المسموح بها هي: - PreserveHierarchy (افتراضي): يحافظ على التسلسل الهرمي للملف في المجلد الهدف. يكون المسار النسبي للملف المصدر إلى المجلد المصدر مطابقاً للمسار النسبي للملف الهدف إلى المجلد الهدف. - FlattenHierarchy: جميع الملفات من المجلد المصدر في المستوى الأول من المجلد الهدف. لملفات الهدف أسماء تم إنشائها تلقائياً. - MergeFiles: دمج جميع الملفات من المجلد المصدر إلى ملف واحد. إذا تم تحديد اسم الملف، فسيكون اسم الملف المدمج هو الاسم المحدد. وإلا، فسيتم إنشاء اسم الملف تلقائياً.	لا
expiryDateTime	تحديد وقت انتهاء صلاحية الملفات المكتوبة. يتم تطبيق الوقت على التوقيت العالمي المنسق في تنسيق «2020-03-01T08:00:00Z». بشكل افتراضي، تكون NULL، مما يعني أن الملفات المكتوبة لا تنتهي صلاحيتها أبدا.	لا
maxConcurrentConnections	الحد الأعلى للاتصالات المتزامنة التي تم إنشاؤها إلى مخزن البيانات أثناء تشغيل النشاط. حدد قيمة فقط عندما تريد تحديد الاتصالات المتزامنة.	لا

مثال:

"activities":[
    {
        "name": "CopyToADLSGen1",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<Parquet output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>"
            },
            "sink": {
                "type": "ParquetSink",
                "storeSettings":{
                    "type": "AzureDataLakeStoreWriteSettings",
                    "copyBehavior": "PreserveHierarchy"
                }
            }
        }
    }
]

أمثلة على عامل تصفية نطاق الاسم

يصف هذا القسم السلوك الناتج عن عوامل تصفية نطاق الاسم.

نموذج بنية المصدر	التكوين	نتيجة
جذر ص file.csv ax file2.csv ax.csv ب file3.csv bx.csv ج file4.csv cx.csv	في مجموعة البيانات: - مسار المجلد: `root` في مصدر نشاط النسخ: - قائمة بعد: `a` - قائمة قبل: `b`	ثم يتم نسخ الملفات التالية: جذر ax file2.csv ax.csv ب file3.csv

أمثلة على تصفية الملفات والمجلدات

يصف هذا المقطع السلوك الناتج عن مسار المجلد واسم الملف مع عوامل تصفية البدل.

folderPath	fileName	التكرار	بنية المجلد المصدر ونتيجة التصفية (يتم استرداد الملفات بخط عريض)
`Folder*`	(فارغ، استخدم الإعداد الافتراضي)	true	مجلد أ File1.csv File2.json Subfolder1 File3.csv File4.json File5.csv AnotherFolderB File6.csv
`Folder*`	(فارغ، استخدم الإعداد الافتراضي)	صحيح	مجلد أ File1.csv File2.json Subfolder1 File3.csv File4.json File5.csv AnotherFolderB File6.csv
`Folder*`	`*.csv`	true	مجلد أ File1.csv File2.json Subfolder1 File3.csv File4.json File5.csv AnotherFolderB File6.csv
`Folder*`	`*.csv`	صحيح	مجلد أ File1.csv File2.json Subfolder1 File3.csv File4.json File5.csv AnotherFolderB File6.csv

أمثلة على قائمة الملفات

يصف هذا القسم السلوك الناتج عن استخدام مسار قائمة الملفات في نسخ مصدر النشاط.

بافتراض أن لديك بنية المجلد المصدر التالية وتريد نسخ الملفات بخط عريض:

نموذج بنية المصدر	Content in FileListToCopy.txt	التكوين
جذر مجلد أ File1.csv File2.json Subfolder1 File3.csv File4.json File5.csv بيانات التعريف FileListToCopy.txt	File1.csv Subfolder1/File3.csv Subfolder1/File5.csv	في مجموعة البيانات: - مسار المجلد: `root/FolderA` في مصدر نشاط النسخ: - مسار ملف القائمة: `root/Metadata/FileListToCopy.txt` يشير مسار قائمة الملفات إلى ملف نصي في نفس مخزن البيانات يتضمن قائمة بالملفات التي ترغب في نسخها، ملف واحد لكل سطر، مع المسار النسبي للمسار الذي تم تكوينه في مجموعة البيانات.

أمثلة على سلوك عملية النسخ

يصف هذا القسم السلوك الناتج عن عملية النسخ للمجموعات المختلفة للقيمتين recursive وcopyBehavior.

التكرار	copyBehavior	بنية المجلد المصدر	الهدف الناتج
صحيح	preserveHierarchy	Folder1 File1 File2 Subfolder1 File3 File4 File5	يتم إنشاء Folder1 الهدف ببنية المصدر نفسها: Folder1 File1 File2 Subfolder1 File3 File4 File5.
صحيح	flattenHierarchy	Folder1 File1 File2 Subfolder1 File3 File4 File5	يتم إنشاء Folder1 الهدف بالبنية التالية: Folder1 الاسم الذي تم إنشائه تلقائياً لملف1 الاسم الذي تم إنشائه تلقائياً للملف2 الاسم الذي تم إنشائه تلقائياً للملف3 الاسم الذي تم إنشائه تلقائياً للملف4 الاسم الذي تم إنشائه تلقائياً للملف5
صحيح	mergeFiles	Folder1 File1 File2 Subfolder1 File3 File4 File5	يتم إنشاء Folder1 الهدف بالبنية التالية: Folder1 يتم دمج محتويات File1 + File2 + File3 + File4 + File5 في ملف واحد، باسم ملف مُنشأ تلقائياً.
true	preserveHierarchy	Folder1 File1 File2 Subfolder1 File3 File4 File5	يتم إنشاء Folder1 الهدف بالبنية التالية: Folder1 File1 File2 لم يتم التقاط المجلد الفرعي1 مع File3 وFile4 وFile5.
true	flattenHierarchy	Folder1 File1 File2 Subfolder1 File3 File4 File5	يتم إنشاء Folder1 الهدف بالبنية التالية: Folder1 الاسم الذي تم إنشائه تلقائياً لملف1 الاسم الذي تم إنشائه تلقائياً للملف2 لم يتم التقاط المجلد الفرعي1 مع File3 وFile4 وFile5.
true	mergeFiles	Folder1 File1 File2 Subfolder1 File3 File4 File5	يتم إنشاء Folder1 الهدف بالبنية التالية: Folder1 يتم دمج محتويات File1 + File2 في ملف واحد باسم يتم إنشاؤه تلقائياً. الاسم الذي تم إنشائه تلقائياً لملف1 لم يتم التقاط المجلد الفرعي1 مع File3 وFile4 وFile5.

الاحتفاظ بقوائم التحكم في الوصول (ACLs) إلى Data Lake Storage Gen2

تلميح

لنسخ البيانات من Azure Data Lake Storage Gen1 إلى Gen2 بوجه عام، راجع نسخ البيانات من Azure Data Lake Storage Gen1 إلى Gen2 للتعرف على المزيد من المعلومات وأفضل الممارسات.

إذا كنت ترغب في نسخ قوائم التحكم في الوصول (ACLs) مع ملفات البيانات عند الترقية من Data Lake Storage Gen1 إلى Data Lake Storage Gen2، فراجع الاحتفاظ بنسخ قوائم التحكم في الوصول (ACLs) من Data Lake Storage Gen1.

تعيين خصائص تدفق البيانات

عند تحويل البيانات في تعيين تدفقات البيانات، يمكنك قراءة الملفات وكتابتها من Azure Data Lake Storage Gen1 بالتنسيقات التالية:

توجد إعدادات خاصة بالتنسيق في وثائق هذا التنسيق. لمزيد من المعلومات، راجع تحويل المصدر في تخطيط تدفق البيانات وتحويل المتلقي في تخطيط تدفق البيانات.

تحويل المصدر

في تحويل المصدر، يمكنك القراءة من حاوية أو مجلد أو ملف فردي في Azure Data Lake Storage Gen1. تتيح لك علامة التبويب خيارات المصدر التحكم في كيفية قراءة الملفات.

لقطة شاشة لعلامة تبويب خيارات المصدر في تعيين تحويل مصدر تدفق البيانات.

مسار البدل: استخدام نمط البدل سوف يرشد الخدمة إلى حلقة خلال كل مجلد مطابقة وملف في تحويل مصدر واحد. وهذه طريقة فعالة لمعالجة ملفات متعددة داخل تدفق واحد. أضف أنماط مطابقة البدل المتعددة مع علامة + التي تظهر عند التمرير فوق نمط البدل الموجود لديك.

من حاوية المصدر، اختر سلسلة من الملفات التي تطابق نمطاً. يمكن تحديد الحاوية فقط في مجموعة البيانات. ويجب أن يتضمن مسار البدل مسار المجلد من المجلد الجذر.

أمثلة البدل:

* يمثل أي مجموعة من الأحرف
** يمثل أي تداخل متكرر للدليل
? يستبدل حرفاً واحداً
[] يطابق حرفاً واحداً أو أكثر داخل الأقواس
/data/sales/**/*.csv يحصل على جميع ملفات csv ضمن /data/sales
/data/sales/20??/**/ يحصل على جميع الملفات بشكل متكرر داخل جميع مجلدات 20xx المطابقة
/data/sales/*/*/*.csv يحصل على ملفات csv، مستويين ضمن /data/sales
/data/sales/2004/12/[XY]1?.csv يحصل على جميع ملفات csv من ديسمبر 2004 بدءًا من X أو Y، متبوعًا بـ 1، وأي حرف واحد

Partition Root Path: إذا كان لديك مجلدات مقسمة في مصدر الملف الخاص بك بتنسيق key=value (على سبيل المثال، السنة=2019)، يمكنك حينئذٍ تعيين المستوى الأعلى لشجرة مجلد القسم هذا إلى اسم عمود في تدفق بيانات تدفق البيانات الخاصة بك.

أولاً، قم بتعيين حرف البدل لتضمين جميع المسارات التي هي مجلدات مُقسمة، بالإضافة إلى الملفات الطرفية التي ترغب في قراءتها.

لقطة شاشة لإعدادات ملف مصدر القسم في تعيين تحويل مصدر تدفق البيانات.

استخدم إعداد مسار جذر القسم لتحديد المستوى الأعلى من بنية المجلد. عند عرض محتويات بياناتك عبر معاينة البيانات، سترى أن الخدمة تضيف الأقسام التي تم حلها الموجودة في كل مستوى من مستويات المجلد.

مسار جذر التقسيم

قائمة الملفات: عبارة عن مجموعة ملفات. أنشئ ملف نصي يتضمن قائمة ملفات المسار النسبي لمعالجتها. أشر إلى هذا الملف النصي.

عمود لتخزين اسم الملف: خزّن اسم الملف المصدر في عمود في بياناتك. أدخِل اسم عمود جديد هنا لتخزين سلسلة اسم الملف.

بعد الانتهاء: اختر عدم إجراء أي عملية مع الملف المصدر بعد تشغيل تدفق البيانات أو حذف الملف المصدر أو نقل الملف المصدر. المسارات الخاصة بهذه الخطوة نسبية.

لنقل الملفات المصدر إلى موقع آخر بعد المعالجة، حدد أولاً "Move" لعملية الملف. ثم اضبط الدليل "from". إذا كنت لا تستخدم أي أحرف بدل لمسارك، فإن إعداد "من" هو نفس المجلد مثل المجلد المصدر.

إذا كان لديك مسار مصدر مع حرف بدل، فإن بناء الجملة الخاص بك يبدو كما يلي:

/data/sales/20??/**/*.csv

يمكنك تحديد «من» هكذا

/data/sales

وتحديد «إلى» هكذا

/backup/priorSales

وفي هذه الحالة، يتم نقل جميع الملفات التي تم الحصول عليها تحت /data/sales إلى /backup/priorSales.

إشعار

لا تستخدم تشغيل عمليات الملف إلا عندما تبدأ تدفق البيانات من تشغيل خط الأنابيب (تتبع أخطاء خط الأنابيب أو تشغيل التنفيذ)، والذي يستخدم نشاط تنفيذ تدفق البيانات في خط الأنابيب. لا يتم تشغيل عمليات الملفات في وضع تتبع أخطاء تدفق البيانات.

التصفية حسب آخر تعديل: يمكنك تصفية الملفات التي تعالجها عن طريق تحديد نطاق تاريخ آخر تعديل لها. جميع الأوقات والتواريخ حسب UTC.

تمكين التقاط بيانات التغيير: إذا كان صحيحا، فستحصل على ملفات جديدة أو تم تغييرها فقط من آخر تشغيل. سيتم دائماً الحصول على التحميل الأولي لبيانات اللقطة الكاملة في التشغيل الأول، متبوعاً بالتقاط ملفات جديدة أو تم تغييرها فقط في عمليات التشغيل التالية. لمزيد من التفاصيل، راجع تغيير تسجيل البيانات.

لقطة شاشة توضح تمكين التقاط بيانات التغيير.

خصائص المتلقّي

عند تحويل المتلقي، يمكنك الكتابة إما على حاوية أو مجلد في Azure Data Lake Storage Gen1. تتيح لك علامة تبويب الإعدادات التحكم في كيفية كتابة الملفات.

خيارات المتلقي

مسح المجلد: لتحديد مسح المجلد الوجهة من عدمه، قبل كتابة البيانات.

خيار اسم الملف: تحديد كيفية تسمية ملفات الوجهة في المجلد الوجهة. خيارات اسم الملف هي:

الافتراضي: السماح لـ Spark بتسمية الملفات استناداً إلى الإعدادات الافتراضية لـ PART.
نمط: أدخل نمطاً يُعدد ملفات الإخراج لكل قسم. على سبيل المثال، تنشئ القروض [n].csv loans1.csv loans2.csv وما إلى ذلك.
لكل قسم: أدخل اسم ملف واحداً لكل قسم.
كبيانات في العمود: تعيين ملف الإخراج إلى قيمة عمود. يكون المسار منسوباً إلى حاوية مجموعة البيانات، وليس المجلد الوجهة. إذا كان لديك مسار مجلد في مجموعة البيانات، يتم تجاوزه.
الإخراج إلى ملف واحد: ضم ملفات الإخراج المقسمة إلى ملف مسمى واحد. يكون المسار منسوباً إلى مجلد مجموعة البيانات. يجب أن تدرك أن عملية الدمج قد تفشل بناء على حجم العقدة. لا ينصح بهذا الخيار لمجموعات البيانات الكبيرة.

اقتباس الكل: لتحديد ما إذا كان سيتم إحاطة كل القيم بعلامات اقتباس

بحث عن خصائص النشاط

لمعرفة تفاصيل حول الخصائص، تحقق من نشاط البحث.

خصائص نشاط GetMetadata

لمعرفة تفاصيل حول الخصائص، يرجى التحقق من نشاط GetMetadata

حذف خصائص النشاط

لمعرفة تفاصيل حول الخصائص، يرجى التحقق من نشاط الحذف

النماذج القديمة

إشعار

لا تزال النماذج التالية مدعومة كما هي للتوافق مع الإصدارات السابقة. نقترح عليك استخدام النموذج الجديد المذكور في الأقسام أعلاه للمضي قدماً، وقد تحولت واجهة مستخدم التأليف إلى إنشاء النموذج الجديد.

نموذج مجموعة البيانات القديم

الخاصية	الوصف	مطلوب
النوع	يجب تعيين خاصية نوع مجموعة البيانات إلى AzureDataLakeStoreFile.	‏‏نعم‬
folderPath	المسار إلى المجلد في مخزن Data Lake. في حالة عدم التحديد، يشير إلى الجذر. عامل تصفية البدل مدعوم. أحرف البدل المسموح بها هي `*` (تطابق صفراً أو أكثر من الأحرف) و`?` (تطابق صفراً أو حرفاً واحداً). استخدم `^` للإلغاء، إذا كان اسم المجلد الفعلي يتضمن حرف بدل، أو إذا كان حرف الإلغاء هذا موجود بداخله. على سبيل المثال: rootfolder/subfolder/. راجع المزيد من الأمثلة في أمثلة على تصفية الملفات والمجلدات.	لا
fileName	عامل تصفية حرف البدل أو الاسم للملفات ضمن «folderPath» المحدد. إذا لم تحدد قيمة لهذه الخاصية، فإن مجموعة البيانات تشير إلى جميع الملفات الموجودة في المجلد. للتصفية، أحرف البدل المسموح بها هي `` (تطابق صفراً أو أكثر من الأحرف) و`?` (تطابق صفراً أو حرفاً واحداً). - مثال 1: `"fileName": ".csv"` - مثال 2: `"fileName": "???20180427.txt"` استخدم `^` للإلغاء، إذا كان اسم الملف الفعلي يتضمن حرف بدل، أو إذا كان حرف الإلغاء هذا موجود بداخله. في حالة عدم تحديد fileName لمجموعة بيانات الإخراج، وpreserveHierarchy غير محدد في متلقي النشاط، فإن نشاط النسخ يُنشئ تلقائياً اسم الملف باستخدام النمط التالي: «Data. [المعرّف الفريد لمعرف تشغيل النشاط]. [المعرف الفريد في حالة FlattenHierarchy].[التنسيق في حال تكوينه]. [الضغط المكوّن]» مثال: "Data.0a405f8a-93ff-4c6f-b3be-f69616f1df7a.txt.gz". إذا نسخت من مصدر جدولي مستخدماً اسم الجدول، بدلاً من الاستعلام، يكون اسم النمط كالآتي «[اسم الجدول].[التنسيق].[الضغط إذا تم تكوينه]»، مثال: «MyTable.csv».	لا
تاريخ البدء المعدل	تصفية الملفات وفقاً لآخر تعديل للسمة. يتم تحديد الملفات إذا كان وقت آخر تعديل لها أكبر من أو يساوي `modifiedDatetimeStart` وأقل من `modifiedDatetimeEnd`. يتم تطبيق الوقت على المنطقة الزمنية UTC بتنسيق "2018-12-01T05:00:00Z". يتأثر الأداء الكلي لحركة البيانات بتمكين هذا الإعداد، عندما تريد استخدام عامل تصفية الملفات مع كمية كبيرة من الملفات. يمكن أن تكون الخصائص ذات «قيمة فارغة»، ما يعني أنه لا يتم تطبيق عامل تصفية سمات الملف على مجموعة البيانات. وعندما يكون `modifiedDatetimeStart` له قيمة محددة للوقت والتاريخ، ولكن `modifiedDatetimeEnd` له «قيمة خالية»، فإن هذا يعني أن الملفات، التي قيمة سمة تاريخ آخر تعديل لها أكبر من قيمة التاريخ والوقت أو تساويها، هي التي سيتم تحديدها. وعندما يكون `modifiedDatetimeEnd` له قيمة محددة للوقت والتاريخ، ولكن `modifiedDatetimeStart` له «قيمة خالية»، فإن هذا يعني أن الملفات، التي قيمة سمة تاريخ آخر تعديل لها أقل من قيمة التاريخ والوقت، هي التي سيتم تحديدها.	لا
modifiedDatetimeEnd	تصفية الملفات وفقاً لآخر تعديل للسمة. يتم تحديد الملفات إذا كان وقت آخر تعديل لها أكبر من أو يساوي `modifiedDatetimeStart` وأقل من `modifiedDatetimeEnd`. يتم تطبيق الوقت على المنطقة الزمنية UTC بتنسيق "2018-12-01T05:00:00Z". يتأثر الأداء الكلي لحركة البيانات بتمكين هذا الإعداد، عندما تريد استخدام عامل تصفية الملفات مع كمية كبيرة من الملفات. يمكن أن تكون الخصائص ذات «قيمة فارغة»، ما يعني أنه لا يتم تطبيق عامل تصفية سمات الملف على مجموعة البيانات. وعندما يكون `modifiedDatetimeStart` له قيمة محددة للوقت والتاريخ، ولكن `modifiedDatetimeEnd` له «قيمة خالية»، فإن هذا يعني أن الملفات، التي قيمة سمة تاريخ آخر تعديل لها أكبر من قيمة التاريخ والوقت أو تساويها، هي التي سيتم تحديدها. وعندما يكون `modifiedDatetimeEnd` له قيمة محددة للوقت والتاريخ، ولكن `modifiedDatetimeStart` له «قيمة خالية»، فإن هذا يعني أن الملفات، التي قيمة سمة تاريخ آخر تعديل لها أقل من قيمة التاريخ والوقت، هي التي سيتم تحديدها.	لا
format	إذا كنت تريد نسخ الملفات كما هو الحال بين مخازن مستندة إلى ملف (نسخة ثنائية)، فتخطَّ قسم التنسيق في كل من التعريفات مجموعة بيانات الإدخال والإخراج. إذا كنت تريد توزيع الملفات أو إنشاءها بتنسيق معين، فإن أنواع تنسيق الملف التالية معتمدة: TextFormat، وJsonFormat، وAvroFormat، وOrcFormat، وParquetFormat. قم بتعيين خاصية النوع الموجودة ضمن التنسيق إلى إحدى هذه القيم. للحصول على مزيدٍ من المعلومات، راجع أقسام تنسيق Text، وتنسيقJSON، وتنسيقAvro، وتنسيقORC، وتنسيق Parquet.	لا (فقط لسيناريو النسخ الثنائي)
ضغط	حدد نوع ضغط البيانات ومستواه. للحصول على مزيدٍ من المعلومات، راجع تنسيقات الملفات المدعومة وبرامج ضغط الوسائط وفكها. الأنواع المدعومة هي GZipو Deflateو BZip2، وZipDeflate. المستويات المعتمدة هي الأمثل والأسرع.	لا

تلميح

لنسخ جميع الملفات المضمنة في مجلد، حدد folderPath فقط.
لنسخ ملف واحد باسم معين، حدد folderPath مع جزء المجلد، وfileName مع اسم الملف.
لنسخ مجموعة فرعية من الملفات ضمن مجلد ما، حدد folderPath مع جزء المجلد، وfileName مع عامل تصفية حرف البدل.

مثال:

{
    "name": "ADLSDataset",
    "properties": {
        "type": "AzureDataLakeStoreFile",
        "linkedServiceName":{
            "referenceName": "<ADLS linked service name>",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "folderPath": "datalake/myfolder/",
            "fileName": "*",
            "modifiedDatetimeStart": "2018-12-01T05:00:00Z",
            "modifiedDatetimeEnd": "2018-12-01T06:00:00Z",
            "format": {
                "type": "TextFormat",
                "columnDelimiter": ",",
                "rowDelimiter": "\n"
            },
            "compression": {
                "type": "GZip",
                "level": "Optimal"
            }
        }
    }
}

نموذج مصدر نشاط النسخ القديم

الخاصية	الوصف	مطلوب
النوع	يجب تعيين الخاصية `type` لمصدر نشاط النسخ إلى AzureDataLakeStoreSource.	‏‏نعم‬
التكرار	يشير إلى ما إذا كانت البيانات ستتم قراءتها بشكل متكرر من المجلدات الفرعية أو من المجلد المحدد فقط. عندما يتم تعيين `recursive` إلى «صواب» والمتلقي هو مخزن يستند إلى ملف، لا يتم نسخ أو إنشاء مجلد فارغ أو مجلد فرعي في المتلقي. القيم المسموح بها هي true (افتراضية) وfalse.	لا
maxConcurrentConnections	الحد الأعلى للاتصالات المتزامنة التي تم إنشاؤها إلى مخزن البيانات أثناء تشغيل النشاط. حدد قيمة فقط عندما تريد تحديد الاتصالات المتزامنة.	لا

مثال:

"activities":[
    {
        "name": "CopyFromADLSGen1",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<ADLS Gen1 input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "AzureDataLakeStoreSource",
                "recursive": true
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

نموذج متلقي نشاط النسخ القديم

الخاصية	الوصف	مطلوب
النوع	يجب تعيين خاصية `type` لمتلقي نشاط النسخ إلى AzureDataLakeStoreSink.	‏‏نعم‬
copyBehavior	تعريف سلوك النسخ عندما يكون المصدر ملفات من مخزن بيانات مستند إلى ملف. القيم المسموح بها هي: - PreserveHierarchy (افتراضي): يحافظ على التسلسل الهرمي للملف في المجلد الهدف. يكون المسار النسبي للملف المصدر إلى المجلد المصدر مطابقاً للمسار النسبي للملف الهدف إلى المجلد الهدف. - FlattenHierarchy: جميع الملفات من المجلد المصدر في المستوى الأول من المجلد الهدف. لملفات الهدف أسماء تم إنشائها تلقائياً. - MergeFiles: دمج جميع الملفات من المجلد المصدر إلى ملف واحد. إذا تم تحديد اسم الملف، فسيكون اسم الملف المدمج هو الاسم المحدد. وإلا، يتم إنشاء اسم الملف تلقائياً.	لا
maxConcurrentConnections	الحد الأعلى للاتصالات المتزامنة التي تم إنشاؤها إلى مخزن البيانات أثناء تشغيل النشاط. حدد قيمة فقط عندما تريد تحديد الاتصالات المتزامنة.	لا

مثال:

"activities":[
    {
        "name": "CopyToADLSGen1",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<ADLS Gen1 output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>"
            },
            "sink": {
                "type": "AzureDataLakeStoreSink",
                "copyBehavior": "PreserveHierarchy"
            }
        }
    }
]

تغيير التوفر العام لتسجيل البيانات (إصدار أولي)

يمكن لـ Azure Data Factory الحصول على الملفات الجديدة أو التي تم تغييرها فقط من Azure Data Lake Storage Gen1 عن طريق تمكين Enable change data capture (إصدار أولي) في تحويل مصدر تدفق بيانات التعيين. باستخدام خيار الموصل، بإمكانك قراءة الملفات الجديدة أو المحدثة فقط وتطبيق التحويلات قبل تحميل البيانات المحولة إلى مجموعات بيانات الوجهة التي تختارها.

تأكد من الاحتفاظ بمسار التدفق واسم النشاط دون تغيير، بحيث يمكن دائماً تسجيل نقطة التحقق من التشغيل الأخير للحصول على التغييرات من هناك. إذا قمت بتغيير اسم المسار أو اسم النشاط، إعادة تعيين نقطة التحقق، وستبدأ من البداية في التشغيل التالي.

عند تصحيح أخطاء مسار التدفق، يعمل Enable change data capture (إصدار أولي) أيضاً. تتم إعادة تعيين نقطة التحقق عند تحديث المستعرض أثناء تشغيل تتبع الأخطاء. بعد أن تكون راضيا عن النتيجة من تشغيل تتبع الأخطاء، يمكنك نشر وتشغيل البنية الأساسية لبرنامج ربط العمليات التجارية. سيبدأ دائماً من البداية بغض النظر عن نقطة التحقق السابقة المسجلة بواسطة تشغيل التصحيح.

في قسم المراقبة، دائمًا لديك فرصة لإعادة تشغيل المسار. عند القيام بذلك، يتم دائما تلقي التغييرات من سجل نقطة التحقق في تشغيل المسار المحدد.

للحصول على قائمة بمخازن البيانات المدعومة من نشاط النسخ كمصادر ومواضع تلقي، راجع مخازن البيانات المدعومة.

مشاركة عبر

نسخ البيانات من أو إلى Azure Data Lake Storage Gen1 باستخدام Azure Data Factory أو Azure Synapse Analytics

القدرات المدعومة

الشروع في العمل

إنشاء خدمة مرتبطة إلى Azure Data Lake Storage Gen1 باستخدام واجهة المستخدم

تفاصيل تكوين الموصل

خصائص الخدمة المرتبطة

استخدام المصادقة الرئيسية للخدمة

استخدام مصادقة الهوية المدارة المعينة من قبل النظام

استخدام مصادقة الهوية المدارة المعينة من قبل المستخدم

خصائص مجموعة البيانات

انسخ خصائص النشاط

متجر Azure Data Lake كمصدر

مخزن Azure Data Lake كمتلقٍ

أمثلة على عامل تصفية نطاق الاسم

أمثلة على تصفية الملفات والمجلدات

أمثلة على قائمة الملفات

أمثلة على سلوك عملية النسخ

الاحتفاظ بقوائم التحكم في الوصول (ACLs) إلى Data Lake Storage Gen2

تعيين خصائص تدفق البيانات

تحويل المصدر

خصائص المتلقّي

بحث عن خصائص النشاط

خصائص نشاط GetMetadata

حذف خصائص النشاط

النماذج القديمة

نموذج مجموعة البيانات القديم

نموذج مصدر نشاط النسخ القديم

نموذج متلقي نشاط النسخ القديم

تغيير التوفر العام لتسجيل البيانات (إصدار أولي)

المحتوى ذو الصلة

الملاحظات

الموارد الإضافية