تنسيق ثنائي في Azure Data Factory وتحليلات Synapse

ينطبق على:Azure Data Factory Azure Synapse Analytics

تلميح

جرب Data Factory في Microsoft Fabric، وهو حل تحليلي متكامل للمؤسسات. يغطي Microsoft Fabric كل شيء بدءا من حركة البيانات إلى علم البيانات والتحليلات في الوقت الحقيقي والمعلومات المهنية وإعداد التقارير. تعرف على كيفية بدء إصدار تجريبي جديد مجانا!

يتم دعم التنسيق الثنائي للموصلات التالية: التخزين المتوافق مع Amazon S3، Amazon S3 ومخزن Azure للكائنات الثنائية كبيرة الحجم، Azure Data Lake Storage Gen1، Azure Data Lake Storage Gen2، Azure ملفات، نظام الملفات، FTP، Google Cloud Storage، HDFS، HTTP, Oracle Cloud Storage وSFTP.

يمكنك استخدام مجموعة البيانات الثنائية في نشاط النسخ أو نشاط GetMetadata أو حذف النشاط. عند استخدام مجموعة البيانات الثنائية، لا تقوم الخدمة بتوزيع محتوى الملف ولكن تعامل معه كما هو.

إشعار

عند استخدام مجموعة البيانات الثنائية في نشاط النسخ، يمكنك فقط نسخ من مجموعة البيانات الثنائية إلى مجموعة البيانات الثنائية.

خصائص مجموعة البيانات

للحصول على قائمة كاملة بالأقسام والخصائص المتوفرة لتعريف مجموعات البيانات، راجع مقالة مجموعات البيانات. يوفر هذا القسم قائمة من الخصائص المعتمدة من قبل مجموعة البيانات الثنائية.

الخاصية الوصف مطلوب
النوع يجب تعيين خاصية نوع مجموعة البيانات إلى ثنائي. ‏‏نعم‬
موقع إعدادات الموقع للملف (الملفات). يحتوي كل موصل يستند إلى ملف على نوع الموقع الخاص به وخصائص مدعومة ضمن location. راجع التفاصيل الواردة في مقالة الموصل -> قسم خصائص مجموعة البيانات. ‏‏نعم‬
ضغط مجموعة من الخصائص لتكوين ضغط الملف. قم بتكوين هذا القسم عندما تريد الضغط / فك الضغط أثناء تنفيذ النشاط. لا
النوع برنامج ضغط الوسائط وفكها المستخدم لقراءة/كتابة الملفات الثنائية.
القيم المسموح بها هي bzip2، أو gzip، أو deflate، ZipDeflate، أو Tar، أو TarGzip.
ملاحظة عند استخدام نشاط النسخ لفك ضغط ملف (ملفات) ZipDeflate/TarGzip /Tar والكتابة إلى ملف مستند إلى مخزن بيانات التخزين، يتم استخراج الملفات افتراضياً إلى المجلد: <path specified in dataset>/<folder named as source compressed file>/، استخدم preserveZipFileNameAsFolder/preserveCompressionFileNameAsFolder في مصدر نشاط النسخ للتحكم في الاحتفاظ باسم الملف (الملفات) المضغوطة كهيكل مجلد.
لا
المستوى نسبة الضغط. تطبيق عند استخدام مجموعة البيانات في متلقي نسخ النشاط.
القيم المسموح بها هي Optimal أو Fastest.
- الأسرع: يجب أن تكتمل عملية الضغط بأسرع وقت ممكن، حتى إذا لم يتم ضغط الملف الناتج بشكل أمثل.
- الأمثل : يجب ضغط عملية الضغط على النحو الأمثل، حتى لو استغرقت العملية وقتاً أطول حتى تكتمل. لمزيد من المعلومات، يمكنك الاطلاع على موضوع مستوى الضغط.
لا

وفيما يلي مثال على مجموعة البيانات الثنائية على تخزين كائن ثنائي كبير الحجم Azure:

{
    "name": "BinaryDataset",
    "properties": {
        "type": "Binary",
        "linkedServiceName": {
            "referenceName": "<Azure Blob Storage linked service name>",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "location": {
                "type": "AzureBlobStorageLocation",
                "container": "containername",
                "folderPath": "folder/subfolder",
            },
            "compression": {
                "type": "ZipDeflate"
            }
        }
    }
}

انسخ خصائص النشاط

للحصول على قائمة كاملة بالأقسام والخصائص المتوفرة لتعريف الأنشطة، راجع مقالة التدفقات. يوفر هذا المقطع قائمة من الخصائص المعتمدة من قبل مصدر ثنائي ومتلقي.

إشعار

عند استخدام مجموعة البيانات الثنائية في نشاط النسخ، يمكنك فقط نسخ من مجموعة البيانات الثنائية إلى مجموعة البيانات الثنائية.

ثنائي كمصدر

يتم دعم الخصائص التالية في جزء نسخ النشاط *Source*.

الخاصية الوصف مطلوب
النوع يجب تعيين خاصية نوع مصدر نشاط النسخ إلى: BinarySource. ‏‏نعم‬
إعدادات التنسيقات مجموعة من الخصائص. الرجوع إلى جدول إعدادات القراءة الثنائية أدناه. لا
إعدادات المخزن lمجموعة من الخصائص حول كيفية قراءة البيانات من مخزن بيانات. يحتوي كل موصل يستند إلى ملف إعدادات القراءة المدعومة الخاصة به ضمن storeSettings. راجع التفاصيل في مقالة الموصل -> قسم خصائص نسخ النشاط. لا

إعدادات القراءة الثنائية المعتمدة تحت formatSettings:

الخاصية الوصف مطلوب
النوع يجب تعيين نوع formatSettings إلى BinaryReadSettings. ‏‏نعم‬
compressionProperties مجموعة من الخصائص حول كيفية إلغاء ضغط البيانات من أجل برنامج ترميز ضغط معين. لا
preserveZipFileNameAsFolder
(ضمن compressionProperties->type كـ ZipDeflateReadSettings)
ينطبق عند تكوين مجموعة بيانات الإدخال بضغط ZipDeflate. يشير إلى ما إذا كان يجب الاحتفاظ باسم الملف البريدي المصدر كبنية مجلد أثناء النسخ.
- عند التعيين على True (افتراضي)، تكتب الخدمة الملفات التي تم إلغاء ضغطها إلى <path specified in dataset>/<folder named as source zip file>/.
- عند التعيين على False، تقوم الخدمة بكتابة الملفات التي تم إلغاء ضغطها مباشرة إلى <path specified in dataset>. تأكد من عدم تكرار أسماء الملفات في مصدر ملفات zip المختلفة لتجنب السباق أو السلوك غير المتوقع.
لا
preserveCompressionFileNameAsFolder
( ضمن compressionProperties->type كـ TarGZipReadSettings أو TarReadSettings)
ينطبق عندما يتم تكوين مجموعة بيانات الإدخال بضغط TarGzip/Tar. يشير إلى ما إذا كان سيتم الاحتفاظ باسم الملف المضغوط المصدر كبنية مجلد أثناء النسخ.
- عند تعيين إلى "true" (افتراضي)، تكتب الخدمة الملفات التي تم فك ضغطها إلى <path specified in dataset>/<folder named as source compressed file>/.
- عند التعيين إلى "false"، تكتب الخدمة الملفات الغير مضغوطة مباشرة إلى <path specified in dataset>. تأكد من عدم تكرار أسماء الملفات في ملفات مصدر مختلفة لتجنب السباق أو السلوك غير المتوقع.
لا
"activities": [
    {
        "name": "CopyFromBinary",
        "type": "Copy",
        "typeProperties": {
            "source": {
                "type": "BinarySource",
                "storeSettings": {
                    "type": "AzureBlobStorageReadSettings",
                    "recursive": true,
                    "deleteFilesAfterCompletion": true
                },
                "formatSettings": {
                    "type": "BinaryReadSettings",
                    "compressionProperties": {
                        "type": "ZipDeflateReadSettings",
                        "preserveZipFileNameAsFolder": false
                    }
                }
            },
            ...
        }
        ...
    }
]

ثنائي كمتلقٍ

الخصائص التالية مدعومة في نشاط النسخ * lمتلقي * القسم.

الخاصية الوصف مطلوب
النوع يجب تعيين خاصية نوع مصدر نشاط النسخ إلى BinarySink. ‏‏نعم‬
إعدادات المخزن مجموعة من الخصائص حول كيفية كتابة البيانات إلى مخزن بيانات. يحتوي كل موصل يستند إلى ملف إعدادات الكتابة المعتمدة الخاصة به ضمن storeSettings. راجع التفاصيل في مقالة الموصل -> قسم خصائص نسخ النشاط. لا