تنسيقات البيانات التي يدعمها مستكشف بيانات Azure Synapse لاستيعابها (معاينة)
استيعاب البيانات هو العملية التي يتم من خلالها إضافة البيانات إلى جدول وإتاحتها للاستعلام في Data Explorer. بالنسبة لجميع أساليب الاستيعاب، بخلاف الاستيعاب من الاستعلام، يجب أن تكون البيانات في أحد التنسيقات المدعومة. يسرد الجدول التالي ويصف التنسيقات التي يدعمها Data Explorer لاستيعاب البيانات.
إشعار
قبل استيعاب البيانات، تأكد من تنسيق البيانات بشكل صحيح وتحديد الحقول المتوقعة. نوصي باستخدام المدقق المفضل لديك لتأكيد صحة التنسيق. على سبيل المثال، قد تجد المدققات التالية مفيدة للتحقق من ملفات CSV أو JSON:
- CSV: http://csvlint.io/
- JSON: https://jsonlint.com/
لمزيد من المعلومات حول سبب فشل الاستيعاب، راجع فشل الاستيعابورموز خطأ الاستيعاب في Data Explorer.
تنسيق | ملحق | الوصف |
---|---|---|
ApacheAvro | .avro |
تنسيق AVRO مع دعم لأنواع منطقية. يتم دعم برامج ترميز الضغط التالية: null و deflate وsnappy . يعتمد تنفيذ apacheavro القارئ للتنسيق على مكتبة Apache Avro الرسمية. |
Avro | .avro |
تطبيق قديم لتنسيق AVRO استنادا إلى مكتبة .NET. يتم دعم برامج ترميز الضغط التالية: null ، deflate (لـ snappy - استخدام ApacheAvro تنسيق البيانات). |
CSV | .csv |
ملف نصي مع قيم مفصولة بفواصل (, ). راجع RFC 4180: التنسيق الشائع ونوع MIME لملفات قيم Comma-Separated (CSV). |
JSON | .json |
ملف نصي مع كائنات JSON محددة بواسطة \n أو \r\n . راجع خطوط JSON (JSONL). |
MultiJSON | .multijson |
ملف نصي مع صفيف JSON من أكياس الخصائص (يمثل كل منها سجلا)، أو أي عدد من أكياس الخصائص المحددة بواسطة المسافة البيضاء، \n أو \r\n . يمكن توزيع كل حقيبة خاصية على أسطر متعددة. يفضل هذا التنسيق على JSON ، ما لم تكن البيانات عبارة عن أكياس غير متعلقة بالخصائص. |
ORC | .orc |
ملف ORC. |
Parquet | .parquet |
ملف Parquet. |
PSV | .psv |
ملف نصي مع قيم فصل توجيه الإخراج (| ). |
RAW | .raw |
ملف نصي تكون محتوياته بأكملها قيمة سلسلة واحدة. |
SCsv | .scsv |
ملف نصي بقيم مفصولة بفواصل منقوطة (; ). |
SOHsv | .sohsv |
ملف نصي مع قيم مفصولة بـ SOH. (SOH هو ASCII codepoint 1؛ يتم استخدام هذا التنسيق بواسطة Hive على HDInsight.) |
TSV | .tsv |
ملف نصي مع قيم مفصولة بعلامات التبويب (\t ). |
TSVE | .tsv |
ملف نصي مع قيم مفصولة بعلامات التبويب (\t ). يتم استخدام حرف مائل عكسي (\ ) للخروج. |
TXT | .txt |
ملف نصي بخطوط محددة بواسطة \n . يتم تخطي الأسطر الفارغة. |
W3CLOGFILE | .log |
تنسيق ملف سجل الويب الموحد بواسطة W3C. |
تنسيقات ضغط البيانات المدعومة
يمكن ضغط الكائنات الثنائية كبيرة الحجم والملفات من خلال أي من خوارزميات الضغط التالية:
الضغط | ملحق |
---|---|
gzip | .gz |
الرمز البريدي | .zip |
الإشارة إلى الضغط عن طريق إلحاق الملحق باسم الكائن الثنائي كبير الحجم أو الملف.
على سبيل المثال:
MyData.csv.zip
يشير إلى كائن ثنائي كبير الحجم أو ملف منسق ك CSV، مضغوط باستخدام ZIP (أرشيف أو ملف واحد)MyData.json.gz
يشير إلى كائن ثنائي كبير الحجم أو ملف منسق ك JSON، مضغوط مع GZip.
يتم أيضا دعم أسماء الكائنات الثنائية كبيرة الحجم أو الملفات التي لا تتضمن ملحقات التنسيق ولكن الضغط فقط (على سبيل المثال، MyData.zip
) أيضا. في هذه الحالة، يجب تحديد تنسيق الملف كخاصية استيعاب لأنه لا يمكن الاستدلال عليه.
إشعار
- تتبع بعض تنسيقات الضغط ملحق الملف الأصلي كجزء من الدفق المضغوط. يتم تجاهل هذا الملحق بشكل عام لتحديد تنسيق الملف. إذا تعذر تحديد تنسيق الملف من الكائن الثنائي كبير الحجم (المضغوط) أو اسم الملف، فيجب تحديده من خلال
format
خاصية الاستيعاب. - عدم الخلط بين برنامج ترميز الضغط الداخلي (مستوى المجموعة) المستخدم من قبل التنسيقات
Parquet
وAVRO
وORC
. عادة ما تتم إضافة اسم الضغط الداخلي إلى اسم ملف قبل ملحق تنسيق الملف، على سبيل المثال:file1.gz.parquet
،file1.snappy.avro
، وما إلى ذلك.
الخطوات التالية
- تعرف على المزيد حول استيعاب البيانات
- تعرف على المزيد حول خصائص استيعاب البيانات