تنسيقات البيانات التي يدعمها مستكشف بيانات Azure Synapse لاستيعابها (معاينة)

استيعاب البيانات هو العملية التي يتم من خلالها إضافة البيانات إلى جدول وإتاحتها للاستعلام في Data Explorer. بالنسبة لجميع أساليب الاستيعاب، بخلاف الاستيعاب من الاستعلام، يجب أن تكون البيانات في أحد التنسيقات المدعومة. يسرد الجدول التالي ويصف التنسيقات التي يدعمها Data Explorer لاستيعاب البيانات.

إشعار

قبل استيعاب البيانات، تأكد من تنسيق البيانات بشكل صحيح وتحديد الحقول المتوقعة. نوصي باستخدام المدقق المفضل لديك لتأكيد صحة التنسيق. على سبيل المثال، قد تجد المدققات التالية مفيدة للتحقق من ملفات CSV أو JSON:

لمزيد من المعلومات حول سبب فشل الاستيعاب، راجع فشل الاستيعابورموز خطأ الاستيعاب في Data Explorer.

تنسيق ملحق ‏‏الوصف
ApacheAvro .avro تنسيق AVRO مع دعم لأنواع منطقية. يتم دعم برامج ترميز الضغط التالية: nullو deflateوsnappy. يعتمد تنفيذ apacheavro القارئ للتنسيق على مكتبة Apache Avro الرسمية.
Avro .avro تطبيق قديم لتنسيق AVRO استنادا إلى مكتبة .NET. يتم دعم برامج ترميز الضغط التالية: null، deflate (لـ snappy - استخدام ApacheAvro تنسيق البيانات).
CSV .csv ملف نصي مع قيم مفصولة بفواصل (,). راجع RFC 4180: التنسيق الشائع ونوع MIME لملفات قيم Comma-Separated (CSV).
JSON .json ملف نصي مع كائنات JSON محددة بواسطة \n أو \r\n. راجع خطوط JSON (JSONL).
MultiJSON .multijson ملف نصي مع صفيف JSON من أكياس الخصائص (يمثل كل منها سجلا)، أو أي عدد من أكياس الخصائص المحددة بواسطة المسافة البيضاء، \n أو \r\n. يمكن توزيع كل حقيبة خاصية على أسطر متعددة. يفضل هذا التنسيق على JSON، ما لم تكن البيانات عبارة عن أكياس غير متعلقة بالخصائص.
ORC .orc ملف ORC.
Parquet .parquet ملف Parquet.
PSV .psv ملف نصي مع قيم فصل توجيه الإخراج (|).
RAW .raw ملف نصي تكون محتوياته بأكملها قيمة سلسلة واحدة.
SCsv .scsv ملف نصي بقيم مفصولة بفواصل منقوطة (;).
SOHsv .sohsv ملف نصي مع قيم مفصولة بـ SOH. (SOH هو ASCII codepoint 1؛ يتم استخدام هذا التنسيق بواسطة Hive على HDInsight.)
TSV .tsv ملف نصي مع قيم مفصولة بعلامات التبويب (\t).
TSVE .tsv ملف نصي مع قيم مفصولة بعلامات التبويب (\t). يتم استخدام حرف مائل عكسي (\) للخروج.
TXT .txt ملف نصي بخطوط محددة بواسطة \n. يتم تخطي الأسطر الفارغة.
W3CLOGFILE .log تنسيق ملف سجل الويب الموحد بواسطة W3C.

تنسيقات ضغط البيانات المدعومة

يمكن ضغط الكائنات الثنائية كبيرة الحجم والملفات من خلال أي من خوارزميات الضغط التالية:

الضغط ملحق
gzip .gz
الرمز البريدي .zip

الإشارة إلى الضغط عن طريق إلحاق الملحق باسم الكائن الثنائي كبير الحجم أو الملف.

على سبيل المثال:

  • MyData.csv.zip يشير إلى كائن ثنائي كبير الحجم أو ملف منسق ك CSV، مضغوط باستخدام ZIP (أرشيف أو ملف واحد)
  • MyData.json.gz يشير إلى كائن ثنائي كبير الحجم أو ملف منسق ك JSON، مضغوط مع GZip.

يتم أيضا دعم أسماء الكائنات الثنائية كبيرة الحجم أو الملفات التي لا تتضمن ملحقات التنسيق ولكن الضغط فقط (على سبيل المثال، MyData.zip) أيضا. في هذه الحالة، يجب تحديد تنسيق الملف كخاصية استيعاب لأنه لا يمكن الاستدلال عليه.

إشعار

  • تتبع بعض تنسيقات الضغط ملحق الملف الأصلي كجزء من الدفق المضغوط. يتم تجاهل هذا الملحق بشكل عام لتحديد تنسيق الملف. إذا تعذر تحديد تنسيق الملف من الكائن الثنائي كبير الحجم (المضغوط) أو اسم الملف، فيجب تحديده من خلال format خاصية الاستيعاب.
  • عدم الخلط بين برنامج ترميز الضغط الداخلي (مستوى المجموعة) المستخدم من قبل التنسيقات Parquet و AVRO و ORC. عادة ما تتم إضافة اسم الضغط الداخلي إلى اسم ملف قبل ملحق تنسيق الملف، على سبيل المثال: file1.gz.parquet، file1.snappy.avro، وما إلى ذلك.

الخطوات التالية