تحميل البيانات باستخدام موقع خارجي كتالوج Unity

هام

هذه الميزة في المعاينة العامة.

توضح هذه المقالة كيفية استخدام واجهة مستخدم إضافة بيانات لإنشاء جدول مدار من البيانات في Azure Data Lake Storage Gen2 باستخدام موقع خارجي كتالوج Unity. الموقع الخارجي هو كائن يجمع بين مسار تخزين سحابي وبيانات اعتماد تخزين تخول الوصول إلى مسار التخزين السحابي.

للحصول على أساليب أخرى لتحميل البيانات باستخدام مواقع خارجية، راجع إنشاء جدول من الملفات المخزنة في مستأجر السحابة.

قبل البدء

قبل أن تبدأ، يجب أن يكون لديك ما يلي:

أنواع الملفات

أنواع الملفات التالية مدعومة:

  • CSV
  • TSV
  • JSON
  • XML
  • AVRO
  • Parquet

الخطوة 1: تأكيد الوصول إلى الموقع الخارجي

لتأكيد الوصول إلى الموقع الخارجي، قم بما يلي:

  1. في الشريط الجانبي لمساحة عمل Azure Databricks، انقر فوق كتالوج.
  2. في مستكشف الكتالوج، انقر فوق المواقع الخارجية للبيانات> الخارجية.

الخطوة 2: إنشاء الجدول المدار

لإنشاء الجدول المدار، قم بما يلي:

  1. في الشريط الجانبي لمساحة العمل، انقر فوق + إضافة بيانات جديدة>.

  2. في واجهة مستخدم إضافة البيانات، انقر فوق Azure Data Lake Storage.

  3. حدد موقعا خارجيا من القائمة المنسدلة.

  4. حدد المجلدات والملفات التي تريد تحميلها في Azure Databricks، ثم انقر فوق معاينة الجدول.

  5. حدد كتالوج ومخطط من القوائم المنسدلة.

  6. (اختياري) تحرير اسم الجدول.

  7. (اختياري) لتعيين خيارات تنسيق متقدمة حسب نوع الملف، انقر فوق سمات متقدمة، وقم بإيقاف تشغيل الكشف التلقائي عن نوع الملف، ثم حدد نوع ملف.

    للحصول على قائمة بخيارات التنسيق، راجع القسم التالي.

  8. (اختياري) لتحرير اسم العمود، انقر فوق مربع الإدخال في أعلى العمود.

    لا تدعم أسماء الأعمدة الفواصل أو المائلة المائلة للخلف أو أحرف unicode (مثل رموز المشاعر).

  9. (اختياري) لتحرير أنواع الأعمدة، انقر فوق الأيقونة التي تحتوي على النوع.

  10. انقر فوق إنشاء جدول.

خيارات تنسيق نوع الملف

تتوفر خيارات التنسيق التالية، استنادا إلى نوع الملف:

خيار التنسيق ‏‏الوصف أنواع الملفات المدعومة
Column delimiter حرف الفاصل بين الأعمدة. يسمح بحرف واحد فقط، ولا يتم اعتماد المائل المائل عكسيا.

الإعداد الافتراضي هو فاصلة.
CSV
Escape character حرف الإلغاء المراد استخدامه عند تحليل البيانات.

الإعداد الافتراضي هو علامة اقتباس.
CSV
First row contains the header يحدد هذا الخيار ما إذا كان الملف يحتوي على رأس.

ممكَّن بشكل افتراضي.
CSV
Automatically detect file type الكشف تلقائيا عن نوع الملف. القيمة الافتراضية هي true. XML
Automatically detect column types الكشف تلقائيا عن أنواع الأعمدة من محتوى الملف. يمكنك تحرير الأنواع في جدول المعاينة. إذا تم تعيين هذا إلى خطأ، يتم استنتاج جميع أنواع الأعمدة ك STRING.

ممكَّن بشكل افتراضي.
*Csv

*Json
*Xml
Rows span multiple lines ما إذا كانت قيمة العمود يمكن أن تمتد عبر أسطر متعددة في الملف.

خيار معطّل بشكل افتراضي.
*Csv

*Json
Merge the schema across multiple files ما إذا كنت تريد استنتاج المخطط عبر ملفات متعددة ودمج مخطط كل ملف.

ممكَّن بشكل افتراضي.
CSV
Allow comments ما إذا كان يسمح بالتعليقات في الملف.

ممكَّن بشكل افتراضي.
JSON
Allow single quotes ما إذا كان يسمح بعلامات اقتباس مفردة في الملف.

ممكَّن بشكل افتراضي.
JSON
Infer timestamp ما إذا كنت تريد محاولة استنتاج سلاسل الطابع الزمني ك TimestampType.

ممكَّن بشكل افتراضي.
JSON
Rescued data column ما إذا كنت تريد حفظ الأعمدة التي لا تتطابق مع المخطط. لمزيد من المعلومات، راجع ما هو عمود البيانات الذي تم إنقاذه؟.

ممكَّن بشكل افتراضي.
*Csv

*Json
*افرو
*الباركيه
Exclude attribute ما إذا كان سيتم استبعاد السمات في العناصر. القيمة الافتراضية هي false. XML
Attribute prefix بادئة السمات لتمييز السمات والعناصر. القيمة الافتراضية هي _. XML

أنواع بيانات العمود

أنواع بيانات العمود التالية مدعومة. لمزيد من المعلومات حول أنواع البيانات الفردية، راجع أنواع بيانات SQL.

نوع البيانات ‏‏الوصف
BIGINT أرقام عدد صحيح موقعة من 8 بايت.
BOOLEAN القيم المنطقية (true، false) .
DATE واليوم، بدون منطقة زمنية.
DECIMAL (P,S) الأرقام ذات الدقة P القصوى والمقياس Sالثابت .
DOUBLE أرقام النقطة العائمة المزدوجة الدقة 8 بايت.
STRING قيم سلسلة الأحرف.
TIMESTAMP القيم التي تتكون من قيم الحقول السنة والشهر واليوم والساعة والدقيقة والثانية، مع المنطقة الزمنية المحلية لجلسة العمل.

مشكلات معروفة

  • قد تواجه مشكلات مع أحرف خاصة في أنواع البيانات المعقدة، مثل كائن JSON مع مفتاح يحتوي على خلفية أو نقطتين.
  • قد تتطلب بعض ملفات JSON تحديد JSON يدويا لنوع الملف. لتحديد نوع ملف يدويا بعد تحديد الملفات، انقر فوق سمات متقدمة، وقم بإيقاف تشغيل الكشف التلقائي عن نوع الملف، ثم حدد JSON.
  • قد تواجه الطوابع الزمنية والالأرقام العشرية المتداخلة داخل الأنواع المعقدة مشكلات.