تحميل البيانات باستخدام موقع خارجي كتالوج Unity
توضح هذه المقالة كيفية استخدام واجهة مستخدم إضافة بيانات لإنشاء جدول مدار من البيانات في Azure Data Lake Storage Gen2 باستخدام موقع خارجي كتالوج Unity. الموقع الخارجي هو كائن يجمع بين مسار تخزين سحابي وبيانات اعتماد تخزين تخول الوصول إلى مسار التخزين السحابي.
للحصول على أساليب أخرى لتحميل البيانات باستخدام مواقع خارجية، راجع إنشاء جدول من الملفات المخزنة في مستأجر السحابة.
قبل البدء
قبل أن تبدأ، يجب أن يكون لديك ما يلي:
- مساحة عمل مع تمكين كتالوج Unity. لمزيد من المعلومات، راجع إعداد كتالوج Unity وإدارته.
- الامتياز
READ FILES
على الموقع الخارجي. لمزيد من المعلومات، راجع إنشاء موقع خارجي لتوصيل التخزين السحابي ب Azure Databricks. - الامتياز
CREATE TABLE
على المخطط الذي تريد إنشاء الجدول المدار فيه،USE SCHEMA
والامتياز على المخطط، والامتيازUSE CATALOG
على الكتالوج الأصل. لمزيد من المعلومات، راجع امتيازات كتالوج Unity والكائنات القابلة للتأمين.
أنواع الملفات
أنواع الملفات التالية مدعومة:
- CSV
- TSV
- JSON
- XML
- AVRO
- Parquet
الخطوة 1: تأكيد الوصول إلى الموقع الخارجي
لتأكيد الوصول إلى الموقع الخارجي، قم بما يلي:
- في الشريط الجانبي لمساحة عمل Azure Databricks، انقر فوق كتالوج.
- في مستكشف الكتالوج، انقر فوق المواقع الخارجية للبيانات> الخارجية.
الخطوة 2: إنشاء الجدول المدار
لإنشاء الجدول المدار، قم بما يلي:
في الشريط الجانبي لمساحة العمل، انقر فوق + إضافة بيانات جديدة>.
في واجهة مستخدم إضافة البيانات، انقر فوق Azure Data Lake Storage.
حدد موقعا خارجيا من القائمة المنسدلة.
حدد المجلدات والملفات التي تريد تحميلها في Azure Databricks، ثم انقر فوق معاينة الجدول.
حدد كتالوج ومخطط من القوائم المنسدلة.
(اختياري) تحرير اسم الجدول.
(اختياري) لتعيين خيارات تنسيق متقدمة حسب نوع الملف، انقر فوق سمات متقدمة، وقم بإيقاف تشغيل الكشف التلقائي عن نوع الملف، ثم حدد نوع ملف.
للحصول على قائمة بخيارات التنسيق، راجع القسم التالي.
(اختياري) لتحرير اسم العمود، انقر فوق مربع الإدخال في أعلى العمود.
لا تدعم أسماء الأعمدة الفواصل أو المائلة المائلة للخلف أو أحرف unicode (مثل رموز المشاعر).
(اختياري) لتحرير أنواع الأعمدة، انقر فوق الأيقونة التي تحتوي على النوع.
انقر فوق إنشاء جدول.
خيارات تنسيق نوع الملف
تتوفر خيارات التنسيق التالية، استنادا إلى نوع الملف:
خيار التنسيق | الوصف | أنواع الملفات المدعومة |
---|---|---|
Column delimiter |
حرف الفاصل بين الأعمدة. يسمح بحرف واحد فقط، ولا يتم اعتماد المائل المائل عكسيا. الإعداد الافتراضي هو فاصلة. |
CSV |
Escape character |
حرف الإلغاء المراد استخدامه عند تحليل البيانات. الإعداد الافتراضي هو علامة اقتباس. |
CSV |
First row contains the header |
يحدد هذا الخيار ما إذا كان الملف يحتوي على رأس. ممكَّن بشكل افتراضي. |
CSV |
Automatically detect file type |
الكشف تلقائيا عن نوع الملف. القيمة الافتراضية هي true . |
XML |
Automatically detect column types |
الكشف تلقائيا عن أنواع الأعمدة من محتوى الملف. يمكنك تحرير الأنواع في جدول المعاينة. إذا تم تعيين هذا إلى خطأ، يتم استنتاج جميع أنواع الأعمدة ك STRING. ممكَّن بشكل افتراضي. |
*Csv *Json *Xml |
Rows span multiple lines |
ما إذا كانت قيمة العمود يمكن أن تمتد عبر أسطر متعددة في الملف. خيار معطّل بشكل افتراضي. |
*Csv *Json |
Merge the schema across multiple files |
ما إذا كنت تريد استنتاج المخطط عبر ملفات متعددة ودمج مخطط كل ملف. ممكَّن بشكل افتراضي. |
CSV |
Allow comments |
ما إذا كان يسمح بالتعليقات في الملف. ممكَّن بشكل افتراضي. |
JSON |
Allow single quotes |
ما إذا كان يسمح بعلامات اقتباس مفردة في الملف. ممكَّن بشكل افتراضي. |
JSON |
Infer timestamp |
ما إذا كنت تريد محاولة استنتاج سلاسل الطابع الزمني ك TimestampType .ممكَّن بشكل افتراضي. |
JSON |
Rescued data column |
ما إذا كنت تريد حفظ الأعمدة التي لا تتطابق مع المخطط. لمزيد من المعلومات، راجع ما هو عمود البيانات الذي تم إنقاذه؟. ممكَّن بشكل افتراضي. |
*Csv *Json *افرو *الباركيه |
Exclude attribute |
ما إذا كان سيتم استبعاد السمات في العناصر. القيمة الافتراضية هي false . |
XML |
Attribute prefix |
بادئة السمات لتمييز السمات والعناصر. القيمة الافتراضية هي _ . |
XML |
أنواع بيانات العمود
أنواع بيانات العمود التالية مدعومة. لمزيد من المعلومات حول أنواع البيانات الفردية، راجع أنواع بيانات SQL.
نوع البيانات | الوصف |
---|---|
BIGINT |
أرقام عدد صحيح موقعة من 8 بايت. |
BOOLEAN |
القيم المنطقية (true ، false ) . |
DATE |
واليوم، بدون منطقة زمنية. |
DECIMAL (P,S) |
الأرقام ذات الدقة P القصوى والمقياس S الثابت . |
DOUBLE |
أرقام النقطة العائمة المزدوجة الدقة 8 بايت. |
STRING |
قيم سلسلة الأحرف. |
TIMESTAMP |
القيم التي تتكون من قيم الحقول السنة والشهر واليوم والساعة والدقيقة والثانية، مع المنطقة الزمنية المحلية لجلسة العمل. |
مشكلات معروفة
- قد تواجه مشكلات مع أحرف خاصة في أنواع البيانات المعقدة، مثل كائن JSON مع مفتاح يحتوي على خلفية أو نقطتين.
- قد تتطلب بعض ملفات JSON تحديد JSON يدويا لنوع الملف. لتحديد نوع ملف يدويا بعد تحديد الملفات، انقر فوق سمات متقدمة، وقم بإيقاف تشغيل الكشف التلقائي عن نوع الملف، ثم حدد JSON.
- قد تواجه الطوابع الزمنية والالأرقام العشرية المتداخلة داخل الأنواع المعقدة مشكلات.