إنشاء جدول أو تعديله باستخدام تحميل الملف

تتيح لك صفحة إنشاء جدول أو تعديله باستخدام تحميل الملف تحميل ملفات CSV أو TSV أو JSON أو Avro أو Parquet أو الملفات النصية لإنشاء جدول Delta Lake مدار أو الكتابة فوقه.

يمكنك إنشاء جداول دلتا المدارة في كتالوج Unity أو في Hive metastore.

إشعار

بالإضافة إلى ذلك، يمكنك استخدام واجهة مستخدم إضافة بيانات أو COPY INTO لتحميل الملفات من التخزين السحابي.

هام

  • يجب أن يكون لديك حق الوصول إلى مورد حساب قيد التشغيل وأذونات لإنشاء جداول في مخطط هدف.
  • يمكن لمسؤولي مساحة العمل تعطيل صفحة إنشاء جدول أو تعديله باستخدام تحميل الملف.

يمكنك استخدام واجهة المستخدم لإنشاء جدول Delta عن طريق استيراد ملفات CSV أو TSV أو JSON أو Avro أو Parquet أو الملفات النصية الصغيرة من جهازك المحلي.

  • تدعم صفحة إنشاء جدول أو تعديله باستخدام تحميل الملف تحميل ما يصل إلى 10 ملفات في كل مرة.
  • يجب أن يكون الحجم الإجمالي للملفات التي تم تحميلها أقل من 2 غيغابايت.
  • يجب أن يكون الملف ملف CSV أو TSV أو JSON أو Avro أو Parquet أو نصيا وأن يحتوي على الملحق ".csv" أو ".tsv" (أو "tab") أو ".json" أو ".avro" أو ".parquet" أو ".txt".
  • الملفات المضغوطة مثل zip والملفات tar غير معتمدة.

تحميل الملف

  1. انقر فوق أيقونة جديدة إضافة بيانات جديدة.>
  2. انقر فوق إنشاء جدول أو تعديله.
  3. انقر فوق زر مستعرض الملفات أو اسحب الملفات وأسقطها مباشرة على منطقة الإفلات.

إشعار

يتم تحميل الملفات المستوردة إلى موقع داخلي آمن داخل حسابك يتم جمع البيانات المهملة يوميا.

معاينة جدول وتكوينه وإنشاءه

يمكنك تحميل البيانات إلى منطقة التقسيم المرحلي دون الاتصال بموارد الحساب، ولكن يجب تحديد مورد حساب نشط لمعاينة الجدول وتكوينه.

يمكنك معاينة 50 صفا من بياناتك عند تكوين خيارات الجدول الذي تم تحميله. انقر فوق أزرار الشبكة أو القائمة أسفل اسم الملف لتبديل العرض التقديمي للبيانات.

يخزن Azure Databricks ملفات البيانات للجداول المدارة في المواقع التي تم تكوينها للمخطط المحتوي. تحتاج إلى أذونات مناسبة لإنشاء جدول في مخطط.

حدد المخطط المطلوب لإنشاء جدول من خلال القيام بما يلي:

  1. (بالنسبة لمساحات العمل الممكنة على كتالوج Unity فقط) يمكنك تحديد كتالوج أو القديم hive_metastore.
  2. حدد مخططا.
  3. (اختياري) تحرير اسم الجدول.

إشعار

يمكنك استخدام القائمة المنسدلة لتحديد الكتابة فوق الجدول الموجود أو إنشاء جدول جديد. تعرض العمليات التي تحاول إنشاء جداول جديدة مع تعارضات الأسماء رسالة خطأ.

يمكنك تكوين الخيارات أو الأعمدة قبل إنشاء الجدول.

لإنشاء الجدول، انقر فوق إنشاء في أسفل الصفحة.

خيارات التنسيق

تعتمد خيارات التنسيق على تنسيق الملف الذي تقوم بتحميله. تظهر خيارات التنسيق الشائعة في شريط الرأس، بينما تتوفر خيارات أقل استخداما في مربع الحوار سمات متقدمة .

  • بالنسبة إلى CSV، تتوفر الخيارات التالية:
    • يحتوي الصف الأول على العنوان (ممكن بشكل افتراضي): يحدد هذا الخيار ما إذا كان ملف CSV/TSV يحتوي على رأس.
    • محدد العمود: حرف الفاصل بين الأعمدة. يسمح بحرف واحد فقط، ولا يتم اعتماد المائل المائل عكسيا. هذا افتراضيا إلى فاصلة لملفات CSV.
    • الكشف تلقائيا عن أنواع الأعمدة (ممكنة بشكل افتراضي): الكشف تلقائيا عن أنواع الأعمدة من محتوى الملف. يمكنك تحرير الأنواع في جدول المعاينة. إذا تم تعيين هذا إلى خطأ، يتم استنتاج جميع أنواع الأعمدة ك STRING.
    • تمتد الصفوف إلى أسطر متعددة (معطل بشكل افتراضي): ما إذا كانت قيمة العمود يمكن أن تمتد عبر أسطر متعددة في الملف.
    • دمج المخطط عبر ملفات متعددة: ما إذا كنت تريد استنتاج المخطط عبر ملفات متعددة ودمج مخطط كل ملف. إذا تم تعطيله، يتم استخدام المخطط من ملف واحد.
  • بالنسبة إلى JSON، تتوفر الخيارات التالية:
    • الكشف تلقائيا عن أنواع الأعمدة (ممكنة بشكل افتراضي): الكشف تلقائيا عن أنواع الأعمدة من محتوى الملف. يمكنك تحرير الأنواع في جدول المعاينة. إذا تم تعيين هذا إلى خطأ، يتم استنتاج جميع أنواع الأعمدة ك STRING.
    • تمتد الصفوف عبر أسطر متعددة (ممكنة بشكل افتراضي): ما إذا كانت قيمة العمود يمكن أن تمتد عبر أسطر متعددة في الملف.
    • السماح بالتعليقات (ممكنة بشكل افتراضي): ما إذا كان يسمح بالتعليقات في الملف.
    • السماح بعلامات اقتباس مفردة (ممكنة بشكل افتراضي): ما إذا كان يسمح بعلامات اقتباس مفردة في الملف.
    • الطابع الزمني للاستدلال (ممكن بشكل افتراضي): ما إذا كنت تريد محاولة استنتاج سلاسل الطابع الزمني ك TimestampType.
  • بالنسبة إلى JSON، تتوفر الخيارات التالية:
    • الكشف تلقائيا عن أنواع الأعمدة (ممكنة بشكل افتراضي): الكشف تلقائيا عن أنواع الأعمدة من محتوى الملف. يمكنك تحرير الأنواع في جدول المعاينة. إذا تم تعيين هذا إلى خطأ، يتم استنتاج جميع أنواع الأعمدة ك STRING.
    • تمتد الصفوف إلى أسطر متعددة (معطل بشكل افتراضي): ما إذا كانت قيمة العمود يمكن أن تمتد عبر أسطر متعددة في الملف.
    • السماح بالتعليقات سواء تم السماح بالتعليقات في الملف.
    • السماح بعلامات اقتباس مفردة: ما إذا كان يسمح بعلامات اقتباس مفردة في الملف.
    • الطابع الزمني للاستدلال: ما إذا كنت تريد محاولة استنتاج سلاسل الطابع الزمني ك TimestampType.

يتم تحديث معاينة البيانات تلقائيا عند تحرير خيارات التنسيق.

إشعار

عند تحميل ملفات متعددة، يتم تطبيق القواعد التالية:

  • تنطبق إعدادات الرأس على جميع الملفات. تأكد من غياب الرؤوس أو وجودها باستمرار في جميع الملفات التي تم تحميلها لتجنب فقدان البيانات.
  • يتم دمج الملفات التي تم تحميلها عن طريق إلحاق كافة البيانات كصفوف في الجدول الهدف. الانضمام إلى السجلات أو دمجها أثناء تحميل الملف غير معتمد.

أسماء الأعمدة وأنواعها

يمكنك تحرير أسماء الأعمدة وأنواعها.

  • لتحرير الأنواع، انقر فوق الأيقونة التي تتضمن النوع .

    إشعار

    لا يمكنك تحرير الأنواع المتداخلة ل STRUCT أو ARRAY.

  • لتحرير اسم العمود، انقر فوق مربع الإدخال في أعلى العمود.

    لا تدعم أسماء الأعمدة الفواصل أو المائلة المائلة للخلف أو أحرف unicode (مثل رموز المشاعر).

يتم استنتاج أنواع بيانات العمود بشكل افتراضي لملفات CSV وJSON. يمكنك تفسير كافة الأعمدة على أنها STRING نوع عن طريق تعطيل السمات المتقدمة الكشف تلقائيا عن أنواع الأعمدة>.

إشعار

  • يقوم استنتاج المخطط بأفضل جهد للكشف عن أنواع الأعمدة. يمكن أن يؤدي تغيير أنواع الأعمدة إلى تحويل بعض القيم إلى NULL إذا تعذر تحويل القيمة بشكل صحيح إلى نوع البيانات الهدف. التحويل BIGINT إلى DATE أو TIMESTAMP الأعمدة غير معتمد. توصي Databricks بإنشاء جدول أولا ثم تحويل هذه الأعمدة باستخدام وظائف SQL بعد ذلك.
  • لدعم أسماء أعمدة الجدول ذات الأحرف الخاصة، تستفيد صفحة إنشاء جدول أو تعديله باستخدام تحميل الملف من تعيين العمود.
  • لإضافة تعليقات إلى الأعمدة، قم بإنشاء الجدول وانتقل إلى مستكشف الكتالوج حيث يمكنك إضافة تعليقات.

أنواع البيانات المدعومة

تدعم صفحة إنشاء جدول أو تعديله باستخدام تحميل الملف أنواع البيانات التالية. لمزيد من المعلومات حول أنواع البيانات الفردية، راجع أنواع بيانات SQL.

نوع البيانات ‏‏الوصف
BIGINT أرقام عدد صحيح موقعة من 8 بايت.
BOOLEAN القيم المنطقية (true، false) .
DATE القيم التي تتكون من قيم حقول السنة والشهر واليوم، دون منطقة زمنية.
DOUBLE أرقام النقطة العائمة المزدوجة الدقة 8 بايت.
STRING قيم سلسلة الأحرف.
TIMESTAMP القيم التي تتكون من قيم الحقول السنة والشهر واليوم والساعة والدقيقة والثانية، مع المنطقة الزمنية المحلية لجلسة العمل.
STRUCT القيم ذات البنية الموضحة بواسطة تسلسل من الحقول.
ARRAY القيم التي تتألف من سلسلة من العناصر مع النوع
elementType.
DECIMAL(P,S) الأرقام ذات الدقة P القصوى والمقياس Sالثابت .

المشكلات المعروفة

قد يؤدي التحويل BIGINT إلى أنواع غير قابلة للصب مثل DATE، مثل التواريخ بتنسيق "yyyy"، إلى حدوث أخطاء.