تحميل البيانات باستخدام COPY INTO مع كيان الخدمة

توضح هذه المقالة كيفية استخدام COPY INTO الأمر لتحميل البيانات من حاوية Azure Data Lake Storage Gen2 (ADLS Gen2) في حساب Azure الخاص بك في جدول في Databricks SQL.

تفترض الخطوات الواردة في هذه المقالة أن المسؤول قد قام بتكوين مستودع SQL لاستخدام كيان خدمة Azure Databricks بحيث يمكنك الوصول إلى الملفات المصدر في ADLS Gen2. إذا قام المسؤول بتكوين موقع خارجي كتالوج Unity باستخدام بيانات اعتماد تخزين، فشاهد تحميل البيانات باستخدام COPY INTO مع وحدات تخزين كتالوج Unity أو المواقع الخارجية بدلا من ذلك. إذا أعطاك المسؤول بيانات اعتماد مؤقتة (رمز BLOB SAS المميز)، فاتبع الخطوات الواردة في تحميل البيانات باستخدام COPY INTO مع بيانات اعتماد مؤقتة بدلا من ذلك.

توصي Databricks باستخدام الأمر COPY INTO لتحميل البيانات المتزايدة والجملية باستخدام Databricks SQL.

إشعار

COPY INTO يعمل بشكل جيد لمصادر البيانات التي تحتوي على آلاف الملفات. توصي Databricks باستخدام أداة التحميل التلقائي لتحميل ملايين الملفات، وهو غير مدعوم في Databricks SQL.

قبل البدء

قبل تحميل البيانات إلى Azure Databricks، تأكد من أن لديك ما يلي:

  • الوصول إلى البيانات في ADLS Gen2. يجب على المسؤول أولا إكمال الخطوات الواردة في تكوين الوصول إلى البيانات للابتلاع حتى يتمكن مستودع Databricks SQL من قراءة الملفات المصدر.
  • مستودع Databricks SQL.
  • يمكن إدارة الإذن على مستودع SQL.
  • المسار إلى بياناتك في حاوية ADLS Gen2.
  • الإلمام بواجهة مستخدم Databricks SQL.

الخطوة 1: تأكيد الوصول إلى البيانات في التخزين السحابي

للتأكد من أن لديك حق الوصول إلى البيانات الصحيحة في تخزين كائن السحابة، قم بما يلي:

  1. في الشريط الجانبي، انقر فوق إنشاء > استعلام.

  2. في شريط قوائم محرر SQL، حدد مستودع SQL.

  3. في محرر SQL، الصق التعليمات البرمجية التالية:

    select * from csv.<path>
    

    استبدل <path> بمسار حاوية ADLS Gen2 الذي تلقيته من المسؤول. على سبيل المثال، abfss://<container>@<storage-account>.dfs.core.windows.net/<folder>.

  4. انقر فوق تشغيل.

الخطوة 2: إنشاء جدول

توضح هذه الخطوة كيفية إنشاء جدول في مساحة عمل Azure Databricks للاحتفاظ بالبيانات الواردة.

  1. في محرر SQL، الصق التعليمات البرمجية التالية:

    CREATE TABLE <catalog_name>.<schema_name>.<table_name> (
      tpep_pickup_datetime  TIMESTAMP,
      tpep_dropoff_datetime TIMESTAMP,
      trip_distance DOUBLE,
      fare_amount DOUBLE,
      pickup_zip INT,
      dropoff_zip INT
    );
    
  2. انقر فوق تشغيل.

الخطوة 3: تحميل البيانات من التخزين السحابي إلى الجدول

توضح هذه الخطوة كيفية تحميل البيانات من حاوية ADLS Gen2 إلى الجدول في مساحة عمل Azure Databricks.

  1. في الشريط الجانبي، انقر فوق إنشاء > استعلام.

  2. في شريط قوائم محرر SQL، حدد مستودع SQL وتأكد من تشغيل مستودع SQL.

  3. في محرر SQL، الصق التعليمات البرمجية التالية. في هذه التعليمة البرمجية، استبدل:

    • <container> باسم حاوية ADLS Gen2 داخل حساب التخزين الخاص بك.
    • <storage-account> باسم حساب تخزين ADLS Gen2 الخاص بك.
    • <folder> باسم المجلد الذي يحتوي على بياناتك.
    • <blob-sas-token> بقيمة الرمز المميز Blob SAS الذي تلقيته من المسؤول.
    COPY INTO <catalog-name>.<schema-name>.<table-name>
    FROM 'abfss://<container>@<storage-account>.dfs.core.windows.net/<folder>'
    FILEFORMAT = CSV
    FORMAT_OPTIONS (
      'header' = 'true',
      'inferSchema' = 'true'
    );
    
    SELECT * FROM <catalog-name>.<schema-name>.<table-name>;
    

    إشعار

    FORMAT_OPTIONS يختلف حسب FILEFORMAT. في هذه الحالة، header يرشد الخيار Azure Databricks إلى التعامل مع الصف الأول من ملف CSV كعنوان، وترشد inferSchema الخيارات Azure Databricks لتحديد نوع بيانات كل حقل تلقائيا في ملف CSV.

  4. انقر فوق تشغيل.

    إشعار

    إذا نقرت فوق تشغيل مرة أخرى، فلن يتم تحميل أي بيانات جديدة في الجدول. وذلك لأن COPY INTO الأمر يعالج فقط ما يعتبره بيانات جديدة.

تنظيف

يمكنك تنظيف الموارد المقترنة في مساحة العمل الخاصة بك إذا لم تعد ترغب في الاحتفاظ بها.

حذف الجداول

  1. في الشريط الجانبي، انقر فوق إنشاء > استعلام.

  2. حدد مستودع SQL وتأكد من تشغيل مستودع SQL.

  3. ألصق التعليمات البرمجية التالية:

    DROP TABLE <catalog-name>.<schema-name>.<table-name>;
    
  4. انقر فوق تشغيل.

  5. مرر مؤشر الماوس فوق علامة تبويب هذا الاستعلام، ثم انقر فوق أيقونة X .

حذف الاستعلامات في محرر SQL

  1. في الشريط الجانبي، انقر فوق محرر SQL.
  2. في شريط القوائم الخاص بمحرر SQL، مرر مؤشر الماوس فوق علامة التبويب لكل استعلام قمت بإنشائه لهذا البرنامج التعليمي، ثم انقر فوق أيقونة X .

الموارد الإضافية