تحليل البيانات في حساب التخزين

في هذا البرنامج التعليمي، ستتعلم كيفية تحليل البيانات الموجودة في حساب التخزين.

نظرة عامة

حتى الآن، قمنا بتغطية السيناريوهات حيث توجد البيانات في قواعد البيانات في مساحة العمل. سنعرض لك الآن كيفية العمل مع الملفات في حسابات التخزين. في هذا السيناريو، سنستخدم حساب التخزين الأساسي لمساحة العمل والحاوية التي حددناها عند إنشاء مساحة العمل.

  • اسم حساب التخزين: contosolake
  • اسم الحاوية في حساب التخزين: المستخدمون

قم بإنشاء ملفات CSV وParquet في حساب التخزين الخاص بك

قم بتشغيل التعليمة البرمجية التالية في دفتر ملاحظات في خلية تعليمات برمجية جديدة. يقوم بإنشاء ملف CSV وملف Parquet في حساب التخزين.

تلميح

تم إنشاء هذا الجدول في وقت سابق في التشغيل السريع، ويمكنك العثور على الخطوات هنا.

%%pyspark
df = spark.sql("SELECT * FROM nyctaxi.passengercountstats")
df = df.repartition(1) # This ensures we'll get a single file during write()
df.write.mode("overwrite").csv("/NYCTaxi/PassengerCountStats_csvformat")
df.write.mode("overwrite").parquet("/NYCTaxi/PassengerCountStats_parquetformat")

تحليل البيانات في حساب التخزين

يمكنك تحليل البيانات في حساب Azure Data Lake Storage (ADLS) Gen2 الافتراضي لمساحة العمل أو يمكنك ربط حساب تخزين ADLS Gen2 أو Blob بمساحة العمل الخاصة بك من خلال "إدارة" "الخدمات المرتبطة" > "الجديدة" > (ستشير الخطوات التالية إلى حساب ADLS Gen2 الأساسي).

  1. في Synapse Studio، انتقل إلى مركز البيانات ، ثم حدد Linked.

  2. انتقل إلى Azure Data Lake Storage Gen2>myworkspace (Primary - contosolake).

  3. حدد users (Primary). يجب أن تشاهد مجلد NYCTaxi . في الداخل، يجب أن ترى مجلدين يسمى PassengerCountStats_csvformat PassengerCountStats_parquetformat.

  4. افتح مجلد PassengerCountStats_parquetformat. في الداخل، يوجد ملف parquet باسم مثل part-00000-2638e00c-0790-496b-a523-578da9a15019-c000.snappy.parquet.

  5. انقر بزر الماوس الأيمن فوق .parquet، ثم حدد New notebook، ثم حدد Load to DataFrame. يتم إنشاء دفتر ملاحظات جديد بخلية مثل هذه:

    %%pyspark
    abspath = 'abfss://users@contosolake.dfs.core.windows.net/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet'
    df = spark.read.load(abspath, format='parquet')
    display(df.limit(10))
    
  6. إرفاق بتجمع Spark المسمى Spark1. قم بتشغيل الخلية. إذا واجهت خطأ يتعلق بنقص الذاكرات الأساسية، فقد تستخدم جلسة أخرى تجمع spark هذا تجمع Spark هذا. قم بإلغاء جميع جلسات العمل الموجودة وأعد المحاولة.

  7. حدد مرة أخرى إلى مجلد المستخدمين . انقر بزر الماوس الأيمن فوق ملف .parquet مرة أخرى، ثم حدد برنامج SQL النصي>الجديد SELECT TOP 100 صف. يقوم بإنشاء برنامج نصي SQL مثل هذا:

    SELECT 
        TOP 100 *
    FROM OPENROWSET(
        BULK 'https://contosolake.dfs.core.windows.net/users/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet',
        FORMAT='PARQUET'
    ) AS [result]
    

    في نافذة البرنامج النصي، تأكد من تعيين حقل الاتصال إلى تجمع SQL بلا خادم مضمن .

  8. قم بتشغيل البرنامج النصي

الخطوات التالية