تحليل البيانات في حساب التخزين

في هذا البرنامج التعليمي، ستتعلم كيفية تحليل البيانات الموجودة في حساب التخزين.

نظرة عامة

حتى الآن، قمنا بتغطية السيناريوهات حيث توجد البيانات في قواعد البيانات في مساحة العمل. سنعرض لك الآن كيفية العمل مع الملفات في حسابات التخزين. في هذا السيناريو، سنستخدم حساب التخزين الأساسي لمساحة العمل والحاوية التي حددناها عند إنشاء مساحة العمل.

  • اسم حساب التخزين: ⁧⁩contosolake⁧
  • اسم الحاوية في حساب التخزين: ⁧⁩المستخدمون⁧

قم بإنشاء ملفات CSV وParquet في حساب التخزين الخاص بك

قم بتشغيل التعليمة البرمجية التالية في دفتر ملاحظات في خلية تعليمات برمجية جديدة. يقوم بإنشاء ملف CSV وملف Parquet في حساب التخزين.

%%pyspark
df = spark.sql("SELECT * FROM nyctaxi.passengercountstats")
df = df.repartition(1) # This ensures we'll get a single file during write()
df.write.mode("overwrite").csv("/NYCTaxi/PassengerCountStats_csvformat")
df.write.mode("overwrite").parquet("/NYCTaxi/PassengerCountStats_parquetformat")

تحليل البيانات في حساب التخزين

يمكنك تحليل البيانات في مساحة العمل الافتراضية حساب ADLS Gen2 أو يمكنك ربط حساب تخزين ADLS Gen2 أو Blob بمساحة العمل الخاصة بك من خلال "إدارة" ">الخدمات المرتبطة" >"جديد" (ستشير الخطوات أدناه إلى حساب ADLS Gen2 الأساسي).

  1. في Synapse Studio، انتقل إلى محور ⁧⁩البيانات⁧⁩ ثم حدد ⁧⁩مرتبطة⁧⁩.

  2. انتقل إلى ⁧⁩Azure Data Lake Storage Gen2⁧⁩⁧>⁩⁧⁩myworkspace (أساسي - contosolake)⁧⁩.

  3. حدد ⁧⁩مستخدمين (أساسي)⁧⁩. من المفترض أن ترى المجلد ⁧⁩NYCTaxi⁧⁩. سترى بالداخل مجلدين باسم ⁧⁩PassengerCountStats_csvformat⁧⁩ و⁧⁩PassengerCountStats_parquetformat⁧⁩.

  4. افتح المجلد ⁧⁩PassengerCountStats_parquetformat⁧⁩. بالداخل، سترى ملف Parquet باسم مثل ⁧part-00000-2638e00c-0790-496b-a523-578da9a15019-c000.snappy.parquet⁩.

  5. انقر بزر الماوس الأيمن على ⁧⁩.parquet⁧⁩، ثم حدد ⁧⁩دفتر ملاحظات جديد⁧⁩، ثم حدد ⁧⁩تحميل إلى DataFrame⁧⁩. يتم إنشاء دفتر ملاحظات جديد بخلية مثل هذه:

    %%pyspark
    abspath = 'abfss://users@contosolake.dfs.core.windows.net/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet'
    df = spark.read.load(abspath, format='parquet')
    display(df.limit(10))
    
  6. قم بالتوصيل بمجمع Spark المسمى ⁧⁩Spark1⁧⁩. قم بتشغيل الخلية. إذا واجهت خطأ يتعلق بنقص الذاكرات الأساسية، فقد تستخدم جلسة عمل أخرى تجمع spark هذا. قم بإلغاء جميع جلسات العمل الحالية وأعد المحاولة.

  7. حدد مرة أخرى إلى مجلد ⁧⁩المستخدمين.⁧⁩ انقر بزر الماوس الأيمن فوق ملف ⁧⁩.parquet⁧⁩ مرة أخرى، ثم حدد ⁧⁩برنامج نصي SQL جديد⁧⁩⁧>⁩⁧⁩تحديد أفضل 100 صف⁧⁩. يقوم بإنشاء برنامج نصي SQL مثل هذا:

    SELECT 
        TOP 100 *
    FROM OPENROWSET(
        BULK 'https://contosolake.dfs.core.windows.net/users/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet',
        FORMAT='PARQUET'
    ) AS [result]
    

    في إطار البرنامج النصي، تأكد من تعيين ⁧⁩الحقل الاتصال إلى⁧⁩ تجمع SQL المضمنة بلا خادم. ⁧⁩⁧

  8. قم بتشغيل البرنامج النصي.

الخطوات التالية