تحليل البيانات في حساب التخزين
في هذا البرنامج التعليمي، ستتعلم كيفية تحليل البيانات الموجودة في حساب التخزين.
نظرة عامة
حتى الآن، قمنا بتغطية السيناريوهات حيث توجد البيانات في قواعد البيانات في مساحة العمل. سنعرض لك الآن كيفية العمل مع الملفات في حسابات التخزين. في هذا السيناريو، سنستخدم حساب التخزين الأساسي لمساحة العمل والحاوية التي حددناها عند إنشاء مساحة العمل.
- اسم حساب التخزين: contosolake
- اسم الحاوية في حساب التخزين: المستخدمون
قم بإنشاء ملفات CSV وParquet في حساب التخزين الخاص بك
قم بتشغيل التعليمة البرمجية التالية في دفتر ملاحظات في خلية تعليمات برمجية جديدة. يقوم بإنشاء ملف CSV وملف Parquet في حساب التخزين.
%%pyspark
df = spark.sql("SELECT * FROM nyctaxi.passengercountstats")
df = df.repartition(1) # This ensures we'll get a single file during write()
df.write.mode("overwrite").csv("/NYCTaxi/PassengerCountStats_csvformat")
df.write.mode("overwrite").parquet("/NYCTaxi/PassengerCountStats_parquetformat")
تحليل البيانات في حساب التخزين
يمكنك تحليل البيانات في مساحة العمل الافتراضية حساب ADLS Gen2 أو يمكنك ربط حساب تخزين ADLS Gen2 أو Blob بمساحة العمل الخاصة بك من خلال "إدارة" ">الخدمات المرتبطة" >"جديد" (ستشير الخطوات أدناه إلى حساب ADLS Gen2 الأساسي).
في Synapse Studio، انتقل إلى محور البيانات ثم حدد مرتبطة.
انتقل إلى Azure Data Lake Storage Gen2>myworkspace (أساسي - contosolake).
حدد مستخدمين (أساسي). من المفترض أن ترى المجلد NYCTaxi. سترى بالداخل مجلدين باسم PassengerCountStats_csvformat وPassengerCountStats_parquetformat.
افتح المجلد PassengerCountStats_parquetformat. بالداخل، سترى ملف Parquet باسم مثل
part-00000-2638e00c-0790-496b-a523-578da9a15019-c000.snappy.parquet
.انقر بزر الماوس الأيمن على .parquet، ثم حدد دفتر ملاحظات جديد، ثم حدد تحميل إلى DataFrame. يتم إنشاء دفتر ملاحظات جديد بخلية مثل هذه:
%%pyspark abspath = 'abfss://users@contosolake.dfs.core.windows.net/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet' df = spark.read.load(abspath, format='parquet') display(df.limit(10))
قم بالتوصيل بمجمع Spark المسمى Spark1. قم بتشغيل الخلية. إذا واجهت خطأ يتعلق بنقص الذاكرات الأساسية، فقد تستخدم جلسة عمل أخرى تجمع spark هذا. قم بإلغاء جميع جلسات العمل الحالية وأعد المحاولة.
حدد مرة أخرى إلى مجلد المستخدمين. انقر بزر الماوس الأيمن فوق ملف .parquet مرة أخرى، ثم حدد برنامج نصي SQL جديد>تحديد أفضل 100 صف. يقوم بإنشاء برنامج نصي SQL مثل هذا:
SELECT TOP 100 * FROM OPENROWSET( BULK 'https://contosolake.dfs.core.windows.net/users/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet', FORMAT='PARQUET' ) AS [result]
في إطار البرنامج النصي، تأكد من تعيين الحقل الاتصال إلى تجمع SQL المضمنة بلا خادم.
قم بتشغيل البرنامج النصي.