Menganalisis data dalam akun penyimpanan
Dalam tutorial ini, Anda akan mempelajari cara menganalisis data yang terletak di akun penyimpanan.
Gambaran Umum
Sejauh ini, kita telah membahas skenario tentang data yang berada di database di ruang kerja. Sekarang kami akan menunjukkan kepada Anda cara bekerja dengan file di akun penyimpanan. Dalam skenario ini, kita akan menggunakan akun penyimpanan utama ruang kerja dan kontainer yang telah ditentukan saat membuat ruang kerja.
- Nama akun penyimpanan: contosolake
- Nama kontainer di akun penyimpanan: pengguna
Membuat file CSV dan Parquet di akun penyimpanan Anda
Jalankan kode berikut dalam buku catatan di sel kode baru. Ini akan membuat file CSV dan file parquet di akun penyimpanan.
Tip
Tabel ini dibuat sebelumnya di mulai cepat, dan Anda bisa menemukan langkah-langkahnya di sini.
%%pyspark
df = spark.sql("SELECT * FROM nyctaxi.passengercountstats")
df = df.repartition(1) # This ensures we'll get a single file during write()
df.write.mode("overwrite").csv("/NYCTaxi/PassengerCountStats_csvformat")
df.write.mode("overwrite").parquet("/NYCTaxi/PassengerCountStats_parquetformat")
Menganalisis data dalam akun penyimpanan
Anda dapat menganalisis data di akun Azure Data Lake Storage (ADLS) Gen2 default ruang kerja Anda atau Anda dapat menautkan akun penyimpanan ADLS Gen2 atau Blob ke ruang kerja Anda melalui "Kelola" "Layanan Tertaut" > > "Baru" (Langkah berikutnya akan merujuk ke akun ADLS Gen2 utama).
Di Synapse Studio, buka hub Data, lalu pilih Ditautkan.
Buka Azure Data Lake Storage Gen2>myworkspace (Utama - contosolake).
Pilih pengguna (Utama). Anda akan melihat folder NYCTaxi. Anda akan melihat dua folder PassengerCountStats_csvformat dan PassengerCountStats_parquetformat di dalamnya.
Buka folder PassengerCountStats_parquetformat. Di dalam, ada file parkequet dengan nama seperti
part-00000-2638e00c-0790-496b-a523-578da9a15019-c000.snappy.parquet
.Klik kanan .parquet, lalu pilih Buku catatan baru, lalu pilih Muat ke DataFrame. Buku catatan baru dibuat dengan sel seperti ini:
%%pyspark abspath = 'abfss://users@contosolake.dfs.core.windows.net/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet' df = spark.read.load(abspath, format='parquet') display(df.limit(10))
Lampirkan ke kumpulan Spark bernama Spark1. Jalankan sel. Jika Anda mengalami kesalahan yang terkait dengan kurangnya inti, sesi lain dapat menggunakan kumpulan spark ini kumpulan spark ini. Batalkan semua sesi yang ada dan coba lagi.
Pilih kembali ke folder pengguna. Klik kanan file .parquet lagi,lalu pilih Skrip SQL Baru>PILIH 100 baris teratas. Ini akan membuat skrip SQL seperti berikut:
SELECT TOP 100 * FROM OPENROWSET( BULK 'https://contosolake.dfs.core.windows.net/users/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet', FORMAT='PARQUET' ) AS [result]
Di jendela skrip, pastikan bidang Sambungkan ke diatur untuk kumpulan SQL tanpa server Bawaan.
Jalankan skrip.