Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Dalam tutorial ini, Anda akan mempelajari langkah-langkah dasar untuk memuat dan menganalisis data dengan Apache Spark untuk Azure Synapse.
Prasyarat
Pastikan Anda telah menempatkan data sampel di akun penyimpanan utama.
Membuat kumpulan Apache Spark tanpa server
- Di Synapse Studio, di panel sebelah kiri, pilih Kelola>kumpulan Apache Spark.
- Pilih Baru
- Untuk Nama kumpulan Apache Spark masukkan Spark1.
- For Node size enter Small.
- Untuk Jumlah node Atur jumlah minimum ke 3 dan maksimum ke 3
- Pilih Tinjau + buat>Buat. Your Apache Spark pool will be ready in a few seconds.
Memahami kumpulan Apache Spark tanpa server
Kumpulan Spark tanpa server adalah cara untuk menunjukkan bagaimana pengguna ingin bekerja dengan Spark. When you start using a pool, a Spark session is created if needed. Kumpulan mengontrol berapa banyak sumber daya Spark yang akan digunakan oleh sesi tersebut dan berapa lama sesi akan berlangsung sebelum dijeda secara otomatis. You pay for spark resources used during that session and not for the pool itself. Dengan cara ini, kumpulan Spark memungkinkan Anda menggunakan Apache Spark tanpa mengelola kluster. Ini mirip dengan cara kerja kumpulan SQL tanpa server.
Analisis data Taksi NYC dengan kumpulan Spark
Catatan
Pastikan Anda telah menempatkan data sampel di akun penyimpanan utama.
Di Synapse Studio, buka hub Kembangkan.
Buat notebook baru.
Buat sel kode baru dan tempel kode berikut di sel tersebut:
%%pyspark df = spark.read.load('abfss://users@contosolake.dfs.core.windows.net/NYCTripSmall.parquet', format='parquet') display(df.limit(10))
Ubah URI muat, agar merujuk pada file sampel di akun penyimpanan Anda sesuai dengan skema URI abfss.
Di notebook, di menu Lampirkan ke, pilih kumpulan Spark tanpa server Spark1 yang kita buat sebelumnya.
Pilih Jalankan pada sel. Synapse akan memulai sesi Spark baru untuk menjalankan sel ini jika diperlukan. Jika sesi Spark baru diperlukan, awalnya akan memakan waktu sekitar 2 hingga 5 menit untuk dibuat. Once a session is created, the execution of the cell will take about 2 seconds.
Jika Anda hanya ingin melihat skema dataframe menjalankan sel dengan kode berikut:
%%pyspark df.printSchema()
Muat data Taksi NYC ke database nyctaxi Spark
Data tersedia melalui dataframe bernama df. Muat data tersebut ke dalam database Spark bernama nyctaxi.
Tambahkan sel kode baru ke notebook, lalu masukkan kode berikut ini:
%%pyspark spark.sql("CREATE DATABASE IF NOT EXISTS nyctaxi") df.write.mode("overwrite").saveAsTable("nyctaxi.trip")
Analisis data Taksi NYC menggunakan Spark dan notebook
Buat sel kode baru dan masukkan kode berikut.
%%pyspark df = spark.sql("SELECT * FROM nyctaxi.trip") display(df)
Jalankan sel untuk menampilkan data Taksi NYC yang kita muat ke dalam database nyctaxi Spark.
Buat sel kode baru dan masukkan kode berikut. Kami akan menganalisis data ini dan menyimpan hasilnya ke dalam tabel yang disebut nyctaxi.passengercountstats.
%%pyspark df = spark.sql(""" SELECT passenger_count, SUM(trip_distance) as SumTripDistance, AVG(trip_distance) as AvgTripDistance FROM nyctaxi.trip WHERE trip_distance > 0 AND passenger_count > 0 GROUP BY passenger_count ORDER BY passenger_count """) display(df) df.write.saveAsTable("nyctaxi.passengercountstats")
Dalam hasil sel, pilih Bagan untuk melihat data yang divisualisasikan.