Mulai cepat: Menganalisis dengan Apache Spark

2025-04-12

Dalam tutorial ini, Anda akan mempelajari langkah-langkah dasar untuk memuat dan menganalisis data dengan Apache Spark untuk Azure Synapse.

Prasyarat

Pastikan Anda telah menempatkan data sampel di akun penyimpanan utama.

Membuat kumpulan Apache Spark tanpa server

Di Synapse Studio, di panel sebelah kiri, pilih Kelola>kumpulan Apache Spark.
Pilih Baru
Untuk Nama kumpulan Apache Spark masukkan Spark1.
For Node size enter Small.
Untuk Jumlah node Atur jumlah minimum ke 3 dan maksimum ke 3
Pilih Tinjau + buat>Buat. Your Apache Spark pool will be ready in a few seconds.

Memahami kumpulan Apache Spark tanpa server

Kumpulan Spark tanpa server adalah cara untuk menunjukkan bagaimana pengguna ingin bekerja dengan Spark. When you start using a pool, a Spark session is created if needed. Kumpulan mengontrol berapa banyak sumber daya Spark yang akan digunakan oleh sesi tersebut dan berapa lama sesi akan berlangsung sebelum dijeda secara otomatis. You pay for spark resources used during that session and not for the pool itself. Dengan cara ini, kumpulan Spark memungkinkan Anda menggunakan Apache Spark tanpa mengelola kluster. Ini mirip dengan cara kerja kumpulan SQL tanpa server.

Analisis data Taksi NYC dengan kumpulan Spark

Catatan

Pastikan Anda telah menempatkan data sampel di akun penyimpanan utama.

Di Synapse Studio, buka hub Kembangkan.
Buat notebook baru.

Buat sel kode baru dan tempel kode berikut di sel tersebut:

%%pyspark
df = spark.read.load('abfss://users@contosolake.dfs.core.windows.net/NYCTripSmall.parquet', format='parquet')
display(df.limit(10))

Ubah URI muat, agar merujuk pada file sampel di akun penyimpanan Anda sesuai dengan skema URI abfss.
Di notebook, di menu Lampirkan ke, pilih kumpulan Spark tanpa server Spark1 yang kita buat sebelumnya.
Pilih Jalankan pada sel. Synapse akan memulai sesi Spark baru untuk menjalankan sel ini jika diperlukan. Jika sesi Spark baru diperlukan, awalnya akan memakan waktu sekitar 2 hingga 5 menit untuk dibuat. Once a session is created, the execution of the cell will take about 2 seconds.
Jika Anda hanya ingin melihat skema dataframe menjalankan sel dengan kode berikut:
```
%%pyspark
df.printSchema()
```

Muat data Taksi NYC ke database nyctaxi Spark

Data tersedia melalui dataframe bernama df. Muat data tersebut ke dalam database Spark bernama nyctaxi.

Tambahkan sel kode baru ke notebook, lalu masukkan kode berikut ini:

%%pyspark
spark.sql("CREATE DATABASE IF NOT EXISTS nyctaxi")
df.write.mode("overwrite").saveAsTable("nyctaxi.trip")

Analisis data Taksi NYC menggunakan Spark dan notebook

Buat sel kode baru dan masukkan kode berikut.

%%pyspark
df = spark.sql("SELECT * FROM nyctaxi.trip") 
display(df)

Jalankan sel untuk menampilkan data Taksi NYC yang kita muat ke dalam database nyctaxi Spark.

Buat sel kode baru dan masukkan kode berikut. Kami akan menganalisis data ini dan menyimpan hasilnya ke dalam tabel yang disebut nyctaxi.passengercountstats.

%%pyspark
df = spark.sql("""
   SELECT passenger_count,
       SUM(trip_distance) as SumTripDistance,
       AVG(trip_distance) as AvgTripDistance
   FROM nyctaxi.trip
   WHERE trip_distance > 0 AND passenger_count > 0
   GROUP BY passenger_count
   ORDER BY passenger_count
""") 
display(df)
df.write.saveAsTable("nyctaxi.passengercountstats")

Dalam hasil sel, pilih Bagan untuk melihat data yang divisualisasikan.

Langkah selanjutnya

Menganalisis data dengan kumpulan SQL khusus