Menganalisis data dengan kumpulan SQL khusus
Dalam tutorial ini, gunakan data Taksi NYC untuk menjelajahi kemampuan kumpulan SQL khusus.
Membuat kumpulan SQL khusus
- Di Synapse Studio, di panel sebelah kiri, pilih Kelola>kumpulan SQL di bawah kumpulan Analytics.
- Pilih baru.
- Untuk Nama kumpulan SQL khusus pilih
SQLPOOL1
. - Untuk Tingkat performa pilih DW100C.
- Pilih Tinjau + buat>Buat. Kumpulan SQL khusus Anda akan siap dalam beberapa menit.
Kumpulan SQL khusus Anda dikaitkan dengan database SQL yang juga disebut SQLPOOL1
.
- Buka Ruang Kerja>Data.
- Anda akan melihat database bernama SQLPOOL1. Jika Anda tidak melihatnya, pilih Refresh.
Kumpulan SQL khusus menggunakan sumber daya yang dapat ditagih selama aktif. Anda dapat menjeda kumpulan nanti untuk mengurangi biaya.
Catatan
Saat membuat kumpulan SQL khusus baru (sebelumnya SQL DW) di ruang kerja Anda, halaman penyediaan kumpulan SQL khusus akan terbuka. Penyediaan akan dilakukan di server SQL logis.
Memuat Data NYC Taxi ke SQLPOOL1
Di Synapse Studio, navigasikan ke hub Kembangkan , pilih + tombol untuk menambahkan sumber daya baru, lalu buat skrip SQL baru.
Pilih kumpulan
SQLPOOL1
(kumpulan yang dibuat di LANGKAH 1 tutorial ini) di Koneksi untuk daftar drop-down di atas skrip.Masukkan kode berikut:
IF NOT EXISTS (SELECT * FROM sys.objects O JOIN sys.schemas S ON O.schema_id = S.schema_id WHERE O.NAME = 'NYCTaxiTripSmall' AND O.TYPE = 'U' AND S.NAME = 'dbo') CREATE TABLE dbo.NYCTaxiTripSmall ( [VendorID] bigint, [store_and_fwd_flag] nvarchar(1) NULL, [RatecodeID] float NULL, [PULocationID] bigint NULL, [DOLocationID] bigint NULL, [passenger_count] float NULL, [trip_distance] float NULL, [fare_amount] float NULL, [extra] float NULL, [mta_tax] float NULL, [tip_amount] float NULL, [tolls_amount] float NULL, [ehail_fee] float NULL, [improvement_surcharge] float NULL, [total_amount] float NULL, [payment_type] float NULL, [trip_type] float NULL, [congestion_surcharge] float NULL ) WITH ( DISTRIBUTION = ROUND_ROBIN, CLUSTERED COLUMNSTORE INDEX -- HEAP ) GO COPY INTO dbo.NYCTaxiTripSmall (VendorID 1, store_and_fwd_flag 4, RatecodeID 5, PULocationID 6 , DOLocationID 7, passenger_count 8,trip_distance 9, fare_amount 10, extra 11, mta_tax 12, tip_amount 13, tolls_amount 14, ehail_fee 15, improvement_surcharge 16, total_amount 17, payment_type 18, trip_type 19, congestion_surcharge 20 ) FROM 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet' WITH ( FILE_TYPE = 'PARQUET' ,MAXERRORS = 0 ,IDENTITY_INSERT = 'OFF' )
Pilih tombol Jalankan untuk menjalankan skrip.
Skrip ini selesai dalam waktu kurang dari 60 detik. Ini memuat 2 juta baris data Taksi NYC ke dalam tabel yang disebut
dbo.NYCTaxiTripSmall
.
Pelajari data NYC Taxi di kumpulan SQL khusus
Di Synapse Studio, buka hub Data.
Buka SQLPOOL1>Tabel.
Klik kanan tabel dbo.NYCTaxiTripSmall lalu pilih Skrip SQL Baru>Pilih 100 Baris TERATAS.
Tunggu sementara skrip SQL baru dibuat dan dijalankan.
Di bagian atas skrip SQL Koneksi ke diatur secara otomatis ke kumpulan SQL yang disebut SQLPOOL1.
Ganti teks skrip SQL dengan kode ini dan jalankan.
SELECT passenger_count as PassengerCount, SUM(trip_distance) as SumTripDistance_miles, AVG(trip_distance) as AvgTripDistance_miles INTO dbo.PassengerCountStats FROM dbo.NYCTaxiTripSmall WHERE trip_distance > 0 AND passenger_count > 0 GROUP BY passenger_count; SELECT * FROM dbo.PassengerCountStats ORDER BY PassengerCount;
Kueri ini membuat tabel
dbo.PassengerCountStats
dengan data agregat daritrip_distance
bidang, lalu mengkueri tabel baru. Data menunjukkan bagaimana total jarak perjalanan dan jarak perjalanan rata-rata terkait dengan jumlah penumpang.Di jendela hasil skrip SQL, ubah Tampilan ke Bagan untuk melihat visualisasi hasil dalam bentuk diagram garis. Ubah kolom Kategori menjadi
PassengerCount
.