Menganalisis data dengan kumpulan SQL khusus

Dalam tutorial ini, gunakan data Taksi NYC untuk menjelajahi kemampuan kumpulan SQL khusus.

Membuat kumpulan SQL khusus

  1. Di Synapse Studio, di panel sebelah kiri, pilih Kelola>kumpulan SQL di bawah kumpulan Analytics.
  2. Pilih baru.
  3. Untuk Nama kumpulan SQL khusus pilih SQLPOOL1.
  4. Untuk Tingkat performa pilih DW100C.
  5. Pilih Tinjau + buat>Buat. Kumpulan SQL khusus Anda akan siap dalam beberapa menit.

Kumpulan SQL khusus Anda dikaitkan dengan database SQL yang juga disebut SQLPOOL1.

  1. Buka Ruang Kerja>Data.
  2. Anda akan melihat database bernama SQLPOOL1. Jika Anda tidak melihatnya, pilih Refresh.

Kumpulan SQL khusus menggunakan sumber daya yang dapat ditagih selama aktif. Anda dapat menjeda kumpulan nanti untuk mengurangi biaya.

Catatan

Saat membuat kumpulan SQL khusus baru (sebelumnya SQL DW) di ruang kerja Anda, halaman penyediaan kumpulan SQL khusus akan terbuka. Penyediaan akan dilakukan di server SQL logis.

Memuat Data NYC Taxi ke SQLPOOL1

  1. Di Synapse Studio, navigasikan ke hub Kembangkan , pilih + tombol untuk menambahkan sumber daya baru, lalu buat skrip SQL baru.

  2. Pilih kumpulan SQLPOOL1 (kumpulan yang dibuat di LANGKAH 1 tutorial ini) di Koneksi untuk daftar drop-down di atas skrip.

  3. Masukkan kode berikut:

    IF NOT EXISTS (SELECT * FROM sys.objects O JOIN sys.schemas S ON O.schema_id = S.schema_id WHERE O.NAME = 'NYCTaxiTripSmall' AND O.TYPE = 'U' AND S.NAME = 'dbo')
    CREATE TABLE dbo.NYCTaxiTripSmall
        (
        [VendorID] bigint, 
        [store_and_fwd_flag] nvarchar(1) NULL, 
        [RatecodeID] float NULL, 
        [PULocationID] bigint NULL,  
        [DOLocationID] bigint NULL, 
        [passenger_count] float NULL, 
        [trip_distance] float NULL, 
        [fare_amount] float NULL, 
        [extra] float NULL, 
        [mta_tax] float NULL, 
        [tip_amount] float NULL, 
        [tolls_amount] float NULL, 
        [ehail_fee] float NULL, 
        [improvement_surcharge] float NULL, 
        [total_amount] float NULL, 
        [payment_type] float NULL, 
        [trip_type] float NULL, 
        [congestion_surcharge] float  NULL
        )
    WITH
        (
        DISTRIBUTION = ROUND_ROBIN,
         CLUSTERED COLUMNSTORE INDEX
         -- HEAP
        )
    GO
    
    COPY INTO dbo.NYCTaxiTripSmall
    (VendorID 1, store_and_fwd_flag 4, RatecodeID 5,  PULocationID 6 , DOLocationID 7,  
     passenger_count 8,trip_distance 9, fare_amount 10, extra 11, mta_tax 12, tip_amount 13, 
     tolls_amount 14, ehail_fee 15, improvement_surcharge 16, total_amount 17, 
     payment_type 18, trip_type 19, congestion_surcharge 20 )
    FROM 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet'
    WITH
    (
        FILE_TYPE = 'PARQUET'
        ,MAXERRORS = 0
        ,IDENTITY_INSERT = 'OFF'
    )
    
  4. Pilih tombol Jalankan untuk menjalankan skrip.

  5. Skrip ini selesai dalam waktu kurang dari 60 detik. Ini memuat 2 juta baris data Taksi NYC ke dalam tabel yang disebut dbo.NYCTaxiTripSmall.

Pelajari data NYC Taxi di kumpulan SQL khusus

  1. Di Synapse Studio, buka hub Data.

  2. Buka SQLPOOL1>Tabel.

  3. Klik kanan tabel dbo.NYCTaxiTripSmall lalu pilih Skrip SQL Baru>Pilih 100 Baris TERATAS.

  4. Tunggu sementara skrip SQL baru dibuat dan dijalankan.

  5. Di bagian atas skrip SQL Koneksi ke diatur secara otomatis ke kumpulan SQL yang disebut SQLPOOL1.

  6. Ganti teks skrip SQL dengan kode ini dan jalankan.

    SELECT passenger_count as PassengerCount,
          SUM(trip_distance) as SumTripDistance_miles,
          AVG(trip_distance) as AvgTripDistance_miles
    INTO dbo.PassengerCountStats
    FROM  dbo.NYCTaxiTripSmall
    WHERE trip_distance > 0 AND passenger_count > 0
    GROUP BY passenger_count;
    
    SELECT * FROM dbo.PassengerCountStats
    ORDER BY PassengerCount;
    

    Kueri ini membuat tabel dbo.PassengerCountStats dengan data agregat dari trip_distance bidang, lalu mengkueri tabel baru. Data menunjukkan bagaimana total jarak perjalanan dan jarak perjalanan rata-rata terkait dengan jumlah penumpang.

  7. Di jendela hasil skrip SQL, ubah Tampilan ke Bagan untuk melihat visualisasi hasil dalam bentuk diagram garis. Ubah kolom Kategori menjadi PassengerCount.

Langkah selanjutnya